<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>LLM評価 on GAO AI Blog</title><link>https://gao-blog-7a8ba9.gitlab.io/tags/llm%E8%A9%95%E4%BE%A1/</link><description>Recent content in LLM評価 on GAO AI Blog</description><generator>Hugo -- gohugo.io</generator><language>ja</language><copyright>© ガオ株式会社 All Rights Reserved.</copyright><lastBuildDate>Fri, 27 Feb 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://gao-blog-7a8ba9.gitlab.io/tags/llm%E8%A9%95%E4%BE%A1/index.xml" rel="self" type="application/rss+xml"/><item><title>LLMアプリの評価データをバージョン管理する - Langfuseのデータセットバージョニングで実験の再現性を確保する</title><link>https://gao-blog-7a8ba9.gitlab.io/posts/2026-02-27-llm%E3%82%A2%E3%83%97%E3%83%AA%E3%81%AE%E8%A9%95%E4%BE%A1%E3%83%87%E3%83%BC%E3%82%BF%E3%82%92%E3%83%90%E3%83%BC%E3%82%B8%E3%83%A7%E3%83%B3%E7%AE%A1%E7%90%86%E3%81%99%E3%82%8B-langfuse%E3%81%AE%E3%83%87%E3%83%BC%E3%82%BF%E3%82%BB%E3%83%83%E3%83%88%E3%83%90%E3%83%BC%E3%82%B8%E3%83%A7%E3%83%8B%E3%83%B3%E3%82%B0%E3%81%A7%E5%AE%9F%E9%A8%93%E3%81%AE%E5%86%8D%E7%8F%BE%E6%80%A7%E3%82%92%E7%A2%BA%E4%BF%9D%E3%81%99%E3%82%8B/</link><pubDate>Fri, 27 Feb 2026 00:00:00 +0000</pubDate><guid>https://gao-blog-7a8ba9.gitlab.io/posts/2026-02-27-llm%E3%82%A2%E3%83%97%E3%83%AA%E3%81%AE%E8%A9%95%E4%BE%A1%E3%83%87%E3%83%BC%E3%82%BF%E3%82%92%E3%83%90%E3%83%BC%E3%82%B8%E3%83%A7%E3%83%B3%E7%AE%A1%E7%90%86%E3%81%99%E3%82%8B-langfuse%E3%81%AE%E3%83%87%E3%83%BC%E3%82%BF%E3%82%BB%E3%83%83%E3%83%88%E3%83%90%E3%83%BC%E3%82%B8%E3%83%A7%E3%83%8B%E3%83%B3%E3%82%B0%E3%81%A7%E5%AE%9F%E9%A8%93%E3%81%AE%E5%86%8D%E7%8F%BE%E6%80%A7%E3%82%92%E7%A2%BA%E4%BF%9D%E3%81%99%E3%82%8B/</guid><description>&lt;p&gt;LLMアプリケーションの開発で、こんな経験はないでしょうか。&lt;/p&gt;
&lt;p&gt;「先週と同じ条件で実験したいのに、データセットを更新したから再現できない…」&lt;/p&gt;
&lt;p&gt;「評価データを改善したいけど、過去の結果と比較できなくなるのが怖い…」&lt;/p&gt;</description></item><item><title>Langfuse の Observation レベル評価：「どのステップが悪いのか」をスコアで特定できるようになった</title><link>https://gao-blog-7a8ba9.gitlab.io/posts/2026-02-26-langfuse-%E3%81%AE-observation-%E3%83%AC%E3%83%99%E3%83%AB%E8%A9%95%E4%BE%A1-%E3%81%A9%E3%81%AE%E3%82%B9%E3%83%86%E3%83%83%E3%83%97%E3%81%8C%E6%82%AA%E3%81%84%E3%81%AE%E3%81%8B-%E3%82%92%E3%82%B9%E3%82%B3%E3%82%A2%E3%81%A7%E7%89%B9%E5%AE%9A%E3%81%A7%E3%81%8D%E3%82%8B%E3%82%88%E3%81%86%E3%81%AB%E3%81%AA%E3%81%A3%E3%81%9F/</link><pubDate>Thu, 26 Feb 2026 00:00:00 +0000</pubDate><guid>https://gao-blog-7a8ba9.gitlab.io/posts/2026-02-26-langfuse-%E3%81%AE-observation-%E3%83%AC%E3%83%99%E3%83%AB%E8%A9%95%E4%BE%A1-%E3%81%A9%E3%81%AE%E3%82%B9%E3%83%86%E3%83%83%E3%83%97%E3%81%8C%E6%82%AA%E3%81%84%E3%81%AE%E3%81%8B-%E3%82%92%E3%82%B9%E3%82%B3%E3%82%A2%E3%81%A7%E7%89%B9%E5%AE%9A%E3%81%A7%E3%81%8D%E3%82%8B%E3%82%88%E3%81%86%E3%81%AB%E3%81%AA%E3%81%A3%E3%81%9F/</guid><description>&lt;p&gt;こんにちは。ガオ株式会社の黒澤です。&lt;/p&gt;
&lt;p&gt;Langfuse v3.153.0 で [PR &lt;a href="https://www.gao-ai.com/blog/hashtags/11861" target="_blank" rel="noopener noreferrer"&gt;#11861&lt;/a&gt;
](&lt;a href="https://github.com/langfuse/langfuse/pull/11861" target="_blank" rel="noopener noreferrer"&gt;https://github.com/langfuse/langfuse/pull/11861&lt;/a&gt;
) がマージされ、LLM-as-a-Judge を Observation 単位で実行できるようになりました。本記事ではその背景と使い方をまとめます。&lt;/p&gt;</description></item><item><title>【入門編】Langfuseで画像OCRの精度検証をシンプルに始める方法</title><link>https://gao-blog-7a8ba9.gitlab.io/posts/2026-01-26-%E5%85%A5%E9%96%80%E7%B7%A8-langfuse%E3%81%A7%E7%94%BB%E5%83%8Focr%E3%81%AE%E7%B2%BE%E5%BA%A6%E6%A4%9C%E8%A8%BC%E3%82%92%E3%82%B7%E3%83%B3%E3%83%97%E3%83%AB%E3%81%AB%E5%A7%8B%E3%82%81%E3%82%8B%E6%96%B9%E6%B3%95/</link><pubDate>Mon, 26 Jan 2026 00:00:00 +0000</pubDate><guid>https://gao-blog-7a8ba9.gitlab.io/posts/2026-01-26-%E5%85%A5%E9%96%80%E7%B7%A8-langfuse%E3%81%A7%E7%94%BB%E5%83%8Focr%E3%81%AE%E7%B2%BE%E5%BA%A6%E6%A4%9C%E8%A8%BC%E3%82%92%E3%82%B7%E3%83%B3%E3%83%97%E3%83%AB%E3%81%AB%E5%A7%8B%E3%82%81%E3%82%8B%E6%96%B9%E6%B3%95/</guid><description>&lt;p&gt;Geminiの性能向上によりOCRは実用的になりましたが、高精度を目指すならプロンプト調整は必須です。しかし、調整のたびに画像と結果を目視で見比べるのは、手間がかかりミスも誘発します。&lt;/p&gt;</description></item><item><title>LangfuseのExperiments Compare ViewのBaseline機能を解説</title><link>https://gao-blog-7a8ba9.gitlab.io/posts/2026-01-09-langfuse%E3%81%AEexperiments-compare-view%E3%81%AEbaseline%E6%A9%9F%E8%83%BD%E3%82%92%E8%A7%A3%E8%AA%AC/</link><pubDate>Fri, 09 Jan 2026 00:00:00 +0000</pubDate><guid>https://gao-blog-7a8ba9.gitlab.io/posts/2026-01-09-langfuse%E3%81%AEexperiments-compare-view%E3%81%AEbaseline%E6%A9%9F%E8%83%BD%E3%82%92%E8%A7%A3%E8%AA%AC/</guid><description>&lt;h2 class="relative group"&gt;はじめに
 &lt;div id="はじめに" class="anchor"&gt;&lt;/div&gt;
 
 &lt;span
 class="absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none"&gt;
 &lt;a class="text-primary-300 dark:text-neutral-700 !no-underline" href="#%e3%81%af%e3%81%98%e3%82%81%e3%81%ab" aria-label="アンカー"&gt;#&lt;/a&gt;
 &lt;/span&gt;
 
&lt;/h2&gt;
&lt;p&gt;LLMアプリケーションの開発において、プロンプトの改善は避けて通れない作業です。しかし、プロンプトを変更するたびに、こんな不安を感じたことはありませんか？&lt;/p&gt;</description></item><item><title>Agent Development Kit (ADK) のエージェント評価を試してみた！</title><link>https://gao-blog-7a8ba9.gitlab.io/posts/2025-04-11-agent-development-kit-adk-%E3%81%AE%E3%82%A8%E3%83%BC%E3%82%B8%E3%82%A7%E3%83%B3%E3%83%88%E8%A9%95%E4%BE%A1%E3%82%92%E8%A9%A6%E3%81%97%E3%81%A6%E3%81%BF%E3%81%9F/</link><pubDate>Fri, 11 Apr 2025 00:00:00 +0000</pubDate><guid>https://gao-blog-7a8ba9.gitlab.io/posts/2025-04-11-agent-development-kit-adk-%E3%81%AE%E3%82%A8%E3%83%BC%E3%82%B8%E3%82%A7%E3%83%B3%E3%83%88%E8%A9%95%E4%BE%A1%E3%82%92%E8%A9%A6%E3%81%97%E3%81%A6%E3%81%BF%E3%81%9F/</guid><description>&lt;p&gt;最近話題の Google 製 AI エージェントフレームワーク「Agent Development Kit (ADK)」を触ってみました！ Gemini モデルとの連携がしやすく、柔軟なエージェント開発が可能とのことで、期待が高まります。エージェントが自律的にツールを使うのは凄いですが、ちゃんと意図通り動くか、修正で壊れないかを確認する「評価」も重要ですよね。&lt;/p&gt;</description></item><item><title>LLMOpsとは? MLOpsとの違いや生成AIの評価について解説</title><link>https://gao-blog-7a8ba9.gitlab.io/posts/2025-03-27-llmops%E3%81%A8%E3%81%AF-mlops%E3%81%A8%E3%81%AE%E9%81%95%E3%81%84%E3%82%84%E7%94%9F%E6%88%90ai%E3%81%AE%E8%A9%95%E4%BE%A1%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6%E8%A7%A3%E8%AA%AC/</link><pubDate>Thu, 27 Mar 2025 00:00:00 +0000</pubDate><guid>https://gao-blog-7a8ba9.gitlab.io/posts/2025-03-27-llmops%E3%81%A8%E3%81%AF-mlops%E3%81%A8%E3%81%AE%E9%81%95%E3%81%84%E3%82%84%E7%94%9F%E6%88%90ai%E3%81%AE%E8%A9%95%E4%BE%A1%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6%E8%A7%A3%E8%AA%AC/</guid><description>&lt;p&gt;更新日：2025年4月25日&lt;/p&gt;

&lt;h2 class="relative group"&gt;LLMOps とは？
 &lt;div id="llmops-とは" class="anchor"&gt;&lt;/div&gt;
 
 &lt;span
 class="absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none"&gt;
 &lt;a class="text-primary-300 dark:text-neutral-700 !no-underline" href="#llmops-%e3%81%a8%e3%81%af" aria-label="アンカー"&gt;#&lt;/a&gt;
 &lt;/span&gt;
 
&lt;/h2&gt;
&lt;p&gt;LLMOps（Large Language Model Operations）とは、大規模言語モデル（LLM）を利用した生成AIアプリケーションの開発から運用、改善までを一貫して管理するための考え方や仕組み（フレームワーク）です。多くの企業では、自社でモデルをゼロから構築するのではなく、OpenAI、Google、Anthropic などが提供する基盤モデルを活用し、プロンプト設計やファインチューニング（微調整）を通じて目的に合った生成AIアプリケーションを開発しています。LLMOpsは、こうした開発・運用プロセスを効率化し、品質管理やガバナンスを実現する上で重要な役割を果たします。&lt;/p&gt;</description></item><item><title>Langfuse で LLM 評価を効率化！活用方法徹底解説</title><link>https://gao-blog-7a8ba9.gitlab.io/posts/2025-02-05-langfuse-%E3%81%A7-llm-%E8%A9%95%E4%BE%A1%E3%82%92%E5%8A%B9%E7%8E%87%E5%8C%96-%E6%B4%BB%E7%94%A8%E6%96%B9%E6%B3%95%E5%BE%B9%E5%BA%95%E8%A7%A3%E8%AA%AC/</link><pubDate>Wed, 05 Feb 2025 00:00:00 +0000</pubDate><guid>https://gao-blog-7a8ba9.gitlab.io/posts/2025-02-05-langfuse-%E3%81%A7-llm-%E8%A9%95%E4%BE%A1%E3%82%92%E5%8A%B9%E7%8E%87%E5%8C%96-%E6%B4%BB%E7%94%A8%E6%96%B9%E6%B3%95%E5%BE%B9%E5%BA%95%E8%A7%A3%E8%AA%AC/</guid><description>&lt;p&gt;更新日：2025年4月10日&lt;/p&gt;

&lt;h3 class="relative group"&gt;1.初めに
 &lt;div id="1初めに" class="anchor"&gt;&lt;/div&gt;
 
 &lt;span
 class="absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none"&gt;
 &lt;a class="text-primary-300 dark:text-neutral-700 !no-underline" href="#1%e5%88%9d%e3%82%81%e3%81%ab" aria-label="アンカー"&gt;#&lt;/a&gt;
 &lt;/span&gt;
 
&lt;/h3&gt;
&lt;p&gt;近年、AI 技術、特に大規模言語モデル（LLM）の進化は目覚ましく、様々な分野での活用が進んでいます。しかし、LLM をビジネスに適用する上で、その品質をどのように評価するかが大きな課題となっています。&lt;/p&gt;</description></item></channel></rss>