<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>技術解説 on GAO AI Blog</title><link>https://blog.gao-ai.com/categories/%E6%8A%80%E8%A1%93%E8%A7%A3%E8%AA%AC/</link><description>Recent content in 技術解説 on GAO AI Blog</description><generator>Hugo -- gohugo.io</generator><language>ja</language><copyright>© ガオ株式会社 All Rights Reserved.</copyright><lastBuildDate>Fri, 29 May 2026 16:52:00 +0900</lastBuildDate><atom:link href="https://blog.gao-ai.com/categories/%E6%8A%80%E8%A1%93%E8%A7%A3%E8%AA%AC/index.xml" rel="self" type="application/rss+xml"/><item><title>LLM-as-a-Judgeだけでは足りない？ Langfuse Code Evaluatorsで評価を設計し直す</title><link>https://blog.gao-ai.com/posts/langfuse-code-evaluators/</link><pubDate>Fri, 29 May 2026 16:52:00 +0900</pubDate><guid>https://blog.gao-ai.com/posts/langfuse-code-evaluators/</guid><description>&lt;h2 class="relative group"&gt;本記事でわかること
 &lt;div id="本記事でわかること" class="anchor"&gt;&lt;/div&gt;
 
 &lt;span
 class="absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none"&gt;
 &lt;a class="text-primary-300 dark:text-neutral-700 !no-underline" href="#%e6%9c%ac%e8%a8%98%e4%ba%8b%e3%81%a7%e3%82%8f%e3%81%8b%e3%82%8b%e3%81%93%e3%81%a8" aria-label="アンカー"&gt;#&lt;/a&gt;
 &lt;/span&gt;
 
&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;LLM-as-a-Judgeの「苦手な評価」とは何か&lt;/li&gt;
&lt;li&gt;Langfuseのコード評価（Code Evaluators）機能の概要と使い方&lt;/li&gt;
&lt;li&gt;コード評価をLLM評価と組み合わせた実践的な運用パターン&lt;/li&gt;
&lt;li&gt;INACTIVEなエバリュータへの手動バッチ実行を活用した安全な本番導入フロー&lt;/li&gt;
&lt;/ul&gt;

&lt;h2 class="relative group"&gt;対象読者
 &lt;div id="対象読者" class="anchor"&gt;&lt;/div&gt;
 
 &lt;span
 class="absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none"&gt;
 &lt;a class="text-primary-300 dark:text-neutral-700 !no-underline" href="#%e5%af%be%e8%b1%a1%e8%aa%ad%e8%80%85" aria-label="アンカー"&gt;#&lt;/a&gt;
 &lt;/span&gt;
 
&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;LangfuseでLLM-as-a-Judgeを使っているエンジニア&lt;/li&gt;
&lt;li&gt;評価コストや判定のブレに課題を感じている方&lt;/li&gt;
&lt;li&gt;Langfuseの評価機能を本番導入する前に安全に試したい方&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;

&lt;h2 class="relative group"&gt;LLM-as-a-Judgeだけでは足りないケース
 &lt;div id="llm-as-a-judgeだけでは足りないケース" class="anchor"&gt;&lt;/div&gt;
 
 &lt;span
 class="absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none"&gt;
 &lt;a class="text-primary-300 dark:text-neutral-700 !no-underline" href="#llm-as-a-judge%e3%81%a0%e3%81%91%e3%81%a7%e3%81%af%e8%b6%b3%e3%82%8a%e3%81%aa%e3%81%84%e3%82%b1%e3%83%bc%e3%82%b9" aria-label="アンカー"&gt;#&lt;/a&gt;
 &lt;/span&gt;
 
&lt;/h2&gt;
&lt;p&gt;LLMアプリを本番運用していると、こんな疑問が浮かぶことがあります。「この評価、本当にLLMが必要？」&lt;/p&gt;</description></item></channel></rss>