技術解説 on GAO AI Blog

LLM-as-a-Judgeだけでは足りない？ Langfuse Code Evaluatorsで評価を設計し直す

Fri, 29 May 2026 16:52:00 +0900

本記事でわかること
#

LLM-as-a-Judgeの「苦手な評価」とは何か
Langfuseのコード評価（Code Evaluators）機能の概要と使い方
コード評価をLLM評価と組み合わせた実践的な運用パターン
INACTIVEなエバリュータへの手動バッチ実行を活用した安全な本番導入フロー

対象読者
#

LangfuseでLLM-as-a-Judgeを使っているエンジニア
評価コストや判定のブレに課題を感じている方
Langfuseの評価機能を本番導入する前に安全に試したい方

LLM-as-a-Judgeだけでは足りないケース
#

LLMアプリを本番運用していると、こんな疑問が浮かぶことがあります。「この評価、本当にLLMが必要？」