メインコンテンツへスキップ

Code Evaluators

LLM-as-a-Judgeだけでは足りない? Langfuse Code Evaluatorsで評価を設計し直す

本記事でわかること # LLM-as-a-Judgeの「苦手な評価」とは何か Langfuseのコード評価(Code Evaluators)機能の概要と使い方 コード評価をLLM評価と組み合わせた実践的な運用パターン INACTIVEなエバリュータへの手動バッチ実行を活用した安全な本番導入フロー 対象読者 # LangfuseでLLM-as-a-Judgeを使っているエンジニア 評価コストや判定のブレに課題を感じている方 Langfuseの評価機能を本番導入する前に安全に試したい方 LLM-as-a-Judgeだけでは足りないケース # LLMアプリを本番運用していると、こんな疑問が浮かぶことがあります。「この評価、本当にLLMが必要?」