評価基盤 · GAO AI Blog

LangfuseでLLM-as-a-Judgeの評価をカテゴリ化する ― 数値しきい値に頼らない評価設計

2026年4月29日·11 分

Langfuse LLM-as-a-Judge LLM評価 LLMOps 評価基盤

本記事でわかること # LLM-as-a-Judgeで数値スコアを使うことの問題点 Langfuseのカテゴリ型・Boolean型スコアを使って、直感的な Evaluator を設計する方法 JSON Schemaによる型安全な評価出力の仕組み RAG精度・コンテンツ安全性・サポートチケット分類など実務ユースケースへの適用例対象読者 # Langfuseで LLM-as-a-Judge（自動評価）を運用している方評価スコアのしきい値設定に迷いを感じている方評価結果をダッシュボードで分析しやすくしたい方「0.7以上なら合格」という設計の脆さ # 本番LLMアプリの評価パイプラインを運用していると、自動評価（LLM-as-a-Judge）はもはや欠かせない仕組みです。人間がすべてのトレースをレビューするのは非現実的なため、LLMに評価させるアプローチが普及してきました。

LLMOps：評価基盤の設計編 — Langfuse 活用

2026年4月21日·16 分

LLMOps Langfuse LLM-as-a-Judge 評価基盤 Human Annotation

こんにちは。ガオ株式会社の黒澤です。以前「LLMOpsとは? MLOpsとの違いや生成AIの評価について解説」で LLMOps の全体像を整理しました。

LLMOps：評価基盤の運用編 — Langfuse 活用

2026年4月21日·10 分

LLMOps Langfuse LLM-as-a-Judge 評価基盤 Human Annotation

こんにちは。ガオ株式会社の黒澤です。本記事は「LLMOps：評価基盤の設計編 — Langfuse 活用」の続編です。設計編では評価軸の定義から Judge プロンプト設計・ゴールデンデータセット構築・メタ評価（Cohen’s Kappa・Confusion Matrix）まで解説しました。本記事ではその後の「誰が・いつ・どうやって評価を運用するか」を整理します。