生成AI

LLMOps：評価基盤の設計編 — Langfuse 活用

2026年4月21日·16 分

LLMOps Langfuse LLM-as-a-Judge 評価基盤 Human Annotation

こんにちは。ガオ株式会社の黒澤です。以前「LLMOpsとは? MLOpsとの違いや生成AIの評価について解説」で LLMOps の全体像を整理しました。

LLMOps：評価基盤の運用編 — Langfuse 活用

2026年4月21日·10 分

LLMOps Langfuse LLM-as-a-Judge 評価基盤 Human Annotation

こんにちは。ガオ株式会社の黒澤です。本記事は「LLMOps：評価基盤の設計編 — Langfuse 活用」の続編です。設計編では評価軸の定義から Judge プロンプト設計・ゴールデンデータセット構築・メタ評価（Cohen’s Kappa・Confusion Matrix）まで解説しました。本記事ではその後の「誰が・いつ・どうやって評価を運用するか」を整理します。

↑