技術解説

Langfuse 組み込み MCP サーバ機能の大幅拡張

2026年6月23日·10 分

2026年5月末、Langfuse に組み込まれた MCP サーバ機能が大幅に拡張されました。SaaS版では 2026-05-29 の changelog で告知され、self-host版では v3.176.0（2026-05-28）で標記の機能が一通り出揃っています。これまでLangfuseが提供してきた組み込みのMCPサーバ機能はプロンプト管理機能だけでしたが、今回一連の拡張で observation・metrics・scores・datasets・comments・annotation queues など、プロジェクトデータの大半を MCP 経由で扱えるようになりました。

Langfuse MonitorsでLLMアプリの異常を自動検知する

2026年6月15日·19 分

Langfuse LLMOps Monitors アラート監視 Slack通知

本記事でわかること # 対象環境: 本記事の内容はLangfuse Cloud環境が対象です。セルフホスト環境では現時点でMonitors機能は利用できません。

DeepTeam で RAG にプロンプト攻撃を投げてみた

2026年6月1日·13 分

AI LLM セキュリティ DeepTeam Langfuse

概要 # DeepTeam は LLM アプリの脆弱性を自動で突きにいく OSS（Confident AI 製、DeepEval の兄弟） 50+ の脆弱性カテゴリと多数の攻撃手法（バージョンにより増減）を組み合わせてくれるので、自分で攻撃プロンプトを考えなくていい Acme 社という架空のヘルプデスク Bot にプロンプトインジェクション × 3 をぶつけたら、Gemini 2.5 Flash + 短いシステムプロンプトで今回の 3 ケースでは漏洩なし (Mitigation 100%) Langfuse に @observe + create_score を入れるだけで、攻撃シミュレーションの結果が時系列ダッシュボードになる単発の CLI 結果で終わらせず、Trace・Score・Session として保存して PR ごと・リリースごとに差分を追える状態を作るのが本記事のゴール 1. DeepTeam とは # DeepTeam は、LLM アプリに対する攻撃シミュレーション（英語圏では “red teaming”）を自動化するフレームワークです。評価フレームワーク DeepEval の兄弟プロダクトで、Confident AI が出しています。

LLM-as-a-Judgeだけでは足りない？ Langfuse Code Evaluatorsで評価を設計し直す

2026年5月29日·15 分

Langfuse LLMOps Code Evaluators LLM-as-a-Judge 評価設計

本記事でわかること # LLM-as-a-Judgeの「苦手な評価」とは何か Langfuseのコード評価（Code Evaluators）機能の概要と使い方コード評価をLLM評価と組み合わせた実践的な運用パターン INACTIVEなエバリュータへの手動バッチ実行を活用した安全な本番導入フロー対象読者 # LangfuseでLLM-as-a-Judgeを使っているエンジニア評価コストや判定のブレに課題を感じている方 Langfuseの評価機能を本番導入する前に安全に試したい方 LLM-as-a-Judgeだけでは足りないケース # LLMアプリを本番運用していると、こんな疑問が浮かぶことがあります。「この評価、本当にLLMが必要？」

↑