RAG評価（RAG Triad）

「RAG評価（RAG Triad：ラグ・トライアド）」とは、生成AI（LLM）に外部知識を結合させて回答させる「RAG（検索拡張生成）」システムの開発において、回答の精度や安全性を客観的に評価するために用いられる、3つの評価軸で構成されたフレームワークです。

TruLensなどの評価ツールによって提唱されており、開発者が「検索プロセスのバグ」「LLMのハルシネーション（もっともらしい嘘）」などの問題がRAGシステムのどこで発生しているかを特定するための標準モデルとして機能します。

この記事の3大要点（30秒でわかる要約）

Context Relevance（コンテキスト適合性）: ユーザーの質問に対し、データベースから「本当に適切な資料」を検索してこられたか。無関係なゴミデータを拾っていないかを評価する。
Groundedness（回答の忠実性・事実性）: 生成された回答が、検索されたソースデータ「のみ」に基づいているか。ソースにない独自のデタラメ（ハルシネーション）をLLMが勝手に混ぜていないかを測る。
Answer Relevance（質問への関連性）: 完成したAIの回答が、最初のユーザーの質問や意図に対して「ズレずに正しく答えているか」を評価する。

RAG評価が必要とされる背景と「LLM-as-a-Judge（評価者としてのLLM）」

RAGシステムは「検索（Retrieval）」と「生成（Generation）」の二重構造になっており、回答が間違っている際に「検索モジュールのヒット精度が悪いのか」「LLMが嘘をついているのか」の原因切り分けが極めて困難でした。RAG Triadは、この2つのプロセスを3つの評価パスで切り離すことで、バグ箇所を可視化します。これらの測定は、人手で行うとコストがかかるため、GPT-4などの高性能なLLMに評価用プロンプトを与えてスコアリングさせる「LLM-as-a-Judge（評価者としてのLLM）」というアプローチが一般的です。

「RAG Triad」の具体的な会話例・使い方

問い合わせAIボットの回答精度を向上させたいエンジニアの会話

エンジニアA：「テストデータを入れてみたら、AIが嘘の製品仕様をユーザーに回答しちゃった。どこを修正すればいいかな？」

エンジニアB：「まずはRAG Triadのスコアを見てみよう。もしGroundedness（忠実性）が低いなら、LLMのプロンプトで『検索結果以外の情報を絶対に話さないこと』と指示を強化すれば直るよ。もしContext Relevanceが低いなら、ベクトルデータベースのインデックスや埋め込みモデルを見直すべきだね。」

RAG Triadの3大評価指標のマトリクス

評価軸	測定対象	スコア低下時の原因・対策
Context Relevance	質問 ➔ 検索コンテキスト	データベース検索精度不足。チャンク分割サイズ調整やハイブリッド検索が必要。
Groundedness	検索コンテキスト ➔ 回答	LLMのハルシネーション（妄想）。システムプロンプトの厳密化やモデル変更が必要。
Answer Relevance	質問 ➔ 回答	回答のピントズレ。質問要約モデルの追加や、コンテキスト圧縮が必要。

よくある疑問（FAQ）

Q：評価に使う「LLM-as-a-Judge」って本当に信用できるの？

A：人間による手動評価との一致率は「8割〜9割程度」とされ、実用上非常に高い相関があります。ただし、LLM評価には「自分が生成したテキストに甘いスコアをつけるバイアス（自己優先バイアス）」や「回答の順番によってスコアが変わる（位置バイアス）」など独自の癖があります。アライメント時にはこれらのバイアスを排除するため、複数モデルで評価をクロスチェックさせるのが一般的です。

RAG開発運用のための監視・評価マナー

RAGシステムを本番にデプロイして運用する際、ログデータに対して継続的な自動評価を回し続けるのが運用の基本マナーです。データやユーザーの質問の傾向は日々変わるため（データドリフト）、リリース初期は高精度でも時間の経過とともに回答精度が劣化します。RAG Triadによる自動評価のスコアをダッシュボード化し、アラート基準を設定して「精度が下がったら即座にインデックスを再作成する」といった運用の好循環を設計することが求められます。

「RAG評価（RAG Triad）」について

当ページは、意味・業界用語集における「RAG評価（RAG Triad）」の解説ページです。専門用語の意味や使い方について加筆・修正のご要望がございましたら、お問い合わせフォームよりお気軽にご連絡ください。