RLHF(人間のフィードバックによる強化学習)
「RLHF」とは、大規模言語モデル(LLM)の出力を人間が評価し、そのフィードバックに基づいて報酬モデルを作成し、強化学習を用いてモデルの挙動を調整(アライメント)する手法のことです。
「RLHF」とは、大規模言語モデル(LLM)の出力を人間が評価し、そのフィードバックに基づいて報酬モデルを作成し、強化学習を用いてモデルの挙動を調整(アライメント)する手法のことです。
「基盤モデル(Foundation Model)」とは、膨大なデータを用いて大規模に事前学習され、幅広い下流タスク(テキスト生成、画像認識、翻訳など)に微調整・適応可能な、現代AIの基礎となる大規模モデルのことです。
「ハルシネーション対策」とは、大規模言語モデル(LLM)が出力する「事実とは異なるもっともらしい嘘(ハルシネーション)」を検出、防止、抑制するための技術的アプローチや設計手法のことです。
「スモールランゲージモデル(SLM)」とは、パラメータ数を数億〜数十億程度に抑え、スマートフォンやPCなどの軽量なハードウェアでも超高速かつ低コストで動くように設計された軽量言語モデルのことです。
「ファインチューニング(追加学習)」とは、事前学習済みの大規模なベースモデルに対し、特定の業界データや専門データを用いて追加で学習させることで、特定タスクの精度を高めるチューニング手法のことです。
「RAG評価(RAG Triad)」とは、RAGシステムにおいて、「コンテキスト適合性」「回答の忠実性」「質問への関連性」の3つの評価軸を用いてシステムの回答精度を測定するフレームワークのことです。
「合成データ(Synthetic Data)」とは、現実世界で収集されたデータではなく、アルゴリズムやシミュレーション、AIモデルを用いて人工的に生成された、機械学習の学習用データのことです。