定義
LLM審査員は、LLMがルーブリックに対して出力を採点するスケーラブルな評価アプローチです。人間の評価よりもはるかに高速ですが、独自のバイアス(位置、長さ、自己優先)を導入します。ベストプラクティス: LLM審査員と人間のスポットチェックを組み合わせ、例付きのルーブリックを使用し、ラベル付きセットで審査員モデル自体を検証します。
例
評価ハーネスは、Claudeを審査員として使用し、忠実性、関連性、引用の正確性で1,000のRAG応答を採点します。
Vedwixでの使用方法
大量評価ラウンドにLLM審査員を使用し、5〜10%のサンプルで人間レビューを行います。