Glosario · Español

LLM como juez

Usar un LLM para evaluar las salidas de otro LLM (o de sí mismo) contra criterios.

Español · Spanish

Definición

LLM-como-juez es un enfoque de evaluación escalable donde un LLM califica salidas contra una rúbrica. Es mucho más rápido que la evaluación humana, pero introduce sus propios sesgos (posición, longitud, auto-preferencia). Mejor práctica: emparejar LLM-como-juez con verificaciones humanas puntuales, usar rúbricas con ejemplos, y validar el modelo juez con un conjunto etiquetado.

Ejemplo

Un arnés de evaluación usa Claude como juez para calificar 1.000 respuestas RAG en fidelidad, relevancia y corrección de citas.

Cómo Vedwix usa esto

Usamos LLM-como-juez para rondas de evaluación de alto volumen, con revisión humana en una muestra del 5-10%.

Trabajando en un proyecto de LLM como juez?

LLM como juez.

Cuéntanos sobre tu proyecto en tres frases o menos.

Iniciar un proyecto

LLM como juez

Cuéntanos sobre tu proyecto en tres frases o menos.

Iniciar un proyecto