Definição
LLM-como-juiz é uma abordagem de avaliação escalável onde um LLM pontua saídas contra uma rubrica. É muito mais rápido do que avaliação humana, mas introduz seus próprios vieses (posição, comprimento, autopreferência). Melhor prática: parear LLM-como-juiz com verificações humanas pontuais, usar rubricas com exemplos e validar o próprio modelo juiz com um conjunto rotulado.
Exemplo
Um arcabouço de avaliação usa Claude como juiz para pontuar 1.000 respostas RAG em fidelidade, relevância e correção de citações.
Como a Vedwix usa isto
Usamos LLM-como-juiz para rodadas de avaliação de alto volume, com revisão humana em uma amostra de 5-10%.
Trabalhando em um projeto de LLM como juiz?
LLM como juiz.
Descreva seu projeto em três frases ou menos.
Iniciar um projeto