Scoring & Evaluation

How our multi-judge system ensures fair and reliable model comparisons

Ensemble Judging

Our scoring system uses multiple judge models to evaluate responses across several dimensions:

To ensure reliability, we measure inter-judge agreement and show confidence intervals:

Judges are aligned on the evaluation. Results are highly reliable.

Some variation between judges. Consider reviewing rationales for insights.

Significant disagreement. May indicate ambiguous criteria or edge cases.

Each judge provides detailed explanations for their scores:

Understand why a response received a particular score with detailed reasoning.

Use rationales to improve your prompts and understand model behavior.

You can disable automatic judging at any time if you prefer to evaluate responses manually. This is useful when: