AI 성능 비교
점수는 벤치마크/설정에 따라 달라질 수 있어요. (출처/버전/설정 공개 권장)
모델
벤치마크
점수
신뢰구간
출처
Model A
MMLU-Pro
78.4
±0.6
HELM
Model B
Chatbot Arena
Elo 1210
95% CI
LMSYS