AI 성능 비교

점수는 벤치마크/설정에 따라 달라질 수 있어요. (출처/버전/설정 공개 권장)

모델 벤치마크 점수 신뢰구간 출처
Model A MMLU-Pro 78.4 ±0.6 HELM
Model B Chatbot Arena Elo 1210 95% CI LMSYS