AI 성능 비교

점수는 벤치마크/설정에 따라 달라질 수 있어요. (출처/버전/설정 공개 권장)

모델	벤치마크	점수	신뢰구간	출처
Model A	MMLU-Pro	78.4	±0.6	HELM
Model B	Chatbot Arena	Elo 1210	95% CI	LMSYS