Le benchmark MMLU est-il devenu obsolète ?
GPT-5 score 96% au MMLU. Claude 4 : 95%. Gemini 2 : 94%. Quand tout le monde est au-dessus de 90%, le benchmark ne discrimine plus.
La communauté cherche de nouveaux tests. L'HumanEval et le GPQA émergent. Mais mesurer l'"intelligence" d'une IA reste un problème ouvert.
5
6 commentaires