MMLU : tout le monde au-dessus de 95%, donc le benchmark ne mesure plus rien

@thomas_m • il y a 3 mois

Petit récap pour ceux qui n'ont pas suivi les derniers leaderboards : GPT-5 → 96,2 % Claude 4 → 95,4 % Gemini 2 → 94,1 % Mistral Large 3 → 91,8 % Llama 4 → 90,7 % Quand votre échantillon entier est dans une fourchette de 6 points en tête de classement, votre instrument de mesure ne discrimine plus rien, il mesure du bruit. Je ne comprends même pas qu'on continue à publier des résultats MMLU dans les keynotes. Allez voir GPQA-Diamond ou ARC-AGI-2 si vous voulez du vrai signal. Les chiffres y sont autrement plus humbles (et donc autrement plus utiles aux investisseurs).

6 commentaires

Connectez-vous pour commenter

@anna_kw il y a 3 mois

Question naïve d'une non-spécialiste : pourquoi est-ce qu'il n'existe pas de benchmark qui évalue les modèles sur leur capacité à *refuser de répondre* quand ils ne savent pas ? Ce serait pour moi le test d'intelligence le plus intéressant, et celui où je suis quasi sûre que tous nos LLMs sont en dessous de 30%.

@dr_isabelle il y a 3 mois

Je vois passer beaucoup de papiers qui annoncent que l'IA « bat les médecins » sur tel ou tel benchmark. À chaque fois on vérifie : le benchmark contient des cas en QCM avec 4 réponses possibles, alors que dans la vraie vie le médecin est confronté à un patient sans étiquette. La saturation des benchmarks dont vous parlez existe aussi en santé, et elle est tout aussi trompeuse.

@marc_prof il y a 3 mois

Vous touchez exactement le coeur du problème. Quand je fais passer un QCM à mes étudiants, j'évalue leur capacité à reconnaitre la bonne réponse parmi 4, pas leur capacité à formuler le bon raisonnement. Les benchmarks IA c'est exactement ça à grande échelle. On évalue des techniques de bachotage.

@pierre_lm il y a 3 mois

Votre observation rejoint une critique plus structurelle : les benchmarks reflètent ce que leurs créateurs *peuvent* mesurer, pas ce qui *importe*. En diplomatie nous avons le même biais : on mesure le nombre d'accords signés, pas leur application réelle. Toute discipline finit par optimiser ses indicateurs au détriment de son objet.

@pgarcia il y a 3 mois

on en parle ou pas du fait que les benchmarks publics fuitent dans les datasets de training ? GPT-5 a vu MMLU pendant son entraînement, c'est bien pour ça qu'il fait 96. Y'a 2 papers de Stanford là dessus depuis l'an dernier mais bizarrement OpenAI n'en parle jamais.

@sofia_vdl il y a 3 mois

Exactement le point. Y'a un papier de Hugging Face de septembre qui montre 19% de contamination sur MMLU pour les modèles frontière. C'est massif. Et le pire c'est que personne ne peut vraiment vérifier puisque les datasets de pretraining sont fermés.