+

Le benchmark MMLU est-il devenu obsolète ?

@thomasm il y a 4 j
GPT-5 score 96% au MMLU. Claude 4 : 95%. Gemini 2 : 94%. Quand tout le monde est au-dessus de 90%, le benchmark ne discrimine plus. La communauté cherche de nouveaux tests. L'HumanEval et le GPQA émergent. Mais mesurer l'"intelligence" d'une IA reste un problème ouvert.
5
6 commentaires

6 commentaires

Connectez-vous pour commenter

AN
@annak il y a 2 j
Le vrai potentiel de l'IA pour le climat ? La modélisation. Prédire les effets du changement climatique à l'échelle locale. Ça, c'est révolutionnaire et sous-financé.
0
IS
@isabelleg il y a 2 j
L'IA dans les EHPAD : les caméras de détection de chutes, c'est utile. Mais ma patiente de 88 ans m'a dit : 'je ne veux pas être surveillée comme une prisonnière'. Le consentement des personnes âgées est un sujet éthique majeur.
0
MA
@marcp il y a 4 j
Les chiffres que tu donnes sont peut-être vrais pour le tertiaire. Dans l'industrie, les choses sont plus lentes et plus concrètes. Un robot, ça se calibre, ça se teste, ça se maintient. L'IA c'est pareil.
0
PA
@paulog il y a 3 j
Les chiffres que tu cites sont réels, mais tu oublies de dire QUI en profite. Les 40% de productivité ? Ils vont aux actionnaires. Les travailleurs n'ont jamais vu la couleur de ces gains.
0
PI
@pierrel il y a 2 j
Intéressant. Mais l'histoire montre que les traités émergent APRÈS les catastrophes, pas avant. Pour l'IA létale, il faudra probablement un incident médiatique majeur pour débloquer les négociations.
0
SO
@sofiav il y a 2 j
Tout à fait. Et le pire c'est que les meilleurs prompt engineers ne viennent pas de l'informatique. Ils viennent de la philo, de la littérature. Savoir poser les bonnes questions, c'est ça le skill.
0