Sur la "protection" contre le scraping IA, arrêtons de raconter des histoires
Beaucoup de guides circulent en ce moment sur "comment protéger ses données contre les LLMs". La plupart sont au mieux incomplets, au pire mensongers.
robots.txt n'a aucune valeur juridique et n'est respecté que par les acteurs qui veulent bien le respecter. GPTBot, Claude-Web, PerplexityBot le respectent. Tous les autres scrapers, qu'ils soient académiques, commerciaux ou pirates, l'ignorent allégrement. C'est un panneau "défense d'entrer" sur un terrain non clos.
Les services anti-scraping type Cloudflare Bot Management coûtent une fortune et sont efficaces contre 80 % des bots, ce qui veut dire que les 20 % qui restent ont accès à 100 % de votre contenu. C'est mieux que rien, mais ce n'est pas de la protection.
À mon sens, le seul vrai principe c'est : si quelque chose est techniquement accessible publiquement, considérez que c'est dans un dataset d'entraînement actuel ou futur. Tous les arguments juridiques arrivent après cette réalité.
La vraie question, qui n'a aucune réponse en 2026, c'est de savoir comment on rémunère les producteurs de contenu dans ce contexte. La pétition des 500 auteurs dont on parlait l'autre jour est une tentative. Elle ne sera probablement pas la dernière.
7
4 commentaires