Avant de tragiquement décéder, Suchir Balaji, ancien chercheur chez OpenAI, a révélé que les données qui ont servi à l’entraînement de ChatGPT n’ont pas toutes été collectées de manière légale. Ceci admet que le contenu de nombreux sites a été aspiré sans le consentement préalable des propriétaires. Une violation de la propriété intellectuelle et un manque à gagner énorme que les pouvoirs en place ont aujourd’hui du mal à empêcher. Le contenu de votre site a certainement déjà a été scrapé aussi ; et cette pratique n’est pas près de s’arrêter, maintenant que les entreprises d’IA se retrouvent à court de données. Si vous souhaitez empêcher que vos articles soient à l’avenir épluchés sans votre consentement pour de telles opérations, voici quelques astuces qui pourraient bien vous aider.
Sommaire :
Paramétrer le fichier robots.txt
Le fichier robots.txt est à la racine des répertoires de votre site web. Il sert à indiquer aux crawlers des moteurs de recherche et autres bots qui visitent votre site quelles pages doivent être explorées ou ignorées. Pour protéger votre contenu des intelligences artificielles, vous devriez bloquer tous les user agents en ajoutant cette directive dans le document :
`User-agent: *`
`Disallow: /`.
Cependant, il est important de noter que les directives du fichier robots.txt ne garantissent pas une protection totale contre les bots. Les entreprises IA, qu’importe la bonne foi qu’elles affichent, peuvent faire en sorte que leurs bots ignorent ces instructions et continuer à collecter vos contenus.
VOIR AUSSI : Comment l’émergence de l’IA impacte-t-elle le SEO ?
Utiliser des plugins
Si votre site web tourne sous WordPress, il existe divers plugins qui vous permettent de bloquer l’accès à votre site aux user agents. Plutôt que d’éditer votre fichier robots.txt, ces derniers le font pour vous. C’est notamment le cas de :
- Raptive Ads : il bloque automatiquement des bots reconnus tels que anthropic-ai, CCBot, Claude-Web, FacebookBot, GPTBot, PiplBo.
- Block AI Crawlers
- All In One SEO plugin : rendez-vous dans les paramètres d’outils pour entrer les noms des bots que vous souhaitez bloquer.
Comme c’est le cas pour la première méthode, celle-ci peut également être contournée, puisqu’il ne s’agit que de votre fichier robots.txt.
Utiliser un pare-feu
Cette méthode est un peu plus radicale que les deux premières. Elle consiste à identifier les bots d’entrainements des IA pour les bloquer de faire quoi que ce soit sur le site. Ainsi, tout bot qui tentera d’accéder au site et qui comportera un user agent dans sa requête HTTP sera détecté par le pare-feu et le serveur retournera le code d’erreur 403 Forbidden. L’accès étant impossible, le scraping du contenu devient impossible aussi.
En plus du user agent, vous pouvez aussi utiliser l’adresse IP des bots pour les bloquer. Mais celle-ci est moins efficace, car ces robots n’utilisent pas toujours la même adresse.
Pour implémenter votre pare-feu, la meilleure extension sur WordPress est Wordfence Security. Si vous n’utilisez pas un CMS, les meilleurs outils sont ceux de Cloudflare et AWS WAF.
VOIR AUSSI : Les 7 meilleures alternatives à ChatGPT
Implémenter des CAPTCHA
L’utilisation des CAPTCHA permet de distinguer les humains des robots, d’empêcher les attaques malveillantes et le spam. En ce sens, en implémenter peut vous aider à stopper ou réduire considérablement le scraping sur votre site web.
Si votre site web tourne sous WordPress, les meilleures extensions pour CAPTCHA sont :
- Google reCAPTCHA
- hCaptcha
- NoCaptcha
Celui de Google est entièrement gratuit et effectue grandement le travail. Mais si vous souhaitez une solution premium à toute épreuve, il serait mieux de prendre la version payante de WPForms.
Mettre en place un accès par compte
Le seul moyen, sans faille, qui puisse vous permettre de vous assurer que vos contenus ne sont pas utilisés pour l’entrainement des IA est un accès par compte. Cela suppose que pour lire entièrement un article sur votre compte, l’utilisateur doit posséder un compte sur votre site et s’y connecter.
Plutôt que de demander aux utilisateurs de remplir un formulaire pour créer un compte, vous pouvez utiliser l’API de connexion avec Google. En un clic, les utilisateurs pourront lier leur compte à votre site pour ainsi accéder aux contenus.
Cependant, bien que cette méthode soit efficace, elle peut conduire à une baisse de votre audience. À moins d’avoir des contenus de qualité, les utilisateurs pourraient être réticents à l’idée de lier leur compte à votre site. Dans ce cas, il faudra expliquer clairement les raisons d’une telle option.
Ces stratégies combinées assurent la protection de votre propriété intellectuelle et renforcent votre position face aux technologies émergentes qui tentent de siphonner le savoir-faire humain sans consentement.