Google lutte contre les contenus indésirables générés par IA

Google s’efforce de lutter contre le spam généré par l’intelligence artificielle (IA) dans les résultats de recherche. Depuis l’avènement de l’IA génératrice de texte et d’image, le contenu sur Internet a connu une forte croissance. Si l’utilisation de cette technologie s’avère très utile et reste toujours pertinente, elle ne peut être utilisé sans correction humaine. Google l’a bien exprimé, ce n’est pas l’utilisation de l’IA génératrice qui pose des problèmes, mais la politique editorial qui consiste à générer massivement des contenus sans aucune validation.

Afin de générer du contenu rapidement et en volume, de nombreux acteurs font appel à l’IA génératrice. Le problème est que certains de ces acteurs ne relise pas le contenu généré, il n’y a donc aucune correction ou validation. C’est ce point précis que Google tente de combattre avec des changements de son algorithme, afin d’identifier les contenus inexactes, les plagiats ou les contenus de faible qualité en particulier ceux générés par IA.

Certains acteurs malveillants en profitent pour recopier massivement le travail d’autrui, il s’agit tout simplement d’un vol accompagné parfois d’une arnaque au référencement. Un très bon exemple est le cas du site Exceljet, dirigé par l’expert Excel David Bruns. Ce site vise à aider les utilisateurs à améliorer leur utilisation d’Excel. Outre le vol de son travail, Bruns a constaté que la plupart des contenus étaient inexacts. Google a finalement découvert cette affaire, comme l’explique Hubspot.

Les contenus générés par IA, un vrai problème pour le moteur de recherche Google

Le moteur de recherche modifie la manière dont les résultats de recherche sont présentés afin de réduire la présence de contenus de faible qualité et non originaux proposés aux utilisateurs. Google l’a précisé a de nombreuses reprises, il ne s’agit pas de combattre les contenus générés par IA, mais plus précisément de lutter contre les contenus de faible qualité, le spam, le vol de contenu ou encore les informations inexactes. Le moteur de recherche souhaite récompenser les contenus de haute qualité, quelle que soit la façon dont ils sont produits.

Bien que l’intelligence artificielle générative puisse être impressionnante et utile dans de nombreuses circonstances, elle est parfois exploitée à des fins malveillantes par des individus mal intentionnés. Les entreprises qui développent ces outils prennent généralement des mesures pour empêcher leur utilisation abusive. Cependant les mesures ne sont pas toujours suffisantes et il arrive parfois que ces mesures soient contournées.

Google travaille depuis 2022 pour réduire la présence de contenu peu utile, non original dans les résultats de recherche ou encore le spam généré par IA. L’expérience acquise depuis deux ans a servi de base pour la nouvelle mise à jour des algorithmes de recherche de Google en mars 2024.

Les entreprises victimes d’un plagiat massif grâce à l’IA peuvent-elle être protégées ?

Comme le montre le cas du site Exceljet, dont le contenu a été massivement recopié, Google est intervenu pour retirer le contenu indésirable. Cependant, le site fraduleux a réussi a dépassé l’original dans le classement des résultats de recherche. Cela pendant 18 mois avec environ 3,6 millions de vues, ce qui n’aurait jamais dû arriver.

Alors pourquoi les mécanismes contre le plagiat ou « duplicate content » de Google n’ont pas été déclenchés ? Au début des années 2000, de nombreux sites avec des contenus dupliqués ont fait leur apparition. Google a mis en place un algorithme pour identifier ce type de contenu. Cependant le mécanisme était relativement simple, les phrases et la sémantique des contenus dupliqués étaient quasiment identiques aux contenus originaux. Aujourd’hui, l’utilisation de l’IA génératrice permet de reformuler le texte, cela permet d’éviter la fonctionnalité de Google qui identifie le contenu dupliqué.

Le moteur de recherche Google a un nouveau défi relevé, identifier les contenus frauduleux générés par IA. Encore une fois l’objectif n’est pas de sanctionner toute utilisation de l’IA génératrice, mais d’identifier les contenus dupliqués, frauduleux, inexacte ou plus globalement de faible qualité.

Le défi pour Google est de trouver un algorithme capable d’identifier ces contenus indésirables, sans pour autant complexifier son processus et surtout limiter la dépense énergétique. Internet contient une gigantesque masse d’informations, le coût énergétique engagé est un facteur limitant pour le moteur de recherche.

Comment Google peut-il identifier les contenus indésirables générés par IA ?

Google a annoncé plusieurs mesures en mars 2024 visant à lutter contre le spam généré par l’IA et le contenu de faible qualité dans les résultats de recherche. Voici les changement majeurs de cette mise à jour :

Amélioration de la classification par qualité : La société procède à des améliorations algorithmiques de ses systèmes de classement principaux afin de garantir une mise en avant les informations les plus utiles et de réduire la présence de contenu non original dans les résultats de recherche.
Nouvelles politiques anti-spam améliorées : Google met à jour sa politique anti-spam pour éliminer de la recherche les contenus de qualité inférieure, tel que les sites web expirés réutilisés comme des dépôts de spam par de nouveaux propriétaires et le spam de faux avis de décès..

Comment Google peut-il identifier les contenus indésirables générés par IA

Google apporte deux changements principaux à la manière dont les résultats de recherche sont présentés. Tout d’abord, l’algorithme sous-jacent est modifié pour rétrograder le contenu non original, tel que celui généré par l’IA.

Ensuite, l’entreprise met à jour ses politiques de lutte contre le spam afin de filtrer d’autres types de contenu indésirable, tels que les sites web expirés dont le contenu est réutilisé.

Bien que Google mette régulièrement à jour son algorithme de recherche et ses politiques anti-spam, il estime que les récentes modifications apportées dans la mise à jour principale de mars 2024 contribueront à réduire encore davantage le contenu non original visant à manipuler les moteurs de recherche plutôt qu’à répondre aux besoins des utilisateurs, tout en ciblant directement les individus agissant de manière malveillante.

Qu’est-ce que les sites web expirés et le spam de nécrologies ?

Les sites web expirés sont des domaines dont l’enregistrement a expiré mais qui sont ensuite achetés par des individus malveillants pour diffuser du spam auprès d’utilisateurs qui ne sont pas au courant du changement de propriétaire.

Le « obituary spam » est un phénomène où des sites Web publient de faux avis de décès, souvent générés par des outils d’intelligence artificielle, dans le but de générer du trafic et des revenus publicitaires. Ces faux avis de décès utilisent des titres accrocheurs et des structures optimisées pour les moteurs de recherche afin de se classer en tête des résultats de recherche Google. Malgré les efforts pour signaler et retirer ces contenus, ils persistent, posant des problèmes aux familles endeuillées et aux entreprises de services funéraires.

Le spam de nécrologies ou obituary spam en anglais est une tendance récente où des nécrologies générées par IA sont publiées sur des sites web, qu’il s’agisse de personnes décédées ou vivantes. Ces nécrologies deviennent souvent virales en raison de leur rapidité de publication, même avant que de véritables nécrologies ne soient publiées.

Quels sont les défis persistants ?

Google a mis en avant la difficulté parfois rencontrée pour déterminer si un contenu est automatisé ou rédigé par un humain. Par conséquent, ses politiques visent les comportements abusifs et manipulateurs plutôt que l’infrastructure technique sous-jacente, qu’elle soit humaine ou non.

Un autre défi dans ce domaine survient lorsque des sites web de confiance hébergent des contenus de faible qualité provenant de tiers. La société technologique a récemment averti qu’à partir du 5 mai, elle identifiera comme spam tout contenu généré dans le but de manipuler les résultats de recherche sans une « surveillance étroite » du propriétaire du site. Il sera intéressant de voir si ces modifications apportées à Google Search entraînent des améliorations significatives du service.

Jusqu’à présente nous avons parlé d’acteurs malveillants, cependant le problème de contenu indésirables ou de faible qualité généré par IA touchent également des sites reconnus comme fiables par Google et les utilisateurs. La politique éditoriale de CNET en est un bon exemple, le site a généré de nombreux contenu par IA de faible qualité et souvent inexacte. A tel point que Wikipedié a retiré CNET des sources fiables.

Peut-on identifier le contenu reformulé par IA ?

Google est confronté à une réelle difficulté, comment peut-il identifier efficacement des contenus indésirables reformulés par IA ?

Identifier un contenu qui a été reformulé ou généré par une intelligence artificielle (IA) peut être difficile, surtout si l’IA a été bien entraînée et utilise des techniques avancées pour produire un texte naturel et cohérent. Toutefois, il y a certains indices qui peuvent suggérer qu’un texte a été généré par une IA :

Répétitions et redondance : L’IA peut parfois répéter les mêmes points ou utiliser des phrases redondantes.
Manque de profondeur ou de contexte : Bien que l’IA puisse générer des textes qui semblent logiques en surface, elle peut manquer de la compréhension profonde nécessaire pour aborder des sujets complexes avec une nuance réelle.
Incohérences ou erreurs factuelles : L’IA peut introduire des incohérences ou des erreurs factuelles, surtout si elle ne dispose pas des informations les plus récentes ou si elle interprète mal les données.
Style d’écriture uniforme : L’écriture d’une IA peut manquer de la variété stylistique ou de la personnalité qu’un humain peut naturellement intégrer dans son écriture.
Réponses évasives ou généralisées : L’IA peut avoir tendance à donner des réponses plus généralisées ou évasives, surtout lorsqu’elle est confrontée à des questions très spécifiques ou nuancées.
Difficulté avec le contexte spécifique ou les sous-entendus : L’IA peut avoir du mal à comprendre et à répondre correctement à des contextes très spécifiques ou à des nuances subtiles, surtout si elles sont basées sur des sous-entendus culturels ou des blagues.

Cependant, il est important de noter que les systèmes d’IA s’améliorent continuellement et peuvent parfois produire du contenu qui est pratiquement indiscernable de celui d’un humain. Par conséquent, il n’y a pas de méthode infaillible pour identifier un contenu reformulé ou généré par une IA. Néanmoins pour identifier des contenus générés par IA, un outil exploitant l’IA est une bonne piste, mais il parait difficile pour Google d’exploiter un tel outil pour traiter la masse de donnée présentes sur Internet.

Pour ne rien rater, abonnez-vous à Cosmo Games sur Google News et suivez-nous sur X (ex Twitter) en particulier pour les bons plans en direct. Vos commentaires enrichissent nos articles, alors n'hésitez pas à réagir ! Un partage sur les réseaux nous aide énormément. Merci pour votre soutien !