Fouilles de données sur le web, comment s'en protéger

Bongota - Alsacreations - 02/07
Que l’on soit développeur de sites web, auteur, compositeur de musique, écrivain ou photographe, il n'est plus possible aujourd'hui d'ignorer l'intelligence artificielle. En l'espace de quelques années, des habitudes bien ancrées ont été bouleversées. L’une des inquiétudes provoquées par cette technologie concerne la fouille massive de données engagée pour alimenter les bases de l’IA. Fouilles de données, webscraping, data mining, moissons de données, robots aspirateurs, des expressions entrées dans le langage du net, mais lourdes de conséquences pour les auteurs de contenus.

Nous allons nous concentrer ici sur les moyens mis à la disposition des auteurs de contenus afin de tenter de maîtriser cette fouille, apparentée par beaucoup à un vol de données. En effet, grâce à cette fouille, l'IA (Intelligence Artificielle) permet de réaliser des "créations" de plus en plus réalistes. Nos propres productions sont de ce fait concurrencées par ce que l'on nous a pris, sans notre avis. La question posée étant, que pouvons-nous faire face à l'utilisation de nos données destinées, sans aucune contrepartie, à enrichir les gigantesques bases de l'IA ? Quels sont les moyens que nous pouvons engager afin de faire respecter notre travail d'auteur de contenus ? Le but n’étant pas de se dresser contre l’IA, mais d’en obtenir reconnaissance, voire rémunération, lorsque nous y sommes entraînés, de gré ou de force. Ces questions seront posées tôt ou tard aux développeurs professionnels par des clients inquiets de l'utilisation de leur contenu, ainsi qu’aux amateurs qui mettent en place leur propre site web. Y être préparé le plus tôt sera le mieux. L’IA a pris de l’avance et chaque seconde, des millions de données sont aspirées du web dans la plus totale opacité, sans que les auteurs de ces productions n'en connaissent la finalité.

Dans cet article sera abordé la mise en place de deux procédés, l’opt-out, à travers le protocole TDMRep et le blocage des robots aspirateurs. La procédure décrite ici est simple, il n’y a pas de code à réaliser. Il suffira de respecter l’emplacement des dossiers et des chemins permettant de les atteindre.

L'opt-out, l'exception à l'exception

Il est important de comprendre l'opt-out et l'opt-in, deux termes omniprésents sur le net. Dans le contexte de la fouille de données, l'opt-out est un procédé déclaratif qui permet à une personne détentrice des droits sur une œuvre (écrit, musique, audio, vidéo, image) d'avertir un robot aspirateur qu'elle refuse que son travail soit utilisé afin d’enrichir les bases de données de l'IA. L’opt-out n’est qu'une déclaration, aucun procédé technique n'intervient pour empêcher une fouille des données. À contrario, l'opt-in l’autorise sans restrictions. Le fait de ne rien déclarer entraîne de facto l'opt-in, comme le précise le texte de loi ci-dessous. Pour résumer, l’opt-out est un jalon pour l’avenir, une précaution à prendre.

Voici...
[Courte citation de 8% de l'article original]

Loading...