🤝+🤖 Comment data.ina a osé la transparence sur un site 100% IA

Une première mondiale. Depuis près de deux ans, l’Institut National de l’Audiovisuel planche avec WeDoData sur un site inédit de tendances médiatiques calculées par des outils d’IA. Data.ina.fr, c’est son petit nom, a été mis en ligne il y a quelques semaines et vous donne à voir, pour la première fois, les personnalités et les pays les plus mentionnés depuis 5,5 ans sur les télés 📺 et radios 📻 françaises. Il se veut une première réponse de l’INA à la question : “Comment exploiter et donner du sens à la masse de données que représentent les 25 millions d’heures archivées dans le cadre du dépôt légal ?”
L’enjeu. Pour accomplir ce défi de taille (700 000 heures analysées), deux types d’outils IA ont été identifiés : celui qui transforme du son 📢 en texte 📝 (la transcription, ici assurée par Whisper) et celui qui identifie des noms de personnalités 🏷️ et de lieux📍(la reconnaissance d’entités nommées, ici réalisée par TextRazor). Mais quelle attitude adopter face aux biais et hallucinations connus de ces technologies ?
🌡️ Action N°1 : calculer leur fiabilité. Cela paraît une évidence pour les chercheur·se·s, mais cela est plus rare pour un média : assumer une totale transparence sur le taux de confiance des IA utilisées. Pour cela, l’INA a organisé une “Vérité terrain”, comme dans tout protocole de recherche : en résumé, il a fait analyser les mêmes extraits de télévision et de radio d’un côté par les outils d’IA de ce projet et, de l’autre, par des documentalistes de l’INA. La comparaison des résultats des deux process donne le taux de fiabilité de la chaîne de traitement IA mise en place par l’INA : 83% pour ce site !

🔍 Action N°2 : aucun site au monde ne donne à voir les biais de ses IA, résultat par résultat. L’INA l’a fait en créant “le contrôle de pertinence”. Méthode de contrôle à appliquer, outil métier à créer, “Bible” de biais à constituer… L’INA et WeDoData ont dû tout inventer. Ainsi, une équipe de documentalistes, ayant une bonne connaissance de l’actualité, a été mobilisée pour vérifier de manière systématique les Tops 20 mensuels des chaînes de télévision et de radio proposées sur le site : 1 020 Tops X 20 personnalités = 20 400 médias ont ainsi été visionnés/écoutés 🤯. Ce contrôle unique en son genre consiste, entre autres, à remonter à la source pour vérifier que la personnalité citée apparaît bien dans le média original. Si ce n’est pas le cas, une alerte apparaît sur le site accolée au nom de cette personnalité ❗️.

💥 Nos biais “préférés”
À l’avenir, une meilleure prise en compte du contexte dans la phrase permettra aux outils d’IA d’éviter certaines confusions sur ces noms de personnalités. En attendant, voici celles qui ont rythmé nos derniers mois de fiabilisation du site :
- 🎼 Richard Wagner : le compositeur allemand remonte beaucoup dans les résultats issus d’IA, alors qu’il s’agit du groupe paramilitaire russe Wagner.
- 🪶 Paul Verlaine : le poète français remonte très haut sur les chaînes d’information en continu. En cause : une confusion avec le groupe Verlaine, entreprise de rénovation énergétique, qui s’est offert une campagne de publicité pendant quelques mois sur ces chaînes.
- 💉 Boris Johnson, l’ancien Premier ministre britannique, se retrouve très mentionné dans l’actualité à une période éloignée de son mandat. C’est que l’IA le confond parfois avec le vaccin Johnson & Johnson.

POUR ALLER ENCORE PLUS LOIN
- Les règles générales de data.ina.fr ont été particulièrement détaillées pour offrir toute la transparence possible sur les méthodes et outils utilisés
- Pour ce projet, l’INA a rédigé une Charte d’utilisation de l’IA sur data.ina.fr