Header ico
Retour
Infos
Retour
Infos

🤝+🤖 Comment data.ina a osé la transparence sur un site 100% IA

Page d'accueil du site data.ina.fr développé par WeDoData pour l'INA, permettant d'explorer les archives grace aux intelligences artificielles.

Une première mondiale. Depuis près de deux ans, l’Institut National de l’Audiovisuel planche avec WeDoData sur un site inédit de tendances médiatiques calculées par des outils d’IA. Data.ina.fr, c’est son petit nom, a été mis en ligne il y a quelques semaines et vous donne à voir, pour la première fois, les personnalités et les pays les plus mentionnés depuis 5,5 ans sur les télés 📺 et radios 📻 françaises. Il se veut une première réponse de l’INA à la question : “Comment exploiter et donner du sens à la masse de données que représentent les 25 millions d’heures archivées dans le cadre du dépôt légal ?”

L’enjeu. Pour accomplir ce défi de taille (700 000 heures analysées), deux types d’outils IA ont été identifiés : celui qui transforme du son 📢 en texte 📝 (la transcription, ici assurée par Whisper) et celui qui identifie des noms de personnalités 🏷️ et de lieux📍(la reconnaissance d’entités nommées, ici réalisée par TextRazor). Mais quelle attitude adopter face aux biais et hallucinations connus de ces technologies ?

🌡️ Action N°1 : calculer leur fiabilité. Cela paraît une évidence pour les chercheur·se·s, mais cela est plus rare pour un média : assumer une totale transparence sur le taux de confiance des IA utilisées. Pour cela, l’INA a organisé une “Vérité terrain”, comme dans tout protocole de recherche : en résumé, il a fait analyser les mêmes extraits de télévision et de radio d’un côté par les outils d’IA de ce projet et, de l’autre, par des documentalistes de l’INA. La comparaison des résultats des deux process donne le taux de fiabilité de la chaîne de traitement IA mise en place par l’INA : 83% pour ce site !

Illustration de la méthodologie développée par WeDoData pour le projet data.ina concernant la mise en place d'un processus de validation du traitement par IA via une confrontation à une vérité de terrain

🔍 Action N°2 : aucun site au monde ne donne à voir les biais de ses IA, résultat par résultat. L’INA l’a fait en créant “le contrôle de pertinence”. Méthode de contrôle à appliquer, outil métier à créer, “Bible” de biais à constituer… L’INA et WeDoData ont dû tout inventer. Ainsi, une équipe de documentalistes, ayant une bonne connaissance de l’actualité, a été mobilisée pour vérifier de manière systématique les Tops 20 mensuels des chaînes de télévision et de radio proposées sur le site : 1 020 Tops X 20 personnalités = 20 400 médias ont ainsi été visionnés/écoutés 🤯. Ce contrôle unique en son genre consiste, entre autres, à remonter à la source pour vérifier que la personnalité citée apparaît bien dans le média original. Si ce n’est pas le cas, une alerte apparaît sur le site accolée au nom de cette personnalité ❗️.

Illustration de la méthodologie développée par WeDoData pour le projet data.ina concernant l'identifications de biais d'identification d'entités nommées.

💥 Nos biais “préférés”

À l’avenir, une meilleure prise en compte du contexte dans la phrase permettra aux outils d’IA d’éviter certaines confusions sur ces noms de personnalités. En attendant, voici celles qui ont rythmé nos derniers mois de fiabilisation du site :

  • 🎼 Richard Wagner : le compositeur allemand remonte beaucoup dans les rĂ©sultats issus d’IA, alors qu’il s’agit du groupe paramilitaire russe Wagner.
  • 🪶 Paul Verlaine : le poète français remonte très haut sur les chaĂ®nes d’information en continu. En cause : une confusion avec le groupe Verlaine, entreprise de rĂ©novation Ă©nergĂ©tique, qui s’est offert une campagne de publicitĂ© pendant quelques mois sur ces chaĂ®nes.
  • 💉 Boris Johnson, l’ancien Premier ministre britannique, se retrouve très mentionnĂ© dans l’actualitĂ© Ă  une pĂ©riode Ă©loignĂ©e de son mandat. C’est que l’IA le confond parfois avec le vaccin Johnson & Johnson.
Illustration d'une confusion de l'IA entre une entité nommée - Boris Johnson - et des mentions du vaccin de Johnson & Johnson dans le cadre du projet data.ina par WeDoData.

POUR ALLER ENCORE PLUS LOIN

Thème(s)

Média

Société

Technologie et innovation

Format(s)

Expérimental et R&D

Intelligence artificielle et LLM

Interactif et web

Type(s) de viz

Cartographies

Courbes et séries

Histogrammes et barres

Treemaps et diagrammes de VoronoĂŻ

Source
WeDoData, INA
ajouté le
26 mars 2025
Langue
Français
Outil(s)
chatGPT

Ces inspirations dataviz devraient aussi vous plaire…

Loading...