Projets

Ouest-France crée un labo d'IA commun avec le CNRS

Ouest-France crée un labo d'IA commun avec le CNRS
Le laboratoire d'IA de Ouest France et du CNRS travaillera sur l'analyse et la recherche de photos, l'exploitation de 100 ans d'archives textuelles et la visulaisation de données complexes et interconnectées.

Le groupe media Ouest-France veut étudier des solutions d'IA pour mieux exploiter ses 125 ans d'archives digitalisées, soit 48 millions d'articles et 38 millions de photos. Pour cela, il concrétise une collaboration de 30 ans avec le CNRS sous la forme d'un laboratoire d'IA pour l'exploitation de grands volumes de data éditoriales multimédia.

PublicitéLe groupe de presse Ouest-France crée un laboratoire de recherche commun avec le CNRS et l'Université de Rennes, afin de développer des techniques d'exploitation de ses archives médias volumineuses et variées. Le LabCom Synapses va travailler sur les moyens d'exploiter avec différentes déclinaisons d'IA plus de 125 ans d'archives digitalisées. Le groupe né en 1899, avec la création de Ouest Eclair, est en effet à la tête d'un patrimoine imposant de 48 millions d'articles, 38 millions de photos, 17 millions de pages, 116 000 vidéos dont beaucoup ne sont cependant pas facilement exploitables, y compris avec les outils d'IA existants. L'entreprise évoque en particulier les difficultés liées à l'évolution des champs sémantiques utilisés dans ces documents au fil du temps.

C'est l'équipe de recherche Linkmédia de l'Irisa (Institut de recherche en informatique et systèmes aléatoires - CNRS/Université de Rennes), dirigée par Laurent Amsaleg, qui pilotera le laboratoire avec Michel Le Nouy, responsable du domaine informatique recherche appliquée & IA chez Ouest-France. Un des deux sujets d'étude de Linkmédia concerne « des méthodes, des techniques et des outils pour explorer la nature de ces collections de documents multimédias extrêmement grandes [...] avec un corpus d'outils informatiques : IA, machine learning, deep learning, computervision, analyse multimédia, traitement du langage naturel (NLP), apprentissage automatique des langues, recherche d'information et exploration de données ». Le LabCom Synapses sera financé par l'ANR (Agence nationale de la recherche) à hauteur de 363 000 €.

Développement de prototypes sur données réelles

Avec ce laboratoire commun, Ouest-France formalise une collaboration informelle qui dure depuis 30 ans. Le groupe affirme ainsi vouloir « accéder à des technologies de pointe tout en maintenant la souveraineté sur ses données et en veillant au respect des droits des personnes citées, photographiées ou enregistrées au sein de cette vaste archive ». Les chercheurs de l'Irisa, de leur côté, disposeront d'une base documentaire particulièrement riche pour tester et faire évoluer leurs travaux, ainsi que pour créer des prototypes d'outils à partir de données et de cas d'usage réels.

Les deux copilotes du projet, Michel Le Nouy, chez Ouest-France, et Laurent Amsaleg, au CNRS, expliquent dans un entretien au quotidien qu'ils viennent de finaliser les éléments de gouvernance et les aspects juridiques (propriété intellectuelle, valorisation) du laboratoire. Ils vont maintenant engager des travaux sur les trois grands axes de recherche d'application de l'intelligence artificielle au service du journalisme qu'ils ont définis : faciliter l'analyse et la recherche de photos, exploiter plus de 100 ans d'archives textuelles en surmontant les défis posés par les évolutions linguistiques et, enfin, développer des outils pour visualiser des données complexes et interconnectées.

PublicitéUn sujet de souveraineté face aux Gafams

La création du laboratoire est aussi un sujet de souveraineté et, potentiellement, de capacité pour les médias de s'affranchir des modèles d'IA de grands acteurs technologiques. Dans l'article, Laurent Amsaleg répond surtout vouloir « acquérir une compréhension interne de ce que signifie l'IA pour le journalisme. Cette connaissance nous permettra alors de comprendre finement la puissance et les limites des solutions proposées notamment par les Gafams ». Ce à quoi Michel Le Nouy, ajoute : « On veut également maîtriser de bout en bout ce que l'IA fait de nos données, ceci en lien avec notre exigence de souveraineté. On veut absolument préserver les particularités et l'ADN de Ouest-France ».

Partager cet article

Commentaire

Avatar
Envoyer
Ecrire un commentaire...

INFORMATION

Vous devez être connecté à votre compte CIO pour poster un commentaire.

Cliquez ici pour vous connecter
Pas encore inscrit ? s'inscrire

    Publicité

    Abonnez-vous à la newsletter CIO

    Recevez notre newsletter tous les lundis et jeudis

    La question du moment
    Votre modèle de protection des données est-il aligné sur la sensibilité de celles-ci, donc sur les risques qu’elles embarquent ?