De l'IA et une charte éthique pour les journalistes de 20 Minutes

Un développement maison, du cloud et de l'IA. Depuis 2016, l'équipe IT de 20 Minutes développe un CMS en propre pour les journalistes. L'IA et la GenAI aident ces derniers à taguer leurs articles, mais aussi à rédiger certains textes basiques. Sous condition de relecture humaine et sous « l'oeil » d'une charte d'IA éthique qu'ils ont rédigée.
PublicitéPour accompagner ses journalistes, 20 Minutes a redéveloppé progressivement dès 2016, brique par brique, un CMS (content management system) maison. Un outil dans lequel les rédacteurs écrivent directement leurs textes, mais où ils entrent également encadrés, photos, légendes et où ils enrichissent leurs articles de tags. « Nous développons en interne tous les outils métier, c'est-à-dire l'éditorial, la connaissance du lecteur, et l'optimisation de la publicité », confirme Aurélien Capdecomme, le CTO. Et c'est sur le sujet des tags, que l'IA s'est infiltrée pour la première fois dans la rédaction. Des mots clés que les journalistes sélectionnent pour qualifier leurs articles et en optimiser le référencement (SEO, search engine optimization).
Qui plus est, 20 Minutes ayant fait le choix de basculer complètement AWS, l'entreprise a aussi préféré tout réécrire nativement pour le cloud dès le début, plutôt que de procéder à un lift-and-shift de l'ancien CMS on-premise. « Nous avons discuté avec les trois grands cloud [AWS, GCP, Microsoft Azure], mais AWS nous a semblé plus investi, précise le CTO de l'entreprise. Même si toutes nos données sont hébergées sur GCP. Tout a été réalisé en serverless à partir de 2016, puis migré progressivement sur AWS afin de ne pas gêner l'activité. Nous avons réellement atteint le 100% serverless en 2024 ».
L'IA pour identifier les mots clé
En 2020, avant même l'arrivée de la GenAI, 20 Minutes a commencé à tester des fonctions d'IA pour les journalistes. « Nous utilisons de la reconnaissance dans des documents avec des modèles entrainés à la détection d'entité, précise Aurélien Capdecomme. Ils "reconnaissent" une personnalité, un événement dans l'article, le rapprochent d'une base de tags et suggèrent au journaliste des tags complémentaires à ceux que celui-ci a déjà identifiés, pour améliorer le SEO ». 20 Minutes s'est appuyé sur la plateforme de machine learning Amazon Sagemaker et sa solution d'analyse de données non structurées de tous formats (texte, vidéo, son, messages dans les réseaux sociaux, etc.) en NLP (natural language processing) Amazon Comprehend.
« Aujourd'hui, l'IA ne peut pas écrire un article comme un journaliste, qui enquête, vérifie ses sources, etc. », dit Aurélien Capdecomme, CTO de 20 Minutes. (Photo : E.D.)
« Nous avons bien entendu continué d'élaborer des cas d'usage avec l'arrivée de la GenAI et d'Amazon Bedrock, poursuit Aurélien Capdecomme. Amazon nous a embarqués sur la preview de Bedrock dès le printemps 2023, 6 mois avant le lancement. Aujourd'hui, nous l'utilisons pour l'assistance au résumé d'article que nous publions sous les images sur le site, avec des résumés suggérés par l'IA, puis relus par un journaliste ». Le « desk », l'équipe qui publie des articles à base de dépêches d'agence, dispose désormais lui aussi d'une IA qui suggère un article paraphrasant l'information initiale, avant une relecture humaine systématique. Les journalistes estiment obtenir un gain de temps d'une heure par jour environ.
PublicitéUne charte d'usage éthique de l'IA
« Nous sommes un média gratuit financé par la publicité, et nous avons donc aussi déployé des usages sur la publicité, plus orientés vers le business, complète le CTO. l'IA estime par exemple l'adéquation entre le contexte associé à un article spécifique et une marque ». Contrairement à ce que proposent nombre d'agences marketing, selon Aurélien Capdecomme, cela permet à 20 Minutes de disposer d'un score article par article, et non d'un score global.
Un petit groupe de journalistes a contribué à tester, améliorer les IA, à corriger les prompts. Mais les équipes de 20 Minutes ont aussi rapidement réclamé une charte éthique de l'IA. Elle comprend deux parties, IT et rédaction. Le volet IT, rédigé par le CTO, vise entre autres à prévenir l'emploi du shadow AI. Le groupe Ouest-France, auquel 20 Minutes appartient, met à disposition de tous ses titres, des modèles d'IA internes et une licence GPT 4. Mais 20 Minutes a choisi Bedrock, il n'est donc pas question de laisser les employés utiliser d'autres modèles, ou d'envoyer des données sensibles dans des LLM publics par exemple.
Le volet rédaction, de la charte sur lequel ont travaillé deux rédacteurs en chef, définit des règles éthiques claires d'usage de l'IA. Pas question, par exemple, de publier quoi que ce soit automatiquement. Même pour les dépêches rapidement synthétisées ou les résumés d'articles, la relecture d'un journaliste est toujours obligatoire. La charte insiste aussi sur l'indépendance éditoriale. « À part pour la météo par ville, automatiser l'écriture d'un texte ne fonctionne pas non plus pour les lecteurs de toute façon, explique Aurélien Capdecomme. Nous avons testé l'automatisation de l'écriture avec l'IA sur les résultats de matches de football, par exemple, et ce n'est pas lu. Nous avons donc arrêté ».
Bientôt une IA pour les lecteurs
L'utilisation de l'IA génère autant d'enthousiasme que d'inquiétudes, selon le CTO. « Nous avons un comité IA avec des chefs de département, poursuit le CTO. Et nous avons la chance d'avoir un rédacteur en chef très impliqué et très au fait de ce qu'est l'IA ». Mais Aurélien Capdecomme, également membre du CSE (comité social et économique) de 20 Minutes, répond aussi aux inquiétudes sur la transformation du métier de journaliste, voire sa disparition. « Aujourd'hui, l'IA ne peut pas écrire un article comme un journaliste, qui enquête, vérifie ses sources, etc., assure-t-il. D'autant que même les nombreux modèles qui écrivent et publient directement des articles s'alimentent de plus en plus avec des contenus écrits eux aussi par l'IA et, de cette façon, s'autodégradent. ».
Le CMS de 20 Minutes est désormais utilisé par tous les titres du groupe Ouest-France, et même commercialisé à l'extérieur. Et l'équipe IT du média gratuit continue de déployer des fonctions chaque semaine en sprints agiles. Dans les mois qui viennent, le média compte enfin déployer de l'IA directement pour ses lecteurs.
Article rédigé par

Emmanuelle Delsol, Journaliste
Suivez l'auteur sur Linked In,
Commentaire
INFORMATION
Vous devez être connecté à votre compte CIO pour poster un commentaire.
Cliquez ici pour vous connecter
Pas encore inscrit ? s'inscrire