Guillaume Cabanac, quel chercheur êtes-vous ?

Je suis enseignant-chercheur. J’enseigne les bases de données et la programmation à l’IUT de l’Université Toulouse III - Paul-Sabatier et je suis membre de l’Institut de recherche en informatique de Toulouse, l’Irit. Je m’intéresse depuis longtemps aux sciences de l’information et à la littérature scientifique, ce qui dépasse largement le domaine informatique. J’aime travailler en interdisciplinarité, selon un principe de science ouverte et désintéressée. Je me réfère souvent au sociologue des sciences Robert King Merton qui, en 1942, a publié un texte fondateur sur les normes éthiques en science, dont l’universalisme, le communalisme et le désintéressement. C’est ce texte qui m’a donné envie de me battre contre les fraudes.

Vous avez mis au point un logiciel capable de traquer les erreurs dans les articles scientifiques, que vous mettez à la disposition de la communauté académique. Comment vous est venue cette idée ?

Elle est le fruit de mon militantisme pour une science ouverte et intègre. Elle est aussi le résultat de rencontres, dont celle avec mon homologue de l’Université de Grenoble, Cyril Labbé. En 2016, il a présenté un algorithme capable de calculer des similarités entre des textes. Il a créé un faux chercheur de toutes pièces et publié sous ce nom de faux articles générés par un programme du MIT, appelé SCIgen. Ces faux articles ont été indexés par le moteur de recherche académique Google Scholar, une référence en la matière. Cyril Labbé avait remarqué que certains « faux papiers » étaient publiés et vendus ; il a été le premier à dénoncer des maisons d’édition manipulées.

Nous avons mis au point, en 2021, un logiciel à même de passer en revue l’ensemble de la littérature scientifique, soit quelque 120 millions d’articles. Nous avons détecté 243 articles suspects, générés par ordinateur, puis validés par les pairs, mis en ligne et parfois même vendus et même cités par d’autres publications. Sans attendre de finaliser ce travail, nous avons partagé en juillet dernier une prépublication, nous avons fait connaître ces pratiques sur les réseaux sociaux et sur PubPeer, une plateforme d’évaluation post-publication permettant aux internautes de formuler des commentaires au sujet d’articles publiés.

Vous avez identifié ce que vous appelez des « tortured phrases », expressions torturées en français. Qu’est-ce que cela signifie ?

En postant des rapports au sujet d’articles problématiques sur PubPeer, je pensais naïvement que les maisons d’éditions, alertées par ces dénonciations, rétracteraient les articles incriminés. Ça n’a pas été le cas. Mais un mathématicien d’origine russe, Alexander Magazinov, a remarqué notre communication et nous a soumis la problématique des phrases torturées : il a observé que certains articles contenaient des périphrases étranges, comme « péril dans la poitrine » au lieu de « cancer du sein », « conscience contrefaite » au lieu d’« intelligence artificielle » ou encore « ondes de l’esprit » à la place d’« ondes cérébrales ». Ces expressions ne pouvaient pas être le fruit de textes générés par ordinateur. Nous avons découvert que les fraudeurs volaient les résumés des papiers qu’ils souhaitaient citer. Au lieu de faire copier-coller, une pratique trop flagrante et repérée par les détecteurs de plagiats, ils font « copier-paraphraser-coller », ce que certains outils, permettent.

Il y a eu soudain tellement de papiers suspects que j’ai créé une interface, Problematic Paper Screener, qui créé une « liste d’attente » de tous les articles contenant ces phrases torturées. Des experts et le grand public peuvent ainsi évaluer les publications et débusquer les faux papiers.

En quoi les maisons d’édition sont-elles impliquées ?

Les leaders mondiaux de l’édition scientifique sont des oligopoles extrêmement puissants et lucratifs. Ils se prétendent être les bastions de la science validée, or certaines revues laissent passer et publient des papiers bidons. Notre découverte souligne la faiblesse des évaluations, confiées pour certaines revues à des scientifiques renommés qui, faute de temps parce qu’ils siègent à trop de comités éditoriaux, délèguent les relectures et ne les contrôlent pas, visiblement.

En fouillant dans les égouts de la science, j’ai découvert qu’il existait un véritable business. J’ai indexé sur Problematic Paper Screener les revues qui concentrent plus de 100 articles avec des phrases torturées (4275 publications problématiques à ce jour). On y retrouve des titres de maisons d’édition comme Springer, IEEE, Elsevier… Le travail entrepris a mobilisé une communauté invisible de détectives scientifiques qui dénoncent ces publications frauduleuses, de manière anonyme ou non, et les réévaluent sur PubPeer.

Ce travail vous vaut d’être cité dans le palmarès des dix scientifiques qui ont marqué l’année 2021 selon la revue Nature. Comment prenez-vous cette reconnaissance ?

Je suis cité aux côtés de chercheurs exceptionnels qui ont fait des découvertes essentielles. Ma découverte peut paraître anecdotique - trois articles torturés tous les 10.000 articles publiés en 2021 -, mais les conséquences sont profondes et révélatrices de problèmes cruciaux qui contribuent à éroder la confiance que la société place dans la science. Les erreurs de lexique sont inacceptables, mais elles ne sont que des indices. Les papiers frauduleux jettent le discrédit sur l’ensemble du travail académique. En faisant la plus grande publicité possible, on montre que la science est capable de s’autocorriger et on évite qu’elle soit assimilée à du charlatanisme.

Propos recueillis par Valérie Ravinet

Sur la photo : Guillaume Cabanac fait partie des dix scientifiques ayant marqué l’année 2021 pour la revue Nature. Crédit : Hélène Ressayres-ToulÉco.