Anshul Kundaje résume sa frustration face à l’utilisation de l’intelligence artificielle en science en trois mots: «Bad Benchmarks propagés».
Kunday étudie le génome informatique à l’Université de Stanford en Californie. Il est impatient d’incorporer tout type d’intelligence artificielle (IA) qui aide à accélérer les progrès dans son domaine – et d’innombrables chercheurs se sont intensifiés pour offrir des outils à cette fin. Mais trouver ceux qui travaillent le mieux deviennent plus difficiles parce que certains chercheurs ont fait des affirmations douteuses sur les modèles d’IA qu’ils ont développés. Ces réclamations peuvent prendre des mois à vérifier. Et ils s’avèrent souvent faux – principalement parce que les repères utilisés pour démontrer et comparer les performances de ces outils ne conviennent pas à cet effet.
À ce moment-là, il est souvent trop tard: Kunday et ses collègues se retrouvent pour jouer à Whack-a-mole après que les repères défectueux ont été adoptés et «améliorés» par des utilisateurs enthousiastes mais naïfs. “En attendant, tout le monde les a utilisés (repères) pour toutes sortes de mauvaises choses, puis vous avez de mauvaises informations et de mauvaises prédictions”, dit-il.
‘Another Deepseek -Smile’: Chinois Ai -Model Kimi K2 Tension remuant
Ce n’est qu’une des raisons pour lesquelles un nombre croissant de scientifiques craignent que jusqu’à ce que l’analyse comparative soit radicalement améliorée, les systèmes d’IA conçoivent pour accélérer les progrès de la science ont l’effet inverse.
Une référence est un test qui peut être utilisé pour comparer les performances de différentes méthodes, tout comme la longueur standard d’un compteur donne un moyen d’évaluer une précision des règles. “C’est la normalisation et la définition de ce que nous entendons par progrès”, explique Max Welling, chercheur à l’apprentissage automatique et co-fondateur de Cuspai, une entreprise d’IA basée à Cambridge, au Royaume-Uni. Les bons repères permettent à un utilisateur de choisir la meilleure méthode pour une application particulière ou de déterminer si plusieurs algorithmes conventionnels peuvent produire un meilleur résultat. “Mais la première question”, dit Welling, “est, qu’entendons-nous par« mieux »?
C’est une question étonnamment profonde. Signifie «mieux» plus vite? Moins cher? Plus précis? Si vous achetez une voiture, considérez un large éventail de facteurs, tels que l’accélération, la capacité de démarrage et la sécurité, chacun avec son propre degré d’importance pour vous. Les outils AI -Benchmark ne sont pas différents – Pour certaines applications, la vitesse peut ne pas signifier autant que la précision, par exemple.
Mais c’est encore plus compliqué que cela. Si votre référence est mal conçue, les informations qu’il vous donne peut être trompeuse. S’il y a des «fuites» où l’analyse comparative dépend des données utilisées pour former l’algorithme, l’indice de référence devient plus un jeu de mémoire qu’un test de résolution de problèmes. Ou le test peut simplement être sans rapport avec vos besoins: il peut être trop spécifique, par exemple, pour masquer l’incapacité d’un système à répondre à la large série de questions qui vous intéressent.
Quels sont les meilleurs outils d’IA pour la recherche? NatureGuide
C’est un problème que Kundaje et ses collègues ont identifié avec les modèles de langage ADN (DNALMS), qui, selon les développeurs de l’IA, pourraient aider à découverte de mécanismes de régulation intéressants dans un génome. Environ 1,5% du génome humain se compose de séquences de codage des protéines qui fournissent des modèles pour créer l’ARN (transcription) et les protéines (traduction). Entre 5% et 20% du génome se compose d’éléments régulateurs non codants qui coordonnent la récupération et la traduction. Obtenez les vraies bien et ils peuvent aider à interpréter et à découvrir des séquences fonctionnelles, à prédire les conséquences de la modification de ces séquences et de les repenser pour avoir des propriétés spécifiques et souhaitées.
Jusqu’à présent, cependant, Dnalms n’est pas inférieur à ces objectifs. Selon Kundaje et ses collègues, c’est en partie parce qu’ils ne sont pas utilisés pour les bonnes tâches. Ils sont conçus pour comparer favorables avec les tests de référence, dont beaucoup évaluent l’utilité non pas pour entrer des applications biologiques, mais plutôt pour substituer les dimensions que les modèles peuvent remplir1. La situation n’est pas différente des écoles qui «enseignent le test» – vous vous retrouvez avec des élèves (ou des outils d’IA) qui sont qualifiés pour passer un test mais ne faites pas grand-chose d’autre.
Kundajje et ses collègues de l’Université de Stanford ont trouvé ces lacunes cruciales dans plusieurs benchmarks DNALM populaires, ensembles de données et mesures. Par exemple, une tâche importante consiste à évaluer la capacité d’un modèle à classer les variantes génétiques fonctionnelles: changements dans les séquences d’ADN qui peuvent affecter le risque de maladie ou la fonction moléculaire dans les cellules. Bien que certains DNALM ne soient tout simplement pas évalués sur cette tâche, d’autres ensembles de données de référence déficients qui n’expliquent pas «l’extension d’interconnexion» utilisent l’association non tentive des variantes génétiques.
Il rend plus difficile d’isoler les véritables variantes fonctionnelles, une erreur qui donne des estimations irréalistes de la capacité de ces modèles à découvrir de telles variantes. C’est une erreur recrue, dit Kundaje. «Cela ne nécessite pas de connaissances profondes du domaine – c’est la génétique 101.»
Transparence et puffier
Des références inadéquates créent un problème d’enseignement à test similaire dans un certain nombre de disciplines scientifiques. Mais les échecs ne sont pas seulement parce qu’il est difficile de créer une bonne référence: c’est souvent parce qu’il n’y a pas assez de pression pour faire mieux, selon Nick McGreivy, qui a mis fin à son doctorat. dans l’utilisation de l’IA en physique l’année dernière à l’Université de Princeton dans le New Jersey.
La plupart des gens qui utilisent l’IA en science semblent être heureux de permettre aux développeurs d’outils d’IA d’évaluer leur nouveauté en utilisant leurs propres critères. C’est comme laisser les sociétés pharmaceutiques décider si leur médicament doit aller sur le marché, explique McGreivy. “Les mêmes personnes qui évaluent les performances des modèles d’IA bénéficient également de ces évaluations”, dit-il. Cela signifie que même si la recherche n’est pas consciemment frauduleuse, elle peut être partielle.
Comment l’IA transforme la science et la société
Lorena Barba, ingénieur en mécanique et spatiale à l’Université George Washington à Washington DC, a une perspective similaire. La science souffre en raison de “une mauvaise transparence, de la brillance sur les limites, des erreurs de création, de la généralisation, de l’échec des données, du portguard et de la puffier” dans les tentatives de mettre l’IA au monde dans le monde réel alors qu’elle l’a dit dans un discours en 2023 sur la plate-forme de la conférence avancée de l’informatique scientifique à Davos, en Suisse.
Le champ de Barba est la dynamique des fluides – qui implique l’étude de problèmes tels que le lissage du flux d’air sur les ailes d’un avion pour améliorer l’efficacité énergétique. Le faire implique la solution d’équations différentielles partielles (PDE), mais elle n’est pas simple: la plupart des PDE ne peuvent pas être résolus par analyse numérique. Au lieu de cela, la solution doit être approchée par un processus similaire aux tentatives et erreurs (guidées expertes).
Les outils mathématiques qui les effectuent sont appelés résolutions standard. Bien que relativement efficaces, ils nécessitent également des ressources de calcul importantes. Par conséquent, de nombreuses personnes dans la dynamique des fluides espèrent que les méthodes d’apprentissage automatique spécifiques de l’IA peuvent les aider à faire plus avec moins de ressources.
L’apprentissage automatique est la forme de l’IA, qui a connu le plus de progrès au cours des cinq dernières années – principalement en raison de la disponibilité des données de formation. L’apprentissage automatique implique l’alimentation des données dans un algorithme qui recherche des modèles ou des prévisions. Les paramètres de l’algorithme peuvent être ajustés pour optimiser l’utilité des prédictions.
En théorie, l’apprentissage automatique pourrait fournir des solutions pour les PDE plus rapidement et utiliser moins de ressources informatiques que les méthodes conventionnelles. Le problème est que si vous ne pouvez pas faire confiance que les repères utilisés pour évaluer les performances sont utiles ou fiables, comment pouvez-vous compter sur la sortie des modèles qu’ils valident?

Nick McGreivy a constaté que certaines améliorations publiées aux modèles d’IA faisaient des allégations trompeuses.Crédit: Nicholas McGreivy
McGreivy et son collègue Ammar Hakim, physicien de calcul à l’Université de Princeton, ont effectué une analyse des «améliorations» publiées aux solos standard et ont constaté que 79% des articles qu’ils ont étudiés font des affirmations problématiques2. Une grande partie de cela est liée à l’analyse comparative contre ce qu’ils dénotent des lignes de base faibles. Cela peut provenir de comparaisons déraisonnables: l’apprentissage automatique pour la PDE pourrait être considéré comme plus efficace en termes de ressources informatiques – par exemple, un runtime plus court – qu’un solveur standard. Mais à moins que la solution ait une précision similaire, la comparaison n’a pas de sens. Les chercheurs suggèrent que les comparaisons doivent être faites soit par une précision égale ou une exécution égale.
Une autre source d’analyse comparative faible consiste à comparer une application d’IA avec des méthodes non nucléaires relativement inefficaces. En 2021, par exemple, le scientifique des données Sifan Wang, maintenant à l’Université de Yale à New Haven, le Connecticut, et l’informatique Paris Perdikaris à l’Université de Pennsylvanie à Philadelphie ont affirmé que leur solveur basé sur l’apprentissage en machine pour une autre classe d’équations différentielles avait donné 10 à 50 ans. solveur dissous pour un3. Mais comme Chris Rackauckas, un informaticien du Massachusetts Institute of Technology de Cambridge, l’a souligné dans une vidéo, le couple ne l’a pas comparé avec des disséminations numériques avancées, dont certaines pourraient rendre le travail 7 000 fois plus rapide, a fonctionné sur une approche de Wang et Perdicaris standard.
Prêt ou non, l’IA vient à l’enseignement des sciences – et les étudiants ont des opinions
“Pour être juste envers (Perdicaris), après avoir souligné cela, ils ont édité leur papier”, explique Rackauckas. Cependant, ajoute-t-il, le papier d’origine est la seule version disponible sans mur payant, puis crée toujours un faux espoir pour la promesse AIS dans ce domaine.
Il existe de nombreuses affirmations trompeuses, prévient McGreivy. La littérature scientifique n’est “pas une source fiable d’évaluation du succès avec l’apprentissage automatique dans la résolution des PDE”, dit-il. En fait, il ne reste pas convaincu que l’apprentissage automatique a quelque chose à offrir dans ce domaine. “Dans la recherche PDE, l’apprentissage automatique a été et est toujours une solution pour rechercher un problème”, dit-il.
Johannes Brandstetter, chercheuse à l’apprentissage automatique à l’Université Johannes Kepler à Linz, en Autriche et co-fondatrice d’une entreprise de démarrage de la physique de physique dirigée par AI, est plus optimiste. Il souligne la concurrence critique de l’évaluation de la prédiction de la structure (CASP) qui a permis à l’apprentissage automatique d’aider à la prédiction des structures protéiques 3D de leurs séquences d’acides aminés4.