Des minuscules grenouilles d’arbres aux séquoias imposants – à vous et à moi – ADN conduit toute la vie sur Terre. Intégré dans chaque cellule de chaque organisme, l’ADN agit comme une sorte de manuel d’instructions biologique, contenant toutes les informations génétiques nécessaires pour faire la vie.
Ce processus commence par la transcription: l’ADN fait une copie d’une partie de son code pour produire l’ARN, un type de molécule qui peut catalyser les réactions biologiques qui expriment les informations incrustées dans l’ADN. Dans ces réactions, les protéines sont synthétisées et deviennent des cellules vivantes. Dans l’ensemble, ceci est connu comme le dogme central de la biologie moléculaire: l’ADN fait de l’ARN et l’ARN fait des protéines.
Un seul brin d’ADN peut contenir des millions de paires de nucléotides, les blocs de construction moléculaires qui transportent des informations génétiques. Et un seul brin d’ARN peut en contenir des dizaines de milliers. Il existe pratiquement d’innombrables façons dont les nucléotides peuvent fusionner pour devenir la vie. Et la complexité combinatoire est tout simplement trop pour un esprit humain. Mais c’est là que l’IA entre en jeu.
« L’apprentissage automatique peut rassembler des modèles d’ordre supérieur à partir d’ensembles de données massifs », explique Patrick HSU, professeur adjoint de bio-ingénierie. « L’IA a déjà fait cela en langage naturel, vision et robotique. Maintenant, nous le faisons en biologie. »
En février 2025, HSU et ses collaborateurs ont publié un modèle d’apprentissage automatique formé sur plus de 9,3 billions de nucléotides sur le biorxiv serveur de préimprimée. Appelé EVO 2, HSU le compare à un chatpt biologique qui peut analyser les données génétiques à grande échelle. Il s’agit déjà du plus grand modèle d’IA en biologie, et un jour, EVO 2 pourrait concevoir de nouveaux outils et traitements biologiques.
« En ce moment, nous avons beaucoup de données d’observation », dit-il. « Nous connaissons les corrélations entre les gènes et les maladies, mais nous ne savons toujours pas grand-chose sur les relations causales. Avoir quelque chose avec la capacité de prédire la cause et l’effet serait vraiment puissant. »
Ce type de prédiction est la vision à court terme de l’EVO 2. HSU donne l’exemple de BRCA1 – un gène du cancer du sein. Si une femme a une mutation du gène BRCA1, son risque à vie de cancer du sein augmente considérablement. Plus de 60% des femmes atteintes d’une mutation du gène BRCA1 développeront un cancer du sein à un moment donné de leur vie, contre seulement 13% des femmes dans son ensemble. Certaines mutations BRCA1 sont connues pour être pathogènes, tandis que d’autres sont connues pour être bénignes. Mais la plupart des mutations sont des variantes d’une signification inconnue – nous ne savons tout simplement pas ce qu’ils font.
« Si vous avez une mutation pathogène, vous obtenez une mastectomie. Et si vous avez une mutation bénigne, vous obtenez une mammographie annuelle. Mais que faites-vous si vous avez une variante de signification inconnue? » demande Hsu. « Il s’avère que EVO 2 a une opinion à ce sujet, et le modèle est à la pointe de la technologie dans la classification de la pathogénicité des mutations BRCA1. Il a atteint une précision de plus de 90% pour prédire quelles mutations sont bénignes sur lesquelles sont potentiellement pathogènes. »
Prédire les propriétés biologiques
EVO 2 est le produit d’un organisme sans but lucratif indépendant de Bay Area appelée l’ARC Institute, que HSU a co-fondé avec le bio-génieur et neuroscientifique Silvana Konermann. L’institut vise à accélérer les progrès scientifiques et à approfondir notre compréhension des causes profondes de la maladie, et elle rassemble des chercheurs biomédicaux de premier plan de l’UC Berkeley, UCSF et Stanford.
Le modèle AI s’appuie sur son prédécesseur Evo 1, qui a été lancé en 2024 et a été entièrement formé sur des organismes unicellulaires. Evo 2 prend plusieurs crans. Le modèle a été formé sur une vaste mine d’informations biologiques, notamment plus de 128 000 génomes entiers et 9,3 billions de nucléotides de 100 000 espèces de toute l’arbre de la vie, y compris des bactéries, des plantes et des animaux.
Il existe cinq nucléotides de base qui composent l’ADN et l’ARN: adénine (A), cytosine (C), guanine (G), thymine (T) et uracile (U). L’ADN contient A, C, G et T, tandis que l’ARN contient A, C, G et U. Notre matériel génétique est fabriqué à partir de ces nucléotides dans d’innombrables séquences différentes, et EVO 2 utilise ces informations pour faire des prédictions probabilistes sur ce qui est le plus probable à venir dans ces séquences.
Le modèle utilise des principes similaires à ceux qui stimulent des modèles de grande langue bien connus comme le chatppt d’Openai ou le claude d’Anthropic. Et pour construire ce modèle de pointe, les chercheurs ont collaboré avec le fabricant de puces AI de la tête de l’industrie Nvidia.
« Un modèle d’apprentissage automatique prédit le token suivant – un terme pour l’unité fondamentale des données qu’un modèle traite », explique HSU. « Chatgpt prédit le personnage suivant et le mot suivant. Si vous lui demandez de terminer la phrase« d’être ou de ne pas être »… il y a une très haute probabilité» qui est la question «viendra ensuite. Si je vous ai donné une séquence comme« g, t, g, c, t, c » Et je ne le fais pas non plus.
EVO 2 est un modèle grand langage pour un langage qui n’est jamais parlé, seulement exprimé sous forme physique – que cette expression soit la croissance d’une tumeur cancéreuse ou de la couleur de l’œil d’un bébé. EVO 2 peut traiter jusqu’à un million de nucléotides à la fois, il peut donc choisir des modèles dans les données et identifier les relations avec d’autres parties d’un génome.
Cela ne permet pas seulement des prédictions sur la question de savoir si une mutation génétique est susceptible d’être pathogène. Il permet également de prédire les thérapies qui pourraient potentiellement traiter une maladie et fournir un aperçu des mécanismes biologiques qui le font progresser. Cela pourrait même aider à guider la direction que la recherche biomédicale prend.
« Les chercheurs sont déjà en mesure de générer des ensembles de données plus importants que jamais auparavant – et faire des expériences plus importantes, mais il n’est pas clair que cela a conduit à plus de perspectives que jamais », explique HSU. « Même les plus grands ensembles de données sont très faibles par rapport à la complexité de la biologie. C’est là que les modèles d’apprentissage automatique entrent en jeu. Nous pouvons prendre de grands ensembles de données biologiques et former les modèles pour trouver des modèles d’ordre supérieur dans les données qui sont plus complexes que nous ne pourrions même l’imaginer. »
«L’efficacité est vraiment importante»
Pour la plupart, la science de la biologie s’est développée à travers le processus d’essais et d’erreurs. Un chercheur formule une hypothèse, le teste dans une expérience scientifique et analyse les résultats. Ensuite, le chercheur passe à l’hypothèse suivante. Et ainsi de suite.
L’approche prend du temps, mais elle a donné des résultats – les humains vivent plus longtemps que jamais. Les essais cliniques pour les nouveaux traitements médicaux prennent des années à mener, et l’écrasante majorité des nouveaux traitements ne surveille jamais. HSU compare le processus à une randonnée dans les montagnes de Californie.
« Être un chercheur biomédical peut avoir envie de marcher dans le désert », explique HSU. « Vous voyez un pic au loin, et vous vous dirigez vers lui. Ensuite, trois heures dans la promenade, vous vous rendez compte que vous ne vous êtes pas beaucoup rapproché. Et vous devez prendre une décision sur la question de savoir si vous marchez dans la bonne direction. »
En biologie, les expériences ont eu tendance à se dérouler à l’échelle de la vie – dans les jours, les semaines, les mois et les années. Et si vous vous dirigez dans la mauvaise direction, vous pourriez être hors cap pendant un certain temps.
« L’efficacité compte vraiment. Vous pouvez passer des années à travailler sur la mauvaise chose et avoir juste de la chance », dit-il. « Nous sommes allés très loin en biologie avec quelque chose de proche de deviner et de vérifier. »
L’un des principaux objectifs des chercheurs EVO 2 est d’utiliser l’IA pour accélérer le développement de découvertes en thérapies réelles. Le concept a des racines dans la pandémie Covid-19, qui a vu les vaccins d’ARNm largement et rapidement.
« Cette percée a été de 60 ans », explique Howard Chang, vice-président principal de la recherche mondiale de la société de biotechnologie Amgen et ancien chercheur de l’Institut Arc. « L’ARN messager a été découvert comme une entité biologique fondamentale en 1961. Elle n’aurait pas dû prendre autant de temps. »
Selon Chang, EVO 2 peut déjà faire des choses qui devraient aider à accélérer le processus. Il est capable de prédire avec précision quels gènes d’ARN sont essentiels à la fonction cellulaire et lesquels sont dispensables. Il peut vous dire quels gènes sont impliqués dans le contrôle du comportement cellulaire qui conduit à des maladies. Cela peut mettre les chercheurs sur la bonne voie plus tôt.
« Si vous suivez des familles individuelles sujettes à une maladie particulière, il existe de nombreuses différences héréditaires qui mappent les lieux du génome où les changements d’information pourraient provoquer la maladie, mais nous ne savons pas ce qu’ils sont. Evo 2 nous permet de le déterminer », dit Chang.
« Si EVO 2 peut nous dire qu’une maladie se produit parce qu’une protéine est trop active, nous savons quel est le problème, et nous pouvons essayer de fabriquer un médicament qui s’adresse. C’est le genre de possibilités que vous avez avec EVO 2 », ajoute-t-il. « C’est un nouveau type d’oracle. »
HSU soutient que ce type d’avancement sera particulièrement transformateur en biologie moléculaire. La recherche peut prendre de nombreuses années et l’écrasante majorité des essais cliniques échouent.
« Le taux d’échec de l’essai clinique est de 90%. Donc, la plupart du temps, nous travaillons simplement sur la mauvaise cible médicamenteuse », explique HSU. « L’IA peut nous aider à trouver la bonne cible beaucoup plus efficacement. »
Vers un avenir plus sain
Pour HSU, la poursuite des remèdes pour les maladies complexes est une entreprise profondément personnelle. Lorsqu’il était pré-adolescent, son grand-père a reçu un diagnostic de maladie d’Alzheimer. Son grand-père vivait avec sa famille et Hsu a été témoin de son déclin inévitable. Lentement, il a réalisé qu’il n’y avait pas de retour. La condition neurodégénérative est incurable et finalement mortelle.
L’expérience a été formatrice. Adolescent, HSU a travaillé dans les laboratoires de neurosciences universitaires à Stanford. Il a fait des recherches sur la maladie d’Alzheimer lors de ses études supérieures à Harvard, et la maladie reste au centre de son travail à Berkeley et à l’Arc Institute.
« Si vous regardez une liste des meilleurs tueurs aux États-Unis il y a 30 ans, vous verrez qu’ils sont les mêmes qu’aujourd’hui: maladie cardiaque, cancer, Alzheimer », explique HSU. « C’est une situation assez désastreuse. Cela implique que malgré de plus en plus de recherches biomédicales effectuées, et de plus en plus d’argent dépensé, nous ne progressons pas de plus en plus pour guérir ces maladies. »
L’IA est essentielle pour améliorer les choses, soutient HSU. La complexité de la biologie est tout simplement trop pour que l’esprit humain se débattre pleinement – et analyser de grandes quantités de données est exactement ce que l’IA est excellente. HSU envisage un avenir où l’IA rend la recherche biomoléculaire plus efficace et permet des traitements adaptés aux résultats de santé probables d’un patient.
« Nous ne voulons pas seulement comprendre les effets de mutations génétiques spécifiques et s’il s’agit de voies de maladie », explique HSU. « Nous voulons utiliser EVO 2 pour mener des études d’association à l’échelle du génome qui séquencent à la fois des personnes en bonne santé et des personnes malsaines afin de déterminer quelles mutations génétiques sont associées à une maladie et vous dire quelque chose de plus spécifique à propos de votre propre risque. Nous voulons mieux comprendre les combinaisons génétiques et l’intégrer à votre propre dossier de santé et à votre génie pour faire des prédictions plus précises sur votre santé. Et espérons-le, plutôt que plus tard. »