2026-03-18

Evo 2 : l'IA qui lit, comprend et écrit l'ADN

Double hélice d'ADN illuminée en bleu fusionnant avec un réseau neuronal numérique, symbolisant l'IA appliquée à la génomique

En mars 2026, l'Arc Institute, NVIDIA et Stanford ont publié dans Nature les résultats d'un modèle qui pourrait redéfinir la recherche en génomique : Evo 2.

Il ne s'agit pas d'un outil de plus dans l'écosystème bioinformatique. Evo 2 est un modèle fondationnel biologique, entraîné sur 9 000 milliards de paires de bases ADN couvrant l'ensemble du vivant : bactéries, archées, eucaryotes.

Pour le dire simplement : c'est un modèle de langage comparable à ChatGPT, mais dont le langage n'est ni le français ni l'anglais. C'est l'ADN.

Et comme les grands modèles de langage, il ne se contente pas de "lire". Il comprend la grammaire du vivant. Et il peut écrire.

Un modèle d'une ampleur inédite

Evo 2 existe en deux versions : 7 milliards et 40 milliards de paramètres. Les deux disposent d'une fenêtre de contexte d'un million de tokens avec une résolution au nucléotide près, ce qui signifie que chaque base A, T, C, G est un token individuel.

Le dataset d'entraînement, baptisé OpenGenome2, compile plus de 8 800 milliards de nucléotides issus de génomes bactériens, archéens, eucaryotes et de bactériophages, soigneusement curés pour éviter la redondance et les biais.

L'architecture sous-jacente, StripedHyena 2, n'est pas un Transformer classique. Elle combine trois types d'opérateurs de convolution avec de l'attention, offrant un débit jusqu'à trois fois supérieur aux Transformers optimisés sur les séquences longues, un avantage critique quand on travaille à l'échelle du génome.

Résultat n°1 : prédire l'impact de mutations sans entraînement spécifique

L'une des capacités les plus remarquables d'Evo 2 est la prédiction zero-shot d'effets de mutations. Concrètement : on lui présente une séquence d'ADN, on y introduit une mutation, et le modèle estime si cette mutation est délétère ou bénigne, sans aucun fine-tuning préalable.

Le modèle a été évalué sur les variants cliniques humains de la base ClinVar :

  • Sur les variants non-SNV (insertions, délétions, duplications) dans les régions codantes et non-codantes, Evo 2 40B surpasse tous les modèles testés, y compris des modèles supervisés comme AlphaMissense et CADD.
  • Sur les variants non-codants, il se classe premier parmi les modèles non supervisés.
  • Sur les variants BRCA1 (le gène le plus étudié en oncogénétique), le modèle atteint des performances de pointe, notamment sur les variants non-codants où il dépasse même les modèles spécialisés supervisés.

Pour les maladies rares, où les données annotées sont par définition limitées, cette capacité zero-shot représente un levier considérable. Un modèle capable de scorer l'impact de mutations sans nécessiter de jeu de données d'entraînement spécifique change la donne pour le diagnostic génétique et le drug repurposing.

Résultat n°2 : le modèle a appris la biologie tout seul

En appliquant des techniques d'interprétabilité mécanistique (Sparse Autoencoders), les chercheurs ont décomposé les représentations internes d'Evo 2 en "features" interprétables. Le constat est frappant : sans qu'on lui ait jamais fourni d'annotation biologique, le modèle a spontanément appris à reconnaître :

  • Les limites exon/intron dans les génomes eucaryotes
  • Les sites de fixation de facteurs de transcription humains (70% des motifs connus retrouvés)
  • Les structures secondaires protéiques (hélices alpha, feuillets bêta)
  • Les éléments génétiques mobiles comme les prophages et les spacers CRISPR
  • Les cadres ouverts de lecture (ORFs), les régions intergéniques, les tRNAs et rRNAs

Plus remarquable encore : ces "connaissances" transfèrent entre espèces. Les features identifiées sur le génome humain fonctionnent également sur un fragment de génome de mammouth laineux vieux de 52 000 ans.

Ce résultat illustre un phénomène déjà observé dans les LLMs textuels : les modèles de grande taille développent des représentations internes qui correspondent à des concepts sémantiques réels, sans supervision explicite.

Résultat n°3 : générer de l'ADN fonctionnel validé expérimentalement

Evo 2 n'est pas seulement un modèle prédictif. C'est aussi un modèle génératif. Il peut compléter des gènes à partir d'un contexte génomique et, surtout, générer des séquences ADN entières à l'échelle du génome.

Les chercheurs ont démontré la génération de :

  • Génomes mitochondriaux complets (~16 kb) avec le bon nombre de gènes codants, tRNAs et rRNAs
  • Génomes procaryotes (~580 kb, type M. genitalium) où 70% des gènes annotés ont des homologues fonctionnels connus
  • Séquences eucaryotes (~330 kb, type chromosome de levure) avec gènes, introns, promoteurs et tRNAs

Mais le résultat le plus spectaculaire concerne le design d'accessibilité chromatinienne. En couplant Evo 2 avec des modèles prédictifs de chromatine (Enformer et Borzoi) via un beam search à l'inférence, les auteurs ont généré des séquences ADN multi-kilobases avec des profils d'accessibilité chromatinienne contrôlés.

Pour prouver le concept de manière mémorable, ils ont littéralement écrit des messages en code Morse dans l'épigénome de cellules souches embryonnaires de souris : "LO", "ARC" et "EVO2".

Les séquences synthétiques ont été fabriquées, insérées dans le génome de cellules de souris, et les profils de chromatine mesurés expérimentalement correspondent aux prédictions avec une précision de 92 à 95% (AUROC).

On ne parle plus de prédiction. On parle de design biologique programmable.

Ce que ça change concrètement pour la biotech et la pharma

Les implications pour l'industrie sont directes :

Criblage de variants pathogènes accéléré. La capacité zero-shot d'Evo 2 permet de scorer l'impact de mutations sur des gènes peu étudiés, sans nécessiter de datasets d'entraînement spécifiques. C'est un atout majeur pour les maladies rares et les variants de signification incertaine (VUS).

Annotation génomique sans dépendre de bases de données existantes. Les embeddings d'Evo 2, combinés à des classifieurs légers, surpassent des outils classiques comme AUGUSTUS pour la classification d'exons, y compris sur des organismes non-modèles.

Design de séquences régulatrices sur mesure. Le couplage modèle génératif + modèle de scoring ouvre la voie au design rationnel d'enhancers, de promoteurs et d'éléments régulateurs synthétiques pour la thérapie génique.

Un framework généralisable. Le paradigme clé d'Evo 2 (modèle génératif + scoring function + inference-time search) est applicable à n'importe quel phénotype pour lequel un modèle prédictif existe. C'est une architecture de design biologique, pas un outil ponctuel.

Biosécurité : un modèle pensé de manière responsable

Point important : les génomes de virus infectant les eucaryotes ont été délibérément exclus des données d'entraînement. Les évaluations montrent que le modèle a une perplexité élevée sur ces séquences et une performance essentiellement aléatoire pour la génération de protéines virales humaines.

C'est l'un des efforts les plus complets de mitigation des risques pour un modèle fondationnel biologique open source.

Open source intégral

Le modèle est entièrement open source :

  • Paramètres des modèles 7B et 40B sur Hugging Face
  • Code d'entraînement et d'inférence sur GitHub
  • Dataset OpenGenome2 complet
  • Interface web Evo Designer pour la génération et le scoring
  • Outil d'exploration des features SAE : Evo Mech Interp

Conclusion

Evo 2 marque un tournant. Pour la première fois, un modèle de langage entraîné uniquement sur de l'ADN brut atteint des performances de pointe en prédiction de variants humains, apprend spontanément des concepts biologiques complexes, et génère des séquences ADN fonctionnelles validées expérimentalement.

On entre dans l'ère où l'IA ne traite plus seulement le langage humain, mais le langage même du vivant.


Référence : Brixi, G. et al. Genome modelling and design across all domains of life with Evo 2. Nature (2026). DOI: 10.1038/s41586-026-10176-5


Vous travaillez dans la biotech ou la pharma et vous souhaitez comprendre comment l'IA peut accélérer vos processus de R&D ? Contactez SG AI Solutions pour un audit IA adapté à vos enjeux.

Prêt à intégrer l’IA dans votre entreprise ?

Réservez un appel découverte gratuit de 30 minutes.

Réserver un appel