2026-05-24

Carbon : le modèle fondationnel ADN qui rend Evo 2 accessible aux PME biotech

Interface de la sandbox Carbon-3B sur Hugging Face affichant une séquence ADN générée à partir de l'exon 1 du gène HTT humain — illustration d'un modèle fondationnel ADN accessible sans cluster GPU

Il y a deux mois, Evo 2 prouvait que l'IA pouvait lire le génome. Cette semaine, Carbon prouve qu'on n'a plus besoin d'un cluster GPU pour l'utiliser.

Le test : HTT exon 1, 14 répétitions CAG

J'ai donné à Carbon-3B les 93 premières bases de l'exon 1 du gène HTT humain (Huntingtine), incluant les 14 répétitions CAG du tractus polyQ qui définit la maladie de Huntington.

Le tout premier codon généré par Carbon a été CAA — le codon synonyme canonique qui clôt les tractus polyQ dans le HTT réel. Le modèle a immédiatement enchaîné sur CCT-CCG-CCG, la région riche en proline qui suit le polyQ dans le gène natif.

768 paires de bases en 3,9 secondes, sur le Space public Hugging Face. Sans fine-tuning. Sans aucune connaissance préalable du HTT. Juste de l'apprentissage de motifs structurels à partir d'ADN brut.

C'est exactement ça, l'idée.

Carbon : la recette d'Evo 2, rejouée pour l'accessibilité

Carbon a été publié cette semaine par Hugging Face, la Zhongguancun Academy et TIGEM.

Même paradigme qu'Evo 2 — traiter l'ADN comme un langage, entraîner un grand modèle autorégressif dessus (analyse détaillée d'Evo 2 ici) — mais la recette a été reconstruite autour d'une seule question : peut-on atteindre la même frontière sans cluster pour la faire tourner ?

Les chiffres

La réponse est oui.

Carbon-3B égale Evo 2-7B sur les sept benchmarks zero-shot rapportés dans le papier, avec deux fois moins de paramètres et une inférence 150× plus rapide.
Carbon-8B améliore les performances sur chaque tâche, avec le saut le plus marqué sur le long-context retrieval — jusqu'à 786 kbp.

Ce qui compte autant que les poids : la recette complète est ouverte

Ce que je trouve plus intéressant encore que les poids, c'est ce qui a été publié à côté. La recette complète est ouverte :

Le code d'entraînement
Le Carbon Pretraining Corpus
Les ablations
Une suite d'évaluation propre sur sept benchmarks, qui fait tourner Carbon, Evo 2 et GENERator derrière un seul flag

Le paysage de l'évaluation des modèles ADN était dispersé sur une demi-douzaine de papiers. Il vient de recevoir un point de référence commun.

Ce que ça change concrètement pour la biotech et la pharma

Une biotech de cinq personnes peut désormais tester un modèle fondationnel ADN sur ses propres séquences sans louer de cluster H100.

Interprétation de variants
Diagnostic des maladies rares
Design de séquences réglementaires

Tout cela devient accessible à des structures qui ne pouvaient pas se permettre de faire tourner Evo 2-40B.

Evo 2 a prouvé la science. Carbon la rend utilisable.

C'est le vrai changement de cette semaine. Le ticket d'entrée pour expérimenter sérieusement un modèle fondationnel ADN vient de passer d'un budget cloud à un GPU grand public — voire un Space gratuit.

Si vous portez un projet biotech ou pharma et que vous voulez évaluer ce qu'un modèle comme Carbon peut apporter sur vos séquences, prenons 30 minutes pour en parler.