Entrée 185836
La solution d’archivage DNAMIC, basée sur le concept de micro-usine autonome pilotée par la technologie open-source DLCM, représente une percée dans le domaine du stockage de l’information dans l’ADN. La micro-usine combine la synthèse de l'ADN, son amplification et séquençage dans un seul dispositif robotique modulaire.
DNAMIC
Cette équipe de 7 partenaires (https://dnamic.org/team) a reçu un financement du programme de recherche et d'innovation Horizon 2020 de l'Union européenne dans le cadre de la convention de subvention n° 101115389. Les participants suisses à ce projet sont soutenus par le Secrétariat d'État à la formation, à la recherche et à l'innovation (SERI) sous les numéros de contrat 23.00300 et 23.00487.
Procédé d’encodage…
Pour archiver des documents dans l’ADN de synthèse, la première étape consiste à les rendre disponibles dans la plateforme de préservation OLOS6, conforme à la norme OAIS (ISO 14721). Basé sur la technologie DLCM, qui consiste en une architecture ouverte et modulaire destinée à la préservation long terme, OLOS est doté d’un connecteur spécialement conçu pour encoder l’information dans l’ADN, et représente l'élément de base du système d'archivage proposé, de l'ingestion des documents à leur accès. Concrètement, les différents modules offrent une gamme de services permettant aux archivistes de préparer leurs documents en vue d’être préservés, à savoir :
de les soumettre avec une étape de pre-ingest suivi d’ingest (paquet SIP),
de les stocker physiquement (paquet AIP ou archive),
et de pouvoir y accéder selon des droits spécifiques (paquet DIP).
Cet ensemble de services garantit la mise en œuvre des bonnes pratiques du domaine archivistique : recherche de virus, détection de format, contrôle d’intégrité, réplication, etc. Ces services sont mis à disposition via des APIs7. En d’autres termes, ils sont normalisés et donc agnostiques à la technologie. La norme OAIS offre certaines garanties, grâce aux métadonnées et à l'auto-documentation, que le contenu archivé dans l'ADN puisse être récupéré en cas de défaillance du système et être interprété à l'avenir, même si le logiciel ou les systèmes d'origine ne sont pas disponibles.
Les paquets d'informations archivistiques (AIP) sont envoyés au superviseur de la micro-usine par l'intermédiaire du connecteur ADN d’OLOS, qui distribue la tâche aux dispositifs modulaires concernés. Les informations reçues sont traitées par un CODEC afin de transformer les fichiers binaires contenues dans l’AIP, en séquences d’ADN. L’ADN possède 4 bases, à savoir les nucléotides représentés par les lettres A, C, G, et T. Pour stocker de l’information dans l’ADN, une étape d’encodage est donc nécessaire pour passer d’une représentation binaire à une base quaternaire (Figure 1). Un encodage simple consiste par exemple à faire correspondre les codes binaires 00 à A, 01 à C, 10 à G, et 11 à T. Sans entrer dans les détails, plusieurs types d’encodage sont possibles mais doivent tenir compte de contraintes biologiques, comme éviter des répétitions successives des mêmes nucléotides (« homopolymers »), ou de certains motifs, ainsi qu’une répartition équilibrée entre les nucléotides GC et AT (Dimopoulou et Antonini 2022 ; Wang et al. 2022 ; Gervasio et al. 2024). Une fois constitués, les brins sont transmis à des machines capables de synthétiser l’ADN lettre par lettre pour créer les molécules. Ces dernières sont ensuite conditionnées sous forme déshydratée dans des flacons. Du fait que le procédé chimique de fabrication des nucléotides de synthèse fonctionne avec un taux d’erreur relativement faible pour des segments inférieurs à 300 nucléotides, les fichiers binaires sont segmentés pour respecter cette limite. Pour être capable de reconstituer les fichiers par la suite, à chaque segment est associé un index, encodé dans la structure des nucléotides. A cela s’ajoute des informations redondantes de correction d’erreurs. Finalement, à chaque brin d’ADN qui appartient à un AIP donné sont associés aux extrémités deux chaînes d’ADN spécifiques à cet AIP. Ces chaînes, dénommées « amorces », sont utilisées pour la relecture des AIPs.
… et de décodage
Pour relire un AIP, le synthétiseur de la micro-usine fabrique les amorces spécifiques à cet AIP. Le robot prélève avec une micropipette un échantillon d’ADN, qui est ensuite transféré au bloc d'amplification (ou « PCR »). Les brins amplifiés grâce aux amorces sont alors divisés en deux ensembles. L'un est renvoyé à l’unité de stockage de l’ADN, et l'autre est transmis à l'étape de séquençage. Dans le dispositif DNAMIC, le séquençage est basé sur la technologie récente des nanopores qui a l’avantage d’être compact avec cependant un taux d’erreur de lecture élevé (environ 10 % en moyenne). En sortie du séquenceur, les brins sont ensuite décodés par le CODEC selon les étapes suivantes : regroupement et alignement des brins similaires, établissement d’un consensus pour chaque lettre d’un groupe, réordonnancement des brins selon leur index, puis correction des erreurs résiduelles en se basant sur la redondance. Ensuite les fichiers AIPs sont renvoyés sur OLOS pour être diffusés sous forme de DIP (Figure 1). Tout au long du processus, l'unité de supervision de la micro-usine contrôle les paramètres de traitement pour s'assurer que l'écart par rapport à l'objectif de qualité est minimal et pour permettre de prendre rapidement des mesures correctives ou préventives, si nécessaire.
La matérialité de l’ADN
Il est essentiel de documenter la côte et l’emplacement précis de chaque contenant. Cette gestion de l'espace physique, tant à l’intérieur de la micro-usine qu’à l’extérieur, où les flacons seraient stockés dans des armoires ignifuges, par exemple, implique l'utilisation d’un récolement topographique pour cartographier les contenants ADN et gérer l'occupation de l’espace. Les capteurs environnementaux sont nécessaires pour contrôler la température, l'humidité et le rayonnement, des paramètres auxquels l'ADN est très sensible.
Conclusion
Avec une densité d’information inégalée, une longévité et une très faible consommation d’énergie, l’ADN est la brique de base de la solution d’archivage DNAMIC qui, couplée à l'autonomisation robotique dans un seul dispositif et à sa conformité au standard OAIS, représente une percée dans le domaine archivistique.
Abstract
- Français
- Deutsch
Le projet DNAMIC “DNA Microfactory for Autonomous Archiving” a pour but de développer d’ici 2026 un prototype qui automatisera l’archivage de documents dans de l’ADN, en tirant parti de la densité d’information inégalée, de la longévité, de la très faible consommation d’énergie, et de la non-obsolescence de cette molécule, brique de la vie. Atteindre ce but, tout en assurant la conformité avec le standard OAIS, représente une innovation à la fois dans le domaine des archives et de la génomique.
Das DNAMIC-Projekt "DNA Microfactory for Autonomous Archiving" hat sich zum Ziel gesetzt, bis 2026 einen Prototypen zu entwickeln, der die Archivierung von Dokumenten in DNA automatisiert und sich dabei die unübertroffene Informationsdichte, die Langlebigkeit, den sehr geringen Energieverbrauch und die Unvergänglichkeit dieses Moleküls, des Bausteins des Lebens, zunutze macht. Dieses Ziel zu erreichen und gleichzeitig die Konformität mit dem OAIS-Standard zu gewährleisten, stellt eine Innovation sowohl im Bereich der Archive als auch der Genomik dar.