Kommentare Abstract
2025/1 Materialität der Archive

DNAMIC : Préservation du patrimoine documentaire dans l'ADN

Kommentare Abstract

La solution d’archivage DNAMIC, basée sur le concept de micro-usine autonome pilotée par la technologie open-source DLCM, représente une percée dans le domaine du stockage de l’information dans l’ADN. La micro-usine combine la synthèse de l'ADN, son amplification et séquençage dans un seul dispositif robotique modulaire.

DNAMIC

Cette équipe de 7 partenaires (https://dnamic.org/team) a reçu un financement du programme de recherche et d'innovation Horizon 2020 de l'Union européenne dans le cadre de la convention de subvention n° 101115389. Les participants suisses à ce projet sont soutenus par le Secrétariat d'État à la formation, à la recherche et à l'innovation (SERI) sous les numéros de contrat 23.00300 et 23.00487.

Pourquoi l’ADN ?

Avec sa densité de données inégalée, sa longévité (plus de 100 ans avec une dégradation mineure1) et sa durabilité (très faibles besoins en énergie), l’usage de l’ADN vise à révolutionner la préservation d’archives. Tant qu’il y aura de la vie, l’humanité maîtrisera l’ADN, et il n’y aura donc pas de risque d’obsolescence technologique comme c’est le cas avec les procédés magnétiques et optiques. Avec les technologies génomiques actuelles, l’application la plus prometteuse est l’archivage à long terme dans un mode « write-once-read-many ». Dans un avenir plus lointain, il devrait être possible d’utiliser l’ADN de la même manière qu’un disque optique réinscriptible, mais avec une densité d’information de 7 à 8 ordres de grandeur plus élevée.

Alors qu’un seul flacon pourrait stocker des centaines de pétaoctets, le prototype en cours de fabrication fonctionne à l’échelle du mégaoctet, mais l’optimisation du codeur/décodeur (CODEC) et autres procédés, permettra d’étendre cette capacité bien au-delà. Le premier prototype fonctionnel est prévu pour septembre 2026.

Procédé d’encodage…

Pour archiver des documents dans l’ADN de synthèse, la première étape consiste à les rendre disponibles dans la plateforme de préservation OLOS, conforme à la norme OAIS (ISO 14721). Basé sur la technologie DLCM, qui consiste en une architecture ouverte et modulaire destinée à la préservation à long terme, OLOS est doté d’un connecteur spécialement conçu pour encoder l’information dans l’ADN, et représente l’élément de base du système d’archivage proposé, de l’ingestion des documents à leur accès. Concrètement, les différents modules offrent une gamme de services permettant aux archivistes de préparer leurs documents en vue d’être préservés, à savoir :

  1. de les soumettre avec une étape de pre-ingest suivi d’ingest (paquet SIP),
  2. de les stocker physiquement (paquet AIP ou archive),
  3. et de pouvoir y accéder selon des droits spécifiques (paquet DIP).

Cet ensemble de services garantit la mise en œuvre des bonnes pratiques du domaine archivistique : recherche de virus, détection de format, contrôle d’intégrité, réplication, etc. Ces services sont mis à disposition via des APIs2. En d’autres termes, ils sont normalisés et donc agnostiques à la technologie. En cas de défaillance de la plateforme de préservation, grâce aux métadonnées et à l'auto-documentation exigées par la norme OAIS, il est possible de récupérer le contenu archivé dans l'ADN.

Les paquets d’informations archivistiques (AIP) sont envoyés au superviseur de la micro-usine par l’intermédiaire du connecteur ADN d’OLOS, qui distribue la tâche aux dispositifs modulaires concernés. Les informations reçues sont traitées par un CODEC afin de transformer les fichiers binaires contenus dans l’AIP, en séquences d’ADN. L’ADN possède 4 bases, à savoir les nucléotides représentés par les lettres A, C, G, et T. Pour stocker de l’information dans l’ADN, une étape d’encodage est donc nécessaire pour passer d’une représentation binaire à une base quaternaire (Figure 1). Un encodage simple consiste par exemple à faire correspondre les codes binaires 00 à A, 01 à C, 10 à G, et 11 à T. Sans entrer dans les détails, plusieurs types d’encodage sont possibles mais doivent tenir compte de contraintes biologiques, comme éviter des répétitions successives des mêmes nucléotides (« homopolymers »), ou de certains motifs, ainsi qu’une répartition équilibrée entre les nucléotides GC et AT3. Une fois constitués, les brins sont transmis à des machines capables de synthétiser l’ADN lettre par lettre pour créer les molécules. Ces dernières sont ensuite conditionnées sous forme déshydratée dans des flacons. Du fait que le procédé chimique de fabrication des nucléotides de synthèse fonctionne avec un taux d’erreur relativement faible pour des segments inférieurs à 300 nucléotides, les fichiers binaires sont segmentés pour respecter cette limite. Pour être capable de reconstituer les fichiers par la suite, à chaque segment est associé un index, encodé dans la structure des nucléotides. A cela s’ajoute des informations redondantes de correction d’erreurs. Finalement, à chaque brin d’ADN qui appartient à un AIP donné sont associés aux extrémités deux chaînes d’ADN spécifiques à cet AIP. Ces chaînes, dénommées « amorces », sont utilisées pour la relecture des AIPs.

Figure 1: Processus de stockage ADN et de relecture
Figure 1: Processus de stockage ADN et de relecture
Pierre-Yves Burgi, Hugues Cazeaux, Jérôme Charmet

… et de décodage

Pour relire un AIP, le synthétiseur de la micro-usine fabrique les amorces spécifiques à cet AIP. Le robot prélève avec une micropipette un échantillon d’ADN, qui est ensuite transféré au bloc d'amplification (ou « PCR »). Les brins amplifiés grâce aux amorces sont alors divisés en deux ensembles. L’un est renvoyé à l’unité de stockage de l’ADN, et l’autre est transmis à l’étape de séquençage. Dans le dispositif DNAMIC, le séquençage est basé sur la technologie récente des nanopores qui a l’avantage d’être compact avec cependant un taux d’erreur de lecture élevé (environ 10 % en moyenne). En sortie du séquenceur, les brins sont ensuite décodés par le CODEC selon les étapes suivantes : regroupement et alignement des brins similaires, établissement d’un consensus pour chaque lettre d’un groupe, réordonnancement des brins selon leur index, puis correction des erreurs résiduelles en se basant sur la redondance. Ensuite les fichiers AIPs sont renvoyés sur OLOS pour être diffusés sous forme de DIP (Figure 1). Tout au long du processus, l’unité de supervision de la micro-usine contrôle les paramètres de traitement pour s’assurer que l’écart par rapport à l’objectif de qualité est minimal et pour permettre de prendre rapidement des mesures correctives ou préventives, si nécessaire.

La matérialité de l’ADN

Il est essentiel de documenter la côte et l’emplacement précis de chaque contenant. Cette gestion de l’espace physique, tant à l’intérieur de la micro-usine qu’à l’extérieur, où les flacons seraient stockés dans des armoires ignifuges, par exemple, implique l’utilisation d’un récolement topographique pour cartographier les contenants ADN et gérer l’occupation de l’espace. Les capteurs environnementaux sont nécessaires pour contrôler la température, l’humidité et le rayonnement, des paramètres auxquels l’ADN est très sensible.

Conclusion

Avec une densité d’information inégalée, une longévité et une très faible consommation d’énergie, l’ADN est la brique de base de la solution d’archivage DNAMIC qui, couplée à l’autonomisation robotique dans un seul dispositif et à sa conformité au standard OAIS, représente une percée dans le domaine archivistique.​

Burgi Pierre-Yves 2018

Pierre-Yves Burgi

Pierre-Yves Burgi a obtenu un diplôme d'ingénieur en informatique à l'École polytechnique fédérale de Lausanne (Suisse) en 1986 et un doctorat en intelligence artificielle à l'Université de Genève en 1992. Ses études ont été suivies d'un post-doctorat de 5 ans en neurosciences au Smith-Kettlewell Eye Research Institute, San Francisco, CA (USA), et à l'Unité Cerveau et Cognition de l'Université Paul Sabatier, Toulouse (France). De 1997 à 2003, il a travaillé à la division microélectronique du Centre suisse d'électronique et de microtechnique, à Neuchâtel, où il a mené des recherches appliquées dans le domaine de la vision artificielle bio-inspirée basée sur des microcircuits VLSI. En 2003, il a rejoint l'Université de Genève en tant que directeur adjoint de la Division des systèmes d'information, où il a dirigé l'Unité des nouvelles technologies jusqu'en 2017. Il dirige actuellement l'Unité de recherche et d'information scientifique, en charge du calcul à haute performance, du stockage et de ​l'archivage des données à long terme. Depuis 2020, il est impliqué dans le stockage des données ADN, devenant membre de l'alliance “DNA data storage” en 2021, et initiant le projet européen DNAMIC (DNA Microfactory for Autonomous Archiving) en 2022. Pierre-Yves Burgi est l'auteur de plus de 60 publications dans des revues internationales et des conférences académiques dans les domaines de la vision par ordinateur, des neurosciences, de la modélisation et simulation de phénomènes naturels, de l'archivage des données à long terme, et, plus récemment, du stockage des données dans l’ADN.

Charmet jerome

Jérôme Charmet

Jérôme Charmet est Professeur HES à la Haute Ecole Arc au sein de la Haute Ecole Spécialisée de Suisse occidentale (HES-SO) et Adjunct Professeur à l’Université de Berne. Il a suivi une formation postgrade (MSc) en ingénierie biomédicale à l’Université de Berne, et a obtenu son doctorat à l’Université de Cambridge, au Royaume-Uni. Il a rejoint l’Université de Warwick (Royaume-Uni) en 2016 en tant que Professeur Assistant et a été promu Professeur Associé en 2018. Il a ensuite rejoint la Haute Ecole Arc en 2021 pour poursuivre ses recherches appliquées en « Advanced Sample Processing » dans le contexte des technologies biomédicales et de la biotechnologie. Il supervise les activités de la HES-SO dans le cadre du projet DNAMIC.

Cazeaux Hugues 2018

Hugues Cazeaux

Après une formation d’ingénieur, Hugues a travaillé chez différents éditeurs logiciels pendant les 20 dernières années, en mettant en place des méthodes agiles de développement. Durant la dernière décennie, Hugues a acquis une grande expertise dans le domaine de l’archivage électronique et du Record Management. Actuellement, il s’occupe de définir et de développer la solution de préservation à long terme dans le projet DLCM. Il est aussi en charge du pôle e-Research à l’Université de Genève dont le rôle est de supporter les chercheurs de l’institution, avec comme mission principale de mettre en œuvre une plateforme de préservation des données de la recherche.

  • 1 Selon des protocoles de conservation bien définis.
  • 2 Interface de programmation par laquelle un logiciel offre des services à d’autres logiciels afin que des données ou des fonctionnalités puissent être échangées. https://fr.wikipedia.org/wiki/Interface_de_programmation
  • 3 Dimopoulou, M., & Antonini, M. (2022). Data and image storage on synthetic DNA: Existing solutions and challenges. EURASIP Journal on Image and Video Processing, 2022 (1), 23. https://doi.org/10.1186/s13640-022-00600-x
    Gervasio, J. H. D. B., Da Costa Oliveira, H., Da Costa Martins, A. G., Pesquero, J. B., Verona, B. M., & Cerize, N. N. P. (2024). How close are we to storing data in DNA? Trends in Biotechnology , 42 (2), 156-167. https://doi.org/10.1016/j.tibtech.2023.08.001
    Wang, C., Ma, G., Wei, D., Zhang, X., Wang, P., Li, C., Xing, J., Wei, Z., Duan, B., Yang, D., Wang, P., Bu, D., & Chen, F. (2022). Mainstream encoding–decoding methods of DNA data storage. CCF Transactions on High Performance Computing, 4 (1), 23–33. https://doi.org/10.1007/s42514-022-00094-z

Abstract

​​Le projet DNAMIC “DNA Microfactory for Autonomous Archiving” a pour but de développer d’ici 2026 un prototype qui automatisera l’archivage de documents dans de l’ADN, en tirant parti de la densité d’information inégalée, de la longévité, de la très faible consommation d’énergie, et de la non-obsolescence de cette molécule, brique de la vie. Atteindre ce but, tout en assurant la conformité avec le standard OAIS, représente une innovation à la fois dans le domaine des archives et de la génomique.​

Das DNAMIC-Projekt "DNA Microfactory for Autonomous Archiving" hat sich zum Ziel gesetzt, bis 2026 einen Prototypen zu entwickeln, der die Archivierung von Dokumenten in DNA automatisiert und sich dabei die unübertroffene Informationsdichte, die Langlebigkeit, den sehr geringen Energieverbrauch und die Unvergänglichkeit dieses Moleküls, des Bausteins des Lebens, zunutze macht. Dieses Ziel zu erreichen und gleichzeitig die Konformität mit dem OAIS-Standard zu gewährleisten, stellt eine Innovation sowohl im Bereich der Archive als auch der Genomik dar.