GT Stockage de données numériques sur ADN synthétique


Groupe de travail GDR-IASIS

Contexte


L'explosion des données est l'un des plus grands défis de l'évolution numérique. La demande de stockage augmente à un rythme tel qu'elle ne peut rivaliser avec les capacités réelles des appareils. Selon les prévisions, l'univers numérique devrait atteindre plus de 180 zettaoctets d'ici 2025, tandis que 80 % des données sont rarement consultées (données "froides"), mais méritent d'être archivées à long terme pour mémoire de l'humanité (photographies, films, code informatique, connaissances scientifiques, etc.). Dans le même temps, les dispositifs de stockage classiques ont une durée de vie limitée à 10 ou 20 ans et doivent être fréquemment remplacés pour garantir la fiabilité des données, un processus coûteux et énergivore. Des études récentes ont montré qu'en raison de ses propriétés biologiques, l'ADN est un candidat très prometteur pour l'archivage à long terme de données numériques "froides" pendant des siècles.

Le stockage de données sous la forme de molécules d'ADN nécessite de coder les informations dans un flux quaternaire composé des symboles A, C, T et G (les fameux nucléotides), tout en respectant des contraintes strictes liées aux processus biochimiques associés. De plus, ce support de stockage introduit des erreurs non conventionnelles de types insertions et délétions que les méthodes classiques de correction d'erreurs ne savent pas traiter. Des travaux pionniers ont d'ores et déjà proposé différents algorithmes pour le codage et la protection des données stockées dans de l'ADN, laissant cependant encore la place à de nombreux défis à relever.

Objectifs


L'objectif du GT est de fédérer la recherche en traitement de signal pour le stockage de données dans l'ADN, et de faire le point sur les avancées technologiques et les grands défis à relever dans ce domaine. Le stockage de données dans l'ADN est un sujet multidisciplinaire, qui de manière générale en France implique des biologistes, des chimiste, des bio-informaticiens, etc. L'objectif du GT sera également d'introduire ce sujet de manière accessible pour la communauté signal, et de travailler ensuite sur des problématiques spécifiques liées au traitement du signal, à l'apprentissage automatique, à la théorie de l'information, ou encore au codage source/canal, en cohérence avec les activités du GdR IASIS.

Organisation


La première année sera dédiée à l'organisation de sessions de formation sur le stockage de données dans l'ADN. A la fin de la première année, les participants au GT se réuniront pour identifier 2 ou 3 questions d'intérêt pour le plus grand nombre. La deuxième année sera dédiée à l'étude des questions identifiées.

Agenda


Sessions de formation 2025

date horaires sujet Intervenants




11 03 2025 14h00 - 15h30 Introduction au domaine M. Antonini, E. Dupraz, D. Lavenier
10 04 2025 10h00 - 11h30 Production des données: synthèse, séquençage P. Barbry, A. Genot
16 05 2025 10h00 - 11h30 Reconstruction des données D. Lavenier
24 06 2025 10h00 - 11h30 Codage canal E. Dupraz
23 09 2025 14h00 - 15h30 Codage source M. Antonini
--- 10 2025 Théorie de l'information ---

La formation se fera en visio : 1 heure de présentation suivie d'une séance de questions/discussion (30 minutes).
Les liens seront transmis aux personnes inscrites avant chaque session.

Animation