Природа придумала поразительное по плотности хранения данных решение — ДНК. Всю информацию из интернета, включая бесконечные фотографии котиков, можно записать на ДНК в объёме коробки для котика средних размеров. Учёные давно пытаются повторить этот трюк и у них даже есть успехи.
Используя для кодирования данных на ДНК только четыре природных азотистых основания в объёме коробки для обуви можно записать 215 Пбайт данных. Но если синтезировать искусственные азотистые основания и довести их до 11 базовых кодов, то объём хранимых в «коробке» данных можно удвоить! При должном подходе эта информация может храниться миллионы лет в отличие от данных на жёстких дисках и SSD. Когда-нибудь это произойдёт, но пока исследователи решают ряд связанных с записью на ДНК проблем, в частности, это проблема разрушения данных при многократном обращении к ним и, как следствие, нарастание ошибок и потеря данных.
В новой статье в журнале Nature группа исследователей предложила интересную методику защиты и маркировки информационного ДНК-носителя, которая защищает носитель от разрушения в процессе чтения, а также облегчает сортировку ДНК-файлов и ведёт к созданию роботизированных библиотек.
Сегодня в базовом процессе работы с записанной на ДНК информацией всё происходит следующим образом: в «суп» из ДНК-носителей подаётся затравка — праймер — которая запускает реакцию ПЦР (полимеразная цепная реакция) с реплицированием нужного «файла». Каждый «файл» — это записанная нить ДНК, помеченная определённым образом, и праймер цепляется к ней и запускает процесс тиражирования. Современным инструментам по расшифровке ДНК нужны миллионы одинаковых последовательностей, чтобы надёжно расшифровать один «файл». Каждое такое «чтение» вносит ошибки и, в конечном итоге, разрушает информацию. Наконец, становится трудно работать с несколькими «файлами» одновременно.
Чтобы избежать всего этого учёные придумали заключать файл-ДНК в полимерную капсулу, но не просто так, а только при нагреве до температуры выше 50 °C. Процесс ПЦР запускается при меньшей температуре, затем при нагреве исходный «файл» прячется в капсулу и дальше всё идёт без него. Это позволяет защитить исходные данные в процессе чтения (реплицирования), а также даёт возможность присвоить каждому «файлу» свою метку — в данном случае это флюоресценция разных оттенков.
Свечение даёт возможность роботизировать каталогизацию и последующий отбор файлов — это путь к созданию библиотек. Для чтения реплицированных ДНК систему достаточно остудить и выделить из неё всё, что воспроизвелось в процессе ПЦР. Исходный ДНК-носитель в таком случае остаётся незатронутым в процесс ПЦР и не вносит в свою структуру ошибки, а цветовая метка, по которой его можно сортировать, остаётся при нём.
По словам исследователей, предложенная методика позволяет считывать до 25 файлов одновременно, и теряет только 0,3 % файла после трёх считываний, а не 35 %, как при использовании существующих методов.
«Теперь остается только ждать, когда стоимость синтеза ДНК снизится еще больше, — сказал Том де Гриф (Tom de Greef), ведущий автор исследования. — Тогда техника будет готова к применению».