[personal profile] progenes
Next-Generation Digital Information Storage in DNA

ДНК кодирует 2 бита на нуклеотид или 455 триллиона битов на грамм (16х1020 нуклеотидов. Для сравнения геном человека3,27х109 нуклеотидов длиной) , не ограничена плоским слоем и может все еще читаться тысячелетие спустя, несмотря на деградацию при хранении в неидеальных условиях. Первые попытки сохранять информацию в ДНК были предприняты в 1988 году. Тогда удалось закодировать 7920 битов. Теперь вот новый подход. В этой работе взяли html драфт книжки на 53425 слов, 11 джпегов и 1 джава-скрипт (простите, лень переключать раскладку) и закодировали это все в 54898 штук коротких нуклеотидных кусков, в каждом по 96 битов. Затем это все распечатали на струйном принтере. Нет, ну серьезно. Ну хорошо, почти серьезно. Биочипы делаются по принципу струйных принтеров. Ну как вам это объяснить? Ладно, в следующий раз объясню, как работает Illumina HiSeq. Короче, это все потом обратно прочитали, сложили и раскодировали книжку с картинками.
В отличии от попытки 1988 года, эти авторы закодировали не два, а один бит на нуклеотид: аденин и цитозин - 0, а гуанин или тимин - 1.
В общем у них получилась плотность 5.5 petabits/mm3 at 100x synthetic coverage. По приблизительным подсчетам содержимое интернета помещается на пластинке размером с ноготь на мизинце, а всю информацию, которая есть на Земле, можно закодировать в 4 гр ДНК.

Хороших вам выходных!

Date: 2012-09-14 04:53 pm (UTC)
ext_605364: geg MOPO4 (geg_MOPO4)
From: [identity profile] gegmopo4.livejournal.com
Ну вот если повторить, то и чудеса миниатюризации исчезают. Плотность информации становится сравнимой с записанной небиологическим способом.

Date: 2012-09-14 06:53 pm (UTC)
From: [identity profile] progenes.livejournal.com
Этот метод уже учитывает повторы. Я каждый раз как слушаю про эти современные методы секвенирования, то мне звезды кажутся ближе. Что творят, гады, что творят.

Date: 2012-09-15 07:53 am (UTC)
ext_605364: geg MOPO4 (geg_MOPO4)
From: [identity profile] gegmopo4.livejournal.com
Тогда ни о каком «один бит на нуклеотид» речи быть не должно. Один бит нужно записывать несколькими нуклеотидами, причём дублировать в разных местах, причём кодировать разными способами. И хорошо «зашифровать» информацию перед кодированием, чтобы была похожа на случайную последовательность — а то вдруг последовательность из тысяч нулей или единиц или регулярные повторы как-то нехорошо поведут себя.

Date: 2012-09-15 08:06 am (UTC)
From: [identity profile] progenes.livejournal.com
нормально поведут. Они ж в коротких кусках. Подумашь, кусок на АГАГАГАГАГА. Ну короче, не вижу разницы - расшифровуем мы геном человека или html. Когда я сиквенс получаю, мне тоже важно, чтобы он был без ошибок, а то буде фигня.

Date: 2012-09-15 03:12 pm (UTC)
ext_605364: geg MOPO4 (geg_MOPO4)
From: [identity profile] gegmopo4.livejournal.com
Если у человека на одно АГА из тысячи будет больше, то что изменится? Практически ничего, ну может ещё одна веснушка на носу появится, или яблоки станет любить больше апельсинов (а скорее всего — вообще ничего). А если вставим лишний бит в середину текста — изменится до полной неузнаваемости.

При записи на магнитную ленту (да и на магнитный диск, который как бы состоит из множества замкнутых лент) стоит проблема синхронизации. С какого места начинается полезная информация. Для этого используются длинные повторяющиеся последовательности нулей или единиц. Или АГАГАГАГАГА. Следует гарантировать, что эта последовательность не появится в данных. В биологии, я полагаю, аналогично, некоторые последовательности обозначают начало считывания и химически отличаются от других частей ДНК.

Profile

progenes: (Default)
progenes

March 2025

S M T W T F S
      1
2345678
9101112131415
1617 1819202122
23242526272829
3031     

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jan. 6th, 2026 09:48 pm
Powered by Dreamwidth Studios