Корпорация Microsoft закупает 10 миллионов нитей синтетической ДНК у биологического стартапа Twist Bioscience. Такое количество биоматериала требуется для проверки, насколько он подходит для долговременного хранения информации.
Плотность информации в ДНК давно привлекает внимание учёных: в одном грамме ДНК помещается 1 зеттабайт (миллион терабайт) данных и хранится без изменений тысячи лет в соответствующих условиях. Дело за малым: научиться дёшево и надёжно считывать и записывать информацию.
В минувшие годы неоднократно проводились успешные эксперименты с записью бинарных данных в пары оснований ДНК. Ещё в 2010 году биологи из Гонконга сумели внедрить в клетку бактерии E.coli синтетическую ДНК, а в 2012 году учёные из Гарварда записали 643 килобайта данных в ДНК, поставив новый рекорд по количеству записанной информации.
Для кодирования информации в ДНК используется четверичная система счисления, по количеству нуклеотидов (0 = A, 1 = T, 2 = C, 3 = G). Например, специалисты из Китайского университета Гонконга переводили текст в цифры по таблице ASCII (i = 105; G = 71; E = 69; M = 77), затем в четверичную систему (105 → 1221; 71 → 0113; 69 → 0111; 77 → 0131), а потом в цепочку нуклеотидов.
iGem → 1221011301110131 → ATCTATTGATTTATGT
Специалисты из Гарварда использовали другой метод. Во-первых, они принципиально отказались от использования живых организмов, а внедряли синтетическую ДНК в молекулу, сгенерированную на коммерческом ДНК-чипе. Таким образом, записанная информация не может быть потеряна из-за генетических мутаций при эволюции организма-носителя. Во-вторых, они использовали не текст ASCII, а бинарный код — файл с книгой, с сохранением форматирования HTML и иллюстраций JPEG. Код разбили на 96-битные блоки, включая 19-битный уникальный адрес каждого блока (на диаграмме показан красным цветом).
https://geektimes.ru/post/275060/