На самом деле, почти 20 лет спустя около 8% генома так и не было полностью секвенировано, в основном потому, что он состоит из повторяющихся фрагментов ДНК, которые трудно совместить с остальными. Но трехлетний консорциум наконец-то заполнил эту оставшуюся ДНК, предоставив первую полную, без пробелов последовательность генома, на которую могут ссылаться ученые и врачи.
Новый геном, получивший название T2T-CHM13, представляет собой значительное усовершенствование по сравнению с существующим эталонным геномом под названием GRCh38, который используется врачами при поиске мутаций, связанных с заболеваниями, а также учеными, изучающими эволюцию генетических вариаций человека.
Среди прочего, новые последовательности ДНК раскрывают невиданные ранее подробности о регионе вокруг центромеры, где хромосомы захватываются и раздвигаются при делении клеток, гарантируя, что каждая «дочерняя» клетка унаследует правильное число хромосом. Изменчивость в этой области может также предоставить новые доказательства того, как наши человеческие предки эволюционировали в Африке.
Алтемозе является первым автором одной работы, в которой описываются последовательности пар оснований вокруг центромеры. Статья, объясняющая, как проводилось секвенирование, появится в печатном издании журнала Science 1 апреля, а статья Альтемоза о центромере и четыре другие, описывающие, о чем говорят новые последовательности, будут обобщены в журнале, а полные тексты статей будут опубликованы в Интернете. Четыре сопутствующие статьи, включая одну, в которой Альтемозе является соавтором, также появятся 1 апреля в журнале Nature Methods.
Секвенирование и анализ были выполнены командой из более чем 100 человек, так называемым консорциумом Telemere-to-Telomere Consortium, или T2T, названным так в честь теломер, которые закрывают концы всех хромосом. Созданная консорциумом версия всех 22 аутосом и половой хромосомы X без пробелов состоит из 3,055 миллиарда пар оснований, из которых построены хромосомы и наши гены, и 19 969 генов, кодирующих белки. Среди генов, кодирующих белки, команда T2T обнаружила около 2 000 новых генов, большинство из которых отключены, но 115 из них все еще могут быть экспрессированы. Они также обнаружили около 2 миллионов дополнительных вариантов в геноме человека, 622 из которых встречаются в генах, имеющих медицинское значение.
Новые последовательности ДНК в центромере и вокруг нее составляют около 6,2% всего генома, или почти 190 миллионов пар оснований, или нуклеотидов. Из остальных новых последовательностей большинство находится вокруг теломер на конце каждой хромосомы и в областях, окружающих рибосомные гены. Весь геном состоит всего из четырех типов нуклеотидов, которые, объединяясь в группы по три, кодируют аминокислоты, используемые для построения белков. Основные исследования Алтемоза связаны с поиском и изучением участков хромосом, где белки взаимодействуют с ДНК.
После того как консорциум T2T секвенировал недостающую ДНК, Алтемозе и его команда использовали новые методы, чтобы найти место в центромере, где большой белковый комплекс под названием кинетохор прочно удерживает хромосому, чтобы другие машины в ядре могли раздвинуть пары хромосом.
Они обнаружили в центромерах и вокруг них слои новых последовательностей, наложенные на слои более старых последовательностей, как будто в ходе эволюции новые области центромеры неоднократно закладывались для связывания с кинетохором. Старые области характеризуются большим количеством случайных мутаций и делеций, что указывает на то, что они больше не используются клеткой. Более новые последовательности, с которыми связывается кинетохор, гораздо менее изменчивы, а также менее метилированы. Добавление метильной группы — это эпигенетическая метка, которая, как правило, заставляет гены молчать.
Все слои в центромере и вокруг него состоят из повторяющихся участков ДНК, основанных на единице длиной около 171 пары оснований, что примерно соответствует длине ДНК, которая оборачивается вокруг группы белков, образуя нуклеосому, сохраняя ДНК упакованной и компактной. Эти единицы длиной 171 пара оснований образуют еще более крупные повторяющиеся структуры, которые многократно дублируются в тандеме, образуя большой регион повторяющихся последовательностей вокруг центромеры.
Команда T2T сосредоточилась только на одном человеческом геноме, полученном из нераковой опухоли, называемой гидатидиформной родинкой, которая, по сути, является человеческим эмбрионом, отвергнувшим материнскую ДНК и продублировавшим вместо нее отцовскую ДНК. Такие эмбрионы умирают и превращаются в опухоли. Но тот факт, что эта родинка имела две идентичные копии отцовской ДНК — обе с отцовской Х-хромосомой, а не разные ДНК матери и отца, — облегчил ее секвенирование.
На этой неделе исследователи также опубликовали полную последовательность Y-хромосомы из другого источника, на сборку которой ушло почти столько же времени, сколько на сбор всего остального генома, сказал Алтемозе. Анализ этой новой последовательности Y-хромосомы будет представлен в одной из будущих публикаций.