Прошлая неделя ознаменовалась прецедентом, который случается в научном мире нечасто. В среду, 5 сентября 2012 года, авторитетные научные журналы Nature, Genome Research и Genome Biology скоординировано опубликовали серию из тридцати статей, открытых для свободного доступа, которые посвящены одному исследованию. Кроме того, обзорные статьи вышли в журналах Science, Cell и ряде других. В совокупности эти публикации представляют результаты пятилетней работы международного проекта по аннотированию функциональных элементов генома человека.
Объем собранных и проанализированных данных, передаваемых в пользование научному сообществу, колоссален. По словам координатора проекта Эвана Бирни (Ewan Birney) из Европейского института биоинформатики (Кембридж), для их распечатки понадобится лента 16 метров в ширину и 30 километров в длину, если 1 кв. см. будет соответствовать 1000 пар оснований ДНК. Однако кратко сформулировать главный итог исследований можно. Он звучит так: большая часть (80.4%) генома человека задействуется в биохимической активности клеток. И если до недавнего времени считалось, что наша ДНК преимущественно заполнена бесполезными последовательностями, то теперь такой взгляд, скажем аккуратно, поставлен под сомнение.
Представлять роль каждого участка генома важно не только с позиций фундаментального знания, но и в связи с очевидными практическими задачами. Многолетние попытки установить генетическую компоненту многочисленных заболеваний и осложнений имеют пока очень ограниченный успех. Расшифровав геном человека, ученые получили в свое распоряжение текст, в котором понятное значение имеют не более 3% слов. Именно столько суммарно занимают гены – последовательности, кодирующие белки.
Чем занята остальная «темная материя» генома, выяснить гораздо сложнее. Было естественно предположить, что некая очень небольшая часть приходится на регулирующие элементы, тогда как остальное пространство – до 95% всей ДНК – представляет собой накопленный эволюцией мусор, не несущий никакой функции. С целью найти эти значимые участки (помимо генов) был создан научный консорциум, финансируемый Национальным институтом изучения генома человека (NHGRI). Проект, получивший название «Энциклопедия ДНК элементов» (Encyclopedia of DNA Elements), для краткости ENCODE, стартовал в 2003 году. Он объединил свыше 440 специалистов из 32 лабораторий, находящихся в разных странах.
Первые четыре года ушли на то, чтобы проверить варианты и определиться с технологиями, методами обработки, выявить тонкие места и получить первый реальный результат. В 2007 году ENCODE представил данные, охватывающие суммарно 1% ДНК. Уже тогда можно было говорить о том, что полученные цифры значительно превышают прогнозируемые. Из анализа следовало, что большая часть человеческой ДНК служит матрицей для разнообразных молекул РНК, причем эти последовательности часто перекрывают друг друга.
Консорциум обнаружил множество ранее неизвестных сайтов инициации транскрипции (т.е. специфических последовательностей ДНК, на которых происходит сборка комплекса белков (не РНК), осуществляющих транскрипцию) и регуляторные участки, расположенные не до, а после них (в направлении 3'). Картина организации генома усложнялась, взаимосвязи между его фрагментами походили на хитро сплетенную сеть. Тем не менее, в силу незначительности процента изученных областей выводы, полученные в ходе пилотного этапа, можно и нужно было считать крайне предварительными.
На сегодняшний день ENCODE обладает внушительным объемом информации уже по всему человеческому геному. В общей сложности база состоит из 1640 отдельных массивов данных, собранных на основе работы со 147 типами клеток, включая раковые и эмбриональные. Согласно ENCODE, одни только сайты связывания факторов транскрипции занимают минимум 8% генома, что существенно превосходит допроектные прогнозы.
Важный результат исследований состоит в том, что регулирующая ДНК занимает в разы больше места, нежели кодирующая, относимая к генам. При этом, как показал сравнительный анализ, эволюция первой отличается от эволюции второй. Взяв ген человека, мы в большинстве случаев найдем у мыши практически такой же. Однако это правило не работает для регуляторных элементов. Получается, именно они, а не гены, ответственны за львиную долю видовых различий между организмами. В ходе проекта также обнаружилось множество участков, регулирующих транскрипцию генов, значительно удаленных от них «по тексту», иногда даже находящихся на других хромосомах. Тем самым модель линейных взаимодействий приобретает трехмерный вид. То, какими элементами управляется активность гена, зависит не только от молекулярной последовательности, но и от ее пространственной упаковки.
Предварительные данные, полученные в 2007 году, подтвердились. С подавляющей части ДНК считываются транскрипты, а верхняя граница оценки функционального генома составляет 80%. Это исключительно высокий показатель, не вписывающийся ни в какие разумные предположения, сделанные ранее. Что примечательно, некодирующие молекулы РНК распределены внутри клетки неравномерно и, кроме того, специфично относительно ее типа. Иными словами, в клетке печени набор РНК будет отличаться от набора, характерного для клетки кожи, а молекулы в ядре - от молекул в цитоплазме.
Столь усложненная картина регуляции возвращает нас к вопросу генетических факторов заболеваний. Последние годы в интересах медицины проводятся так называемые полногеномные исследования, которые нацелены на поиск однонуклеотидных полиморфизмов (различий между людьми в одну букву генома), связанных с той или иной болезнью. Как ни удивительно, изо всех найденных к настоящему времени полиморфизмов (снипов – SNPs) лишь незначительный процент приходится непосредственно на гены.
Вместе с тем, в ходе исследований ENCODE удалось установить, что большая часть снипов либо находится внутри функциональных элементов, либо поблизости от них. Таким образом, во многих случаях те или иные расстройства могут быть ассоциированы с конкретным типом клеток или фактором транскрипции. Это настолько обнадеживающие данные, что участники консорциума потратили дополнительные усилия, чтобы перепроверить свои результаты.
В то же время будет преувеличением считать, что итоги второго этапа ENCODE содержат в себе сенсацию. Как отмечалось выше, многие принципы и оценки просматривались уже в прошлом десятилетии, на основе исследований отдельных генетических фрагментов.
Возможно, с понятием «мусорная ДНК» придется обращаться осторожнее, либо вовсе отказаться от подобной метафоры. Авторы проекта, в свою очередь, сравнивают геном с джунглями: непролазная чаща, где легко можно заблудиться и где приходится очень тщательно выбирать маршрут, чтобы добраться до нужного места.
Проект ENCODE показывает, как на наших глазах усложняется картина взаимодействия транскриптов, хроматина и ДНК. Участки перекрывают друг друга, читаются в обе стороны, управляются удаленными элементами, а РНК транскрибируются почти по всей длине генома. Именно принципы и механизмы регуляции выходят на первый план, если речь идет о понимании биологии человека. Члены консорциума в своих комментариях отмечают, что полученные результаты потребуют изменений и в учебниках - в том, как там описываются и излагаются многие генетические концепции. В частности, они полагают, что фундаментальной единицей наследственности следует считать не традиционный ген, а транскрипт, либо еще радикальнее – всякую устойчиво воспроизводящуюся в поколениях биохимически значимую структуру генома.
Пока неизвестно, например, какую роль играют многочисленные РНК, считывающиеся с разных мест генома, и оправдано ли рассматривать их в качестве полноценных функциональных элементов. Позиция участников проекта на этот счет уже вызвала критику со стороны ряда специалистов и породила ожесточенные споры. Во многом итоговые цифры зависят от трактовки понятия «функциональность». Если под ней понимать нечто, влияющее на биохимические свойства клетки, тогда 80% ДНК человека попадут в данный сегмент. Но можно выбрать консервативный подход и считать функциональным только то, что выраженно сказывается на фенотипе организма и подвержено естественному отбору. В этом случае оценка будет существенно ниже и составит порядка 20%. С другой стороны, далеко не все признаки организма непосредственно влияют на выживаемость. Например, отбор может быть нейтрален к участкам генома, влияющим на форму носа, но будет нелепо отказать им в функциональности.
В рамках ENCODE проделана необходимая, очень трудоемкая и скрупулезная работа. Однако времени почивать на лаврах практически нет: впереди еще более масштабные и сложные задачи. Прежде всего, очень важно получить ту же информацию в динамике: имеющиеся на сегодня данные отражают лишь один конкретный момент в жизни клеток. Знать, как меняется регуляция во времени, было бы исключительно полезно, для медицины - в первую очередь. Значительная часть анализа проводилась по клеточным линиям, но более корректная информация может быть получена в результате работы с клетками разных тканей одного человека.
Кроме того, сама номенклатура типов клеток, исследованных в рамках ENCODE, далеко не полна. Множество других типов лишь предстоит изучить. То же относится и к факторам транскрипции: в ходе проекта было использовано лишь 119 из возможных 1800. В целом это серьезное основание, чтобы предполагать, что оценки доли функциональных элементов занижены. Будущие эксперименты с другими факторами и клетками могут существенно поднять нижнюю границу.
Пока не был проанализирован полный геном одной клетки: в рамках имеющихся технологий обрабатывались большие количества клонов, и всякий раз речь фактически идет об усредненном геноме. Еще один возможный вызов – аннотация функциональных элементов шимпанзе и других значимых видов. Эволюция теперь все отчетливее предстает не как процесс модификации генов, а как изменение их регулирования. Возможно, именно там, в якобы «мусорной» ДНК, и содержится то, что придает человеку сложность, отличающую его от эволюционных родственников. Ту сложность, которую надеялись - и не смогли обнаружить в генах.
Огромный массив информации, полученный ENCODE, обладает интересной парадоксальной чертой. С одной стороны, он приумножил сведения о геноме человека, находящиеся в распоряжении науки. Однако, с другой – открыл перед нами глубину нашего незнания. Проект ENCODE неизбежно переходит к третьему этапу. В завершение уместно будет привести слова многолетнего координатора проекта Эвана Бирни, сказанные на днях в интервью журналу Scientific American:«У меня стойкое ощущение, что раньше я не был осведомлен относительно собственной неосведомленности, но сейчас я ее осознаю. Всегда несколько удручает узнать степень собственного невежества. Но в этом, в том числе, и заключается прогресс».
* * *
"Полит.ру" обратилось за комментарием о главных итогах проекта к профессору Института биологических наук и кафедры экологии и эволюционной биологии Мичиганского университета США Алексею Кондрашову. Публикуем его ответ:
«Новизна этого проекта не идейная – это все хорошо известно по кускам, - а технологическая: огромная толпа коллективно аннотировала геном человека и много чего якобы нашла. Многое вызывает у меня сомнение – в частности, у них уж совсем не остается места для нейтральной эволюции. Я всегда был сторонником высокой доли важной ДНК (10% – вместо более популярных 5%), но 80% - полагаю, это перебор. Но информации там очень много, и это некий важный этап в исследовании генома человека».
* * *
Доктор биологических наук, старший научный сотрудник Института палеонтологии РАН Александр Марков прокомментировал в своем Живом журнале итоги проекта ENCODE так:
«...На самом деле эти 80% – это то, что удалось проаннотировать, то есть понять, что это такое в принципе, а не то, что жизненно необходимо организму. В эти 80% попали и все интроны (ну как же, они ведь транскрибируются), и все ретротранспозоны (ну как же, в них же есть промоторы и даже белок-кодирующие гены). Это примерно как если бы исследовали городскую свалку и объявили: так называемая свалка содержит множество ценных предметов с понятной функцией: там много топлива, ценного сырья для химической промышленности, корма для свиней, и даже множество совершенно целых, неповрежденных, нормально размножающихся пушистых зверьков, пригодных и для научных экспериментов, и в качестве домашних питомцев. Поэтому так называемая свалка – вовсе не свалка, а мусор – вовсе не мусор» (Ред. см. также дискуссию http://vigna.livejournal.com/163150.html).