Стенограмма лекции биолога, научного сотрудника Института проблем передачи информации РАН Константина Попадьина, прочитанной 6 декабря 2014 года в рамках Фестиваля публичных лекций #ЗНАТЬ – совместного проекта информационно-аналитического канала «Полит.ру» и Департамента науки, промышленной политики и предпринимательства г. Москвы.
Борис Долгин: Добрый вечер, уважаемые коллеги. Мы начинаем третью за сегодня лекцию Фестиваля публичных лекций #ЗНАТЬ. Это проект «Полит.ру» и Департамента науки промышленной политики и предпринимательства правительства Москвы. Мы объединили ученых различных дисциплин. Сегодня у нас лекция научного сотрудника Института проблем передачи информации РАН и научного сотрудника кафедры медицинской генетики и развития Института Женевы Константина Попадьина. Он уже выступал у нас в цикле публичных лекций «Полит.ру», еще будет выступать, поскольку явно не собирается прекращать исследование. Тема такая: «Молодые и старые гены в геноме человека».
Константин Попадьин: Сегодня я попробую убедить вас, что за последние десять лет появилось много публикаций о новом свойстве генов, о том, какой возраст у каждого гена, у человеческого генома. Значит, план будет следующий: у нас будет шесть неравнозначных кусочков. Мы просто обсудим среднее: какой возраст нашего генома, далее мы подумаем, почему появляются новые гены, и тут будет у нас два новых подхода, они могут быть полезными, и могут быть просто не сильно вредными. Соответственно, если они полезные, мы их называем оптимистичным объяснением; если не сильно вредные, то это мы называем пессимистичным объяснением. Как гену не стать старым, не умереть, не исчезнуть? Мы изучим новое слово «онологи», я расскажу четыре или пять статей об онологах. Это новое даже для биологов, не только для широкой аудитории. И далее мы посмотрим, как возраст генов может влиять, как возраст генов меняется с возрастом организма, как возраст гена может помогать нам в изучении человека, как возраст гена может нам помогать изменчивости внутри популяции здоровых людей. И, финально, будет просто стопроцентная спекуляция, что, может быть, возраст генов еще связан с разными позициями в нашем геноме. Если все пять пунктов предыдущих – это знания, базирующиеся на опубликованных работах, в той или иной степени, правда, то шестой пункт, видимо, полная ложь. Мы это обсудим позже.
Итак, давайте начнем с первого пункта. Итак, какой возраст нашего генома? Вчера, вернее, сегодня, я залез на сайт gencode, и здесь мы просто должны увидеть две цифры: тотальное количество генов, общее количество генов шестьдесят тысяч в нашем геноме сейчас, на момент июня 2014 года. асто неясна до конца их функция, часто они очень низко экспрессируются, то есть, в некоторых тканях они работают, в некоторых вообще не работает. То есть, функциональная аннтоация этих генов шумная, и мы пока что не можем сказать точно: это реальные гены, или это проблемы аннтации. Поэтому сегодня я буду полностью концентрироваться только на классических протеино-кодирующих генах, которых восемнадцать тысяч восемьсот восемьдесят один. И, соответственно, наш вопрос: а когда эти гены произошли? Давайте мы пойдем на следующую картинку. Здесь все протеинокодирующие гены примерно разбиты на филогенетическом древе. У нас есть человек наверху, и есть разные обезьяны, шимпанзе, орангутан, макака-резус, здесь все приматы и так далее. Мышь, собака, корова, вплоть до лягушки и рыб, и, соответсвенно, мы видим на разных ветках филогенетического древа количество генов, которые уже произошли. Здесь двенадцать тысяч означают, что до момента расхождения рыб у нас уже было двенадцать тысяч общих генов. Двенадцать тысяч общих генов – это примерно 60% нашего генома, 60% всех протеинокодирующих генов. И обратите внимание на время: это 450 миллионов лет. То есть, это, грубо, полмиллиарда лет, и надо помнить, что возраст нашей планеты – 4,5 миллиарда лет. И, соответственно, жизнь на нашей планете появилась примерно три миллиарда лет назад.
То есть от момента три миллиарда лет назад до полумиллиарда лет назад почти что весь наш геном сформировался такой, как есть. Дальше 40% появилось более свежих генов. Причем чем ближе мы двигаемся к человеку, тем меньше количество новых генов. Например, человекоспецифичных генов, которые даже отсутствуют у шимпанзе, по данной работе – 389. Эти величины могут сильно меняться от разных подходов, некоторые ученые скажут, что есть лишь несколько десятков человекоспецифичных генов, это предмет спора, предмет разных алгоритмов. Но общая тенденция, что большинство генов произошло давным-давно, больше, чем полмиллиарда лет назад, она будет сохраняться с любой классификацией. Хорошо, стало быть, большая часть нашего генома образовалась примерно до полумиллиарда лет назад, между тремя и половиной миллиарда лет назад. То есть, достаточно древняя.
И теперь мы попробуем в остатке лекции найти различия в поведении, в эволюции, в генетике более молодых и более древних генов. Первый маленький кусочек был очень короткий, я думаю, можно без вопросов пойти на второй. Второй вопрос: почему вообще появляются новые гены? Почему мы не имеем один замороженный, зафиксированный геном, и счастливо живем с этим геномом? Нет, постоянно появляются новые гены. И как, соотвественно, если ген появился, у него есть первый вариант: через какое-то время исчезнуть или зафиксироваться в геноме, стать более нужным, более важным, и через много-много лет стать старым геном. Хорошо, давайте начнем с первого вопроса. Итак, дилемма следующая: новые гены появляются потому, что они кому-то нужны? Положим, если у нас есть человекоспецифичные гены, может быть, они нам помогают думать лучше, или рисовать, или музыку придумывать хорошую? Или они появляются, потому что они не мешают работе оставшихся всех генов? То есть они полезные или они просто не вредные? Это принципиальное различие, и на него ответа нет. Значит, на него ответа нет, потому что когда ген только-только появился, конечно, важно, чтобы этот ген не был вреден на первом этапе. Чтобы этот ген, новый ген, смог размножиться в человеческой популяции, зафиксироваться. И потом у него, возможно, появляются новые функции, он накапливает новые функции потенциальные, и тогда он уже может быть полезен. Но в первом этапе, когда происходит образование нового гена, как правило, это происходит в результате нового дубликата уже существующего. Первая задача – это просто не убить хозяина. Если дупликация старого гена настолько вредна, то просто-напросто новый ген сведет в могилу своего хозяина. Поэтому как минимум происхождение нового гена не должно быть вредным. Это может быть чуть-чуть вредным, или нейтральным, и потом, если это не вредно, можно думать о том, что, может быть, это приносит какую-то пользу. Мы попробуем решить эту проблему от противного: мы можем дуплицировать весь геном, все гены в нашем геноме, и дальше посмотрим, какие гены будут сохранять свои дополнительные копии, а какие потеряют эти дополнительные копии. И, слава богу, такое произошло в эволюции, и происходило много раз, и это описал Сузумо Оно как полные геномные дупликации. Полные геномные дупликации случались несколько раз перед происхождением всех позвоночных, они много раз случались в эволюции дрожжей, и идея следующая: у нас есть один, вот первая под буквой А, один геном, предположим, одна хромосома, далее она дуплицируется. Просто идентичные две хромосомы у нас получаются. Теперь у нас появляется некая избыточность. Если раньше организм жил с одной такой хромосомой, зачем ему надо два красненьких гена, два синеньких и так далее. И на этапе С мы видим, что большинство экстракопий просто-напросто теряются. Они не нужны, это избыточные гены в геноме. Но некоторые остаются. Остались красненькие, остались светло-зеленые, просто зеленые. Далее может быть и следующий раунд дупликации генома: то, что мы видели на схеме С, мы дублируем дважды: один раз С, еще раз С, это второй раунд дупликации генома, и опять же за ним идет потеря многих-многих генов. Но в некоторых случаях здесь и здесь гены почему-то не теряются. И это самое интересное, эти гены мы будем называть «онологи» в честь Сузумо Оно: полную геномную дупликацию геномов. И «онологи» означают древние дуплицирующиеся гены. Наукообразно надо говорить «древние паралоги», но давайте не будем путаться с новыми терминами. Это древние копии генов, которые появились в результате полной геномной дупликации. В подавляющем количестве генов экстра-копии просто-напросто исчезли из эволюции, как мы видим здесь, но иногда, как в этих двух примерах, у нас сохранились экстра-копии. И вопрос, чем отличаются онологи от тех остальных генов? Почему они не теряют своей дополнительной копии? И здесь я хочу привести аналогию с конвеером, например. То есть если у нас есть конвейер, который собирает машину, и в этом конвейере нам надо, чтобы у каждой машины было четыре колеса, один двигатель, допустим, четыре сидения, в этом случае у нас элементы этого конвейера связаны друг с другом, и основное объяснение, почему эти гены не теряют дополнительной копии, – это то, что эти гены, скорее всего, вовлечены в один метаболический путь, или они создают один большой сложный фермент, так что если мы этот конвейер умножаем на два, никаких проблем: у нас будет теперь восемь стульев, восемь сиденьев в машине, у нас будет два двигателя, у нас будет восемь колес, то есть мы будем делать две машины вместо одной. То есть все будет работать. Но если мы после того, как мы дуплицировали наш конвейер, начнем терять что-то (мы будем делать шесть колес вместо восьми; или один двигатель вместо двух), у нас получится система очень неэффективная, мы не сможем больше производить две машины, мы будем производить одну машину или, там, полторы машины, и это будет неэффективно, нерационально, и мы думаем, что в эволюции такие организмы просто-напросто исчезнут. То есть нулевая гипотеза: что онологи могут быть связаны друг с другом. В данном случае предположим, что серый и зеленый работают с одним и тем же субстратом, и продукт работы серенького передается другому, и наоборот. То есть они связаны одним конвейером. И они должны поддерживать один и тот же относительный уровень экспрессии.
Если в этой цепочке один из пяти или один из десяти вдруг уменьшит производительность своей работы, будет производить меньше, чем раньше, тогда вся цепочка станет неэффективной, и такой организм просто-напросто отберется из популяции, поскольку он будет производить слишком много двигателей, слишком много колес, но не будет большого количества машин. И чтобы понять это, прочувствовать более детально, давайте посмотрим три отдельные истории об онологах, и во всех почти что случаях эти истории свежие, почти что везде один из ключевых авторов, – это Айоф Маклиден из Ирландии, который двигает тему онологов. Итак, первое: если мы рассмотрим много геномов позвоночных животных, то мы обнаружим, что рядом с онологами у нас нет изменений в количестве копий генов. То есть, мы это будем называть «микроделеции» или «микродупликации», когда в нашем геноме вдруг какой-то регион копируется или удаляется. Здесь на схеме DBG – dosage balanced ortolog, то бишь, это онолог, ген, который dosage balanced, который чувствителен к концентрации своего продукта. Итак, что будет случаться с copy number variant, CNV? (Это когда один ген у нас представлен двумя или тремя, когда один и тот же соседний ген в нашем геноме может быть дуплицирован или, наоборот, удален). Идея следующая: если у нас есть онолог, и этот онолог попадает в микродилеции или в микродупликации, то, по определению, это будет вредно, поскольку мы не должны тревожить онологов, мы не должны менять количество копий онологов, поскольку это плохо, мы меняем эффективность нашего конвейера.
Хорошо, другая история более простая. Мы просто анализируем микродилеции и микроинсерции с онологом и без онолога. Это у нас гипотетический кусок ДНК, и эти линии обозначают дилецию, просто взяли и выкинули этот кусочек. Здесь мы выкинули этот онолог, здесь мы выкинули любой другой ген, который не онолог, который не чувствителен к концентрации своего продукта. И, соответственно, делая, сравнивая геномы людей с различными сложными болезнями, такими как шизофрения, аутизм или любые другие интеллектуальные расстройства, мы видим, что в этих случаях в геноме людей с данными расстройствами значимый избыток удаленных онологов. Если мы удаляем не онолог, это не увеличивает вероятность иметь шизофрению, аутизм или что-либо такое. Но если мы удаляем онолог вместе с нашей микродилецией, это значимо увеличит вероятность болезни. Окей, разумный вывод отсюда: вредность микродилеций и вредность микроинсерций определяется, на самом деле, просто-напросто присутствием или отсутствием онолога. А это означает вредность дилеции или инсерции определяется чувствительностью генов к своей концентрации, к дозе. Если внутренние гены чувствительные, значит, эта дилеция будет вредная, если гены не чувствительные, эта дилеция будет более-менее нейтральная, и она не будет ассоциирована с болезнями человека.
Окей, и последний пример из истории онологов, что они могут, по крайней мере, теоретически, объяснить некоторые особенности синдрома Дауна. Итак, синдром Дауна – это избыточная хромосома №21 в геноме человека. Должно быть две, а у нас случается трисомия: три копии хромосомы №21. И это большое и вредное событие, уровень экспрессии каждого гена, который находится в хромосоме №21, увеличивается в 50%, то есть тотальный уровень экспрессии будет 150% в сравнении с нормой 100%. И первый вопрос: почему только хромосома №21 приводит к достаточно частому синдрому под названием «синдром Дауна» у людей? Может быть, то же самое может происходить с хромосомой №1 или №2, или 10, или 13? На самом деле, такое происходит иногда с хромосомой 13, 16, 18, но человеческий плод с такими хромосомными аберациями, как правило, нежизнеспособен. А только в случае синдрома Дауна, по крайней мере, с 20% от всех плодов, плод синдрома Дауна может быть рожден и счастливо жить до шестидесяти-семидесяти лет. Соотвественно, первое объяснение, что, возможно, хромосома 21 чем-то отличается от всех других. Возможно, она меньше всех этих онологов. Просто так получилось случайно, что хромосома 21 обделена онологами. И да, из разумных выкладок математических авторы нашли, что среднее ожидание онологов на хромосому №21 у нас 56, а мы наблюдаем 40, и это разница значимая. Авторы исходили из общего количества генов на этой хромосоме и средней частотой онологов во всем геноме. И они нашли, что, окей, хромосома №21 у нас обделена онологами, то бишь, если мы ее дуплицируем, будет не так плохо, как если бы мы дуплицировали любую другую хромосому. Возможно, вот почему синдром Дауна – это наиболее частая трисомия у людей, совместимая с жизнью.
Хорошо, дальше. Дальше авторы более детально анализируют саму хромосому, это схема хромосомы №21, и внутри есть, называется Down Syndrome Critical Region, то есть, это кусочек хромосомы, который, как считают ученые, ответственен сильнее всего за все, за маленькие синдромы Дауна. То есть частенько случаются частичные трисомии. Допустим, половина, правая часть хромосомы триплецировалась, а левая часть хромосомы не триплецировалась, или наоборот. И собирая все такие случаи частичной трисомии, ученые проанализировали, что если этот регион триплецирован, тогда мы видим многие симптомы, позволяющие доктору сказать, что ребенок с синдромом Дауна. То есть если мы триплецируем весь этот участочек и весь этот, но не триплецируем серый регион, тогда, в принципе, мы ожидаем, что мы можем не увидеть никаких синдромов, похожих на синдром Дауна.
Соответственно этот регион внутри всей хромосомы, он, наоборот, излишне вреден. То есть вся хромосома у нас имеет дефицит онологов, а этот регион, критичный для синдрома Дауна, он, возможно, имеет, наоборот, избыток всех этих онологов. Ну и, действительно, красными линиями здесь обозначены онологи, и опять же, если авторы этой статьи делают анализ, они видят, что частота красных палочек в серой зоне по сравнению со всеми хромосомами (то бишь регион, который критичен для появления симптомов, ассоциированных для появления синдрома Дауна), этот регион имеет очень много генов онологов, генов, чувствительных к своей концентрации. И вот почему, возможно, если мы триплецируем именно этот регион, у нас появляется много фенотипических признаков, связанных с синдромом Дауна. То есть, много проявлений на организменном уровне. Как эти проявления работают, это другой вопрос, до сих пор не решенный. То есть, если у нас увеличивается экспрессия одного какого-то важного гена, то дальше у нас может вступить цепочка дальнейших событий, этот ген может регулировать уровень экспрессии еще десяти, и так далее, и так далее. Эти волны до конца не изучены, до сих пор нельзя сказать, почему люди с синдромом Дауна именно такие, до сих пор нельзя. То есть, все знают про трисомию, все знают про хромосому №21, но никто не скажет, почему вероятность порока сердца намного выше, или почему внешность их тоже достаточно похожа. То есть проследить метаболические пути, повышенный уровень экспрессии одного, или вот этих двадцати генов внутри этого региона влияют на весь наш геном, на уровне экспрессии всего нашего генома пока что не получается, не удается. Однако мораль такая, что онологи могут, по крайней мере, подсказать, почему хромосому №21 можно триплицировать, и при этом все еще остается ассоциированным с живорождением у людей. И почему именно этот регион, маленькая серая зона в правой части хромосомы 21, почему именно этот серый регион ответственен, в основном, за многие признаки синдрома Дауна.
Окей, думаю, после этих трех примеров мы будем иметь некую интуицию, что такое онологи, и почему количество их копий не надо менять. И теперь мы сделаем что-то типа саммари. Как стать старым геном? Как выжить после дупликации. Ну, первое очевидное: надо не убить хозяина моментально, то есть, не надо быть результатом локальной дупликации онолога. Если мы дуплицируем или удаляем онолога, это плохо. Соответственно, надо произойти от такого гена, который не очень важен. То есть, скажем так, в этой ситуации не получится прыгнуть из грязи в князи, нельзя произойти в результате очень старого, очень важного гена, который будет похож на онолога, и стать новым геном. Если мы дуплицируем важный старый ген, это значит, что у него очень важная консервативная функция. И эта дупликация приведет к каким-то серьезным последствиям. Поэтому, скорее всего, новые гены должны происходить от не очень важных, тоже более новых генов. И сделать всю свою карьеру, обзавестись новыми связями, стать более важным в геноме, новые генные взаимодействия постепенно в течение многих миллионов лет.
И теперь у нас следующий вопрос: допустим, наш ген произошел не от онолога, какого-то другого гена, он не ассоциирован с вредными эффектами, и он плавно интегрируется в наш геном. То есть, с каждым миллионом лет у него становится все больше взаимодействий с другими генами. Здесь мы можем полностью проводить аналогию с социальными сетями. Новый пользователь имеет несколько связей, несколько контактов социальной сети, и со временем он становится более важным и более коннектед с другими пользователями этой сети. И важность этого пользователя будет пропорциональна колчиеству связей. То есть, если у нас когда-то новый пользователь перестанет лазить в социальную сеть, никто это не заметит, кроме одного друга. Если у нас какой-то активный пользователь социальных сетей, у которых десять тысяч связей, скажет: «Стоп, я больше не буду лазить в социальную сеть, это заметит десять тысяч людей». То есть, для общей системы это будет важное и заметное изменение. То же самое с генами. Гены со временем становятся более и более важными, более богато связанные со всеми другими генами. И вопрос: это вообще будет происходить долго, увеличение важности каждого гена, или наступает какое-то насыщение, и дальше уже более важным стать нельзя. То есть, мы можем увеличить количество связей, ген станет старым, ген станет важным, и что дальше? И была очень хорошая работа, сделанная Адам Волкером три года назад. У нас есть четыре модели, у нас по оси X возраст гена (здесь мы молодые, здесь гены старые), а здесь сложность регуляции. Соответственно, первое: сложност регуляции может просто увеличиваться линейно всегда, от появления нового гена до бесконечности. Второе, что у нас накапливаются сложности, новые связи в сети взаимодействия ген: но далее это выходит на плато, и далее сложность и важность каждого гена не увеличивается. Но есть совсем странные случаи, когда это уменьшается, или ведет себя как S-образная кривая. Ну и другая модель: что просто сложность регуляции никак не зависит от возраста гена. Значит, когда Волкер проанализировал реальные биологические данные, он учитывал разные параметры, такие, как количество участков около этого гена, с которыми связываются другие гены, это дает меру связанности гена с другими генами. Насколько много изоформ разных вариантов, немножко разных вариантов этого гена. То есть, все признаки, которые являются не прямой метрикой сложности регуляции гена и важности этого гена. Волкер получил, что с возрастом этого гена, конечно, шумно, но более линейно увеличивается сложность регуляции. Причем здесь годы идут от нуля до полутора миллиарда лет. То есть, здесь взята выборка, отражающая половину времени существования жизни на Земле. Если жизнь появилась где-то три миллиарда лет назад, здесь у нас выборка покрывает половину. То есть, это хорошие данные. Соответственно, модель у нас линейная. И это означает, что даже самые старые, самые древние гены в нашем геноме точно также линейно постоянно обзаводятся новыми связями и становятся все более и более важными, что нет процесса насыщения, и мы еще в процессе той же эволюции, что и была, по крайней мере, полтора миллиарда лет назад, как показывают графики. То есть, мы не достигли какого-то локального оптимума, и все гены, пусть даже они нам кажутся дико важными и дико консервативными, они продолжают накапливать все более и более сложную регуляцию.
Хорошо. Это то же самое, что я сказал: что даже самые старые гены нашего генома продолжают накапливать связи и усложнять свою регуляцию. Я думаю, здесь мы можем сделать маленькую запятую.
Борис Долгин:
– Можно. Сейчас закончилась первая часть, и можно давать сигнал, что вы хотите задать вопросы. Я начну, может быть, со своего вопроса. Вот можно вернуться к картинке с этими самыми онологами. Мы видим, что те самые гены, которые были названы онологами, они все-таки вполне сохраняются при удвоении, даже можно сказать, учетверении. Какой же смысл тогда говорить о том, что они наиболее чувствительны к этому. Хорошо ли тогда это определение для обозначения именно их, а не, скажем, тех, которые хотя бы утраиваются, но не учетверяются; или удваиваться удваиваются, но не утраиваются и не учетверяются. Потому что тут довольно интересная картинка.
Константин Попадьин: Это не моя картинка. Я бы нарисовал десять таких примеров, чтобы сказать, что они связаны. Идея именно в том, чтобы вот этот ген и этот ген – две составляющие одного и того же конвейера. То есть, если они удвоились вдвоем – это хорошо.
Борис Долгин: – А это доказано или это входит в определение? Точнее, в определении я помню, что это звучало, но вообще-то из картинки это совсем не следует.
Константин Попадьин: Из картинки это не видно, да. В определение это не входит, но онологи – это просто древние дупликации генов, которые не потерялись. А дальше из биологических анализов мы понимаем, что, как правило, они – куски одного конвейера, или часть одного полиферментного комплекса.
Борис Долгин: То есть связанность – это результат анализа?
Константин Попадьин: Да.
Борис Долгин: Того, какими они в итоге оказываются.
Константин Попадьин: Они всегда должны синхронно соблюдать свою копийность, не быть ассиметричными в количестве копий.
Борис Долгин: Что входит в определение? В определение входит копируемость или связанность, или и то, и другое? Тогда это два должно быть множества, которые пересекаются. Или они совпадают? Или что?
Константин Попадьин: Просто в определение входит только то, что дуплицирующие гены не исчезают, только копируемость.
Борис Долгин: чувствительность…
Константин Попадьин: Чувствительность – это результат анализа.
Борис Долгин: Чувствительность воспринимается как результат связанности.
Константин Попадьин: Да.
Борис Долгин: Все, понятно. Руки, кому еще микрофон?
Слушатель: Спасибо большое. Извините, вот я не понял логики: чтобы ген сохранился, он, видимо, должен какую-то поддерживать важную функцию, которая будет отбираться естественным отбором?
Борис Долгин: Кто это сказал? Это вопрос, или это гипотеза, или это что?
Слушатель: Это вопрос. А по-вашему, получается наоборот: он должен не копировать важные какие-то гены, быть второстепенным, и лишь второстепенно нарастить свои функции.
Константин Попадьин: Да. Вот то, что я назвал пессимистичный и оптимистичный сценарии, то есть, нам кажется, что да, ген должен оставаться и сохраняться в результате отбора, если он важен. А на самом деле нет. Ген может остаться и жить в геноме, если просто он не делает ничего плохого. Тут эволюция может быть разной у разных организмов. Например, в случае человека нету сильных тенденций, нету сильного отбора, который минимизирует геном. Наш геном большой, в нем много псевдогенов, много частей, про которые мы не знаем, что это такое, и только маленький кусочек генома функциональный. Ну, этот кусочек увеличивается, люди думают, что там есть какие-то функции, но все-таки. Например, в случае бактерий или дрожжей ситуация другая, геном достаточно компактный. И в этом случае ваше определение будет ближе. Если мы говорим про бактерии, например, я думаю, вы правы. Я думаю, что если мы увидим в бактерии ген, значит, он что-то делает важное. Но в случае млекопитающих отбор такой слабый на уменьшение генома, что позволительно накапливать много совершенно ненужных мутаций нейтральных. Главное, чтобы она была не невредная: нейтральная – хорошо. Если она нейтральная, это может остаться в геноме, зафиксироваться. Это, в общем-то, просто, я повторяю, гипотеза нейтральной молекулярной эволюции, что мы, в основном, видим различие между нами и шимпанзе, и 99% этих различий нейтральные, в них нет никакого смысла. В 1% есть какой-то смысл, которые ученые пытаются понять, и иногда не понимают, иногда понимают. То есть в своей основе эволюция нейтральна. Все, что мы видим – это результат случайных процессов.
Борис Долгин: Дальше.
Слушатель: Тогда получается, что геном как начальство: хороший начальник, который не мешает.
Константин Попадьин: Да, согласен.
Слушатель: А что у нас тогда с программной функцией генома? Мы как-то привыкли к современным учениям генетики, что геном – это программа?
Константин Попадьин: Если программа не ломается, все хорошо. Все то же самое с начальником: если начальник не мешает, то система работает. То есть пока программа работает, все хорошо.
Борис Долгин: Еще.
Слушатель: Подскажите, а почему вообще происходит дупликация генома, и как часто это вообще происходит?
Константин Попадьин: Это происходит нечасто. Это вопрос темпа мутирования, то есть все такие события более-менее уникальные, и в случае позвоночных это случалось пару раз (то, что описано); у дрожжей это встречалось чаще. Это мутация, то есть это поломка. То есть, у одного организма происходит нерасхождение хромосом, например, и у нас получается потомок с увеличенным количеством копий хромосом. То есть, как и все мутации в эволюции, когда это происходит, ни эволюция, никто не знает, это хорошо, это плохо, это просто случайное событие опять же. И это происходит достаточно редко. Опять же, понимаете, большой вопрос: сколько этого произошло в нашей эволюции. Да, несколько раз. В случае нашего генома мы можем видеть онологов, которые произошли во время дивергенции рыб. Возможно, это происходило очень-очень много раз, и организм с дуплицированым геномом просто погибал. В каких-то случайных случаях, когда он не погибал, это подхватывалось отбором, и его потомки могли выживать.
Слушатель: Не рассматриваете, что вирусы вставляют свой геном? То есть развитие именно таким образом происходит?
Константин Попадьин:
Полная геномная дупликация – это уникальный случай для генов, которые связаны в одном метаболическом процессе, уникальная возможность увеличить уровень экспрессии сразу всех так, чтобы никто ничего не почувствовал, чтобы программа работала. А локальная дупликация, когда мы увеличиваем что-то, а все остальное остается на базовом уровне, как я говорил, мы производим в два раза больше двигателей, а все равно машин остается столько же, поскольку мы ограничены маленьким количеством колес, скажем так.
Да, вирус добавляет что-то маленькое. 90% случаев – это дупликация.
Борис Долгин: Так, еще есть вопросы, или мы переходим к следующей части?
Слушатель: Вот скажите, пожалуйста, у вас было такое: как стать старым геном. Я просто не очень поняла, почему должны быть старые гены снова, если бывают старые, и новые образуются потом?
Константин Попадьин:
Возможно, это была некрасивая фраза моя. То есть как новому гену не вымереть моментально?
Борис Долгин: Видимо, для человека вопрос звучал: «Как вам дожить до старости?»
Слушатель: Да, просто я не поняла, потому что же сначала бывают старые гены, потом они превращаются в новые, а зачем новому гену становится старым?
Константин Попадьин: Если новый ген живет долго, он становится старым в перспективе, ну, то есть, если ген сегодня сдуплицируется, то через миллион лет мы его будем называть старым. Он будет в популяции представлен, и после него произойдет много-много других новых, мы их будем называть новыми, а этот ген будет уже старым. То есть, как новому гену не вымереть? Остаться в геноме, жить, обзаводиться новыми связями?
Слушатель: А еще один вопрос: вы вот сказали вначале, что двадцать тысяч генов у нас. А вы еще упомянули про какие-то шестьдесят тысяч, это что?
Константин Попадьин: Шестьдесят тысяч – это общее количество генов в нашем геноме. Среди них двадцать тысяч генов, которые производят белки, а остальные гены, которые производят только РНК. То есть в норме у нас есть ДНК – то, в чем мы кодируем информацию, далее у нас РНК, и далее мы из РНК делаем белок. Так вот, в сорока тысячах случаев у нас не идет дальше до белка, у нас останавливается продукт гена на уровне РНК. То есть функция этого гена, какой-то кусочек одноцепочечной РНК, как правило, молекула, которая может садиться на ДНК, котоаря может регулировать разные гены. То есть, они, как правило, связаны в том, что они добавляют сложные уровни регуляции, они не производят никаких белков сами по себе, но они регулируют взаимодействие белков, регулируют уровни экспрессии. И цифра эта, сорок тысяч, ну, многие думают, что это преувеличено, поскольку, чтобы выделить ген, достаточно каких-то компьютерных обработок генома, и сказать, что этот кусочек выглядит как ген, этот кусочек ДНК очень консервативный, и мы добавляем туда еще некоторые анализы.
Слушатель: То есть, я правильно поняла, что сорок тысяч – это ДНК?
Константин Попадьин: Да, эти гены содержатся в ДНК, но финальный продукт этих генов – это РНК, они не доходят до белков, они не делают белка в конце. То есть функция этих генов, которые кодируются в ДНК, как все гены в нашем организме, это производство РНК.
Слушатель: А РНК сколько там? Вы говорили пятнадцать тысяч плюс пятнадцать, больше шестидесяти получается. Сорок плюс…
Константин Попадьин: Нет-нет, я думаю, там должна быть правильная математика, это серьезные ребята.
Слушатель: Может, я неправильно записала, вы сказали: «Пятнадцать тысяч РНК кодирующие, пятнадцать тысяч некодирующие». То есть уже тридцать.
Константин Попадьин: Они все кодирующие, но кодируют в одном случае белки, в другом случае РНК. То есть это гены, у которых есть свой финальный продукт. Этот финальный продукт – либо белки, двадцать тысяч, классические гены, и это число не меняется, немножко колеблется, но не меняется от года в год. И у нас есть вот эти вот гены РНК, RNA, пятнадцать тысяч с чем-то, около десяти тысяч, много псевдогенов (это гены, которые сейчас не производят ничего, это старые). Окей, РНК сейчас двадцать пять тысяч, скажем так; генов, по которым производится РНК, двадцать пять тысяч.
Борис Долгин: Все, кажется. Продолжаем.
Константин Попадьин: Спасибо. Двигаемся дальше. И теперь у нас короткая, но интересная тема: возраст генов и возраст организма с детства до старости. Эта работа была опубликована четыре года назад, и здесь мы анализируем дрозофилу. Но в случае человека мы ожидаем что-то похожее, просто дрозофила – модельный организм, и с ней намного проще делать сложную науку. Значит, авторы, Томислав Домазетлозер решил, что мало того, что мы считаем возраст каждого гена, можно сделать еще круче, можно посмотреть все гены, которые экспрессируются в первый час после того, как яйцо дрозофилы было оплодотворено. То есть мы делаем такой двойной срез. Мы считаем: предположим, три тысячи генов экспрессируется в только что оплодотворенном яйце дрозофилы. И мы знаем возраст каждого гена из нашего филогенетического анализа, и мы считаем среднее. Мы просто считаем, и это они называют возраст-транскриптом. Транскриптом, суммарное количество всех генов, работающих, экспрессирующих в данный момент эмбриогенеза. И вот они сделали этот анализ, они изучили неоплодотворенное яйцо, яйцо – один час после оплодотворения, два часа, три, четыре, пять, шесть, семь, восемь, девять и так далее. В какой-то момент они называют это эмбрионом уже, потом личинка, куколка, и взрослая муха, дрозофила. И, соответственно, на каждый временной срез у них есть список работающих генов. Для каждого гена у нас есть возраст, и мы просто считаем средний возраст работающих генов. Но общая идея, что эта линия увеличивается.
Более того, теперь обратим внимание вот на эту картинку: здесь чем ниже, тем старее гены. Например, черный соотвествует всем генам, которые произошли во время происхождения клеточных организмов, и так далее, и так далее. И вот желтый наверху цвет соответствует генам, появившимся после появления диптейр, после появления мух. То есть, фактически, самые-самые молодые с точки зрения дрозофилы.
Мы не видим, например, такой же тренд среди, скажем, красных генов. Они более-менее молодые посерединке, но они экспрессируются стабильно в течение онтогенеза, в течение жизни. Старые гены важные, только им можно доверить серьезную работу. А молодые гены, в общем-то, сами не знают, что им делать, и поэтому они могут себя экспрессировать тогда, когда все важное уже сделано. Полушутя можно сказать, что с дальнейшими этапами могут справляться и молодые гены. Но молодые гены не могут делать никакой работы во время реально важных стадий онтогенеза. И объяснений два: либо это просто эволюция, что молодые гены, действительно, слабовредные, им не доверяют хорошей работы. Либо то, что просто-напросто молодые гены не могут встроиться вот в эту глубокую и сложную сеть старых генов. То есть здесь у нас уже старые пользователи фейсбука, они не пускают новчиков, у них уже сложенная система взаимодействий. И они делают это хорошо, они общаются, делают что-то, и новичкам там нет места, они не могут встроиться в эту систему. Возможно, мое второе объяснение правильное. Новым генам очень сложно встроиться в уже существующую стабильную сеть взаимодействий между старыми генами.
Хорошо, интересно, что здесь мы можем видеть немножко разное поведение самцов и самок, когда они уже старые, красная пунктирная линия – это самки, и синяя пунктирная линия – это самцы. Часто мы видим такое: что самцы работают и функционируют за счет кое-как собранных генов. То есть, очень молодых. Ну а самки более стабильные и важные. Это очень-очень, конечно, такой общий комментарий.
Хорошо, давайте пойдем дальше. Значит, мы обсудили то, что молодые гены и в онтогенезе могут работать только на не очень важных этапах онтогенеза, а старые гены работают во время принципиальных ключевых этапах эмбриогенеза. До этого мы обсудили, что старые гены, такие, как онологи, не могут подвергаться локальным изменениям копийности, дубликации или дилеции. И теперь мы быстро обсудим, а как вообще возраст генов нам может помогать понимать причину в случае некоторых болезней человека. Мы уже коснулись синдрома Дауна, но там знание возраста генов нам не помогало, это просто нам дало возможность спекулировать, что онологи могут объяснить синдром Дауна. А теперь мы можем найти примеры, когда, зная возраст гена, можно что-то сказать о том, может этот ген может приводить к той или иной болезни или нет.
Первое: возраст генов может нам помочь выявлять новые раковые гены, что очень хорошо. Значит, здесь в этой статье все тот же Томислав взял несколько баз данных, и в каждой базе данных было какое-то количество генов, шестьсот сорок семь, три тысячи, это список генов, которые вроде бы как вовлечены в развитие рака.
Это шумные списки, и непонятно, на 90% они правильные, на 100% или на 50%, но он, не мучаясь, поступил как настоящий биоинформатик, он взял все, и сделал все тот же анализ, который мы обсуждали уже много раз. Значит, он посмотрел гены, которые произошли давным-давно, в момент образования первого клеточного организма. Он сделал для всех разных временных возрастных категорий генов, вплоть до девятнадцати, это у нас будут приматоспецифичные гены. А эти гены, которым близко к двум миллиардам лет, то есть, здесь у нас очень длинная шкала, очень большая шкала. И мы видим, что ноль – это наше теоретическое ожидание. И мы видим, что у нас есть два пика, в первом самые-самые древние гены, которые ассоциированы с базовыми клеточными функциями. И еще вот здесь, это момент происхождения многоклеточности. Здесь мы видим избыток генов, вовлеченных в образование рака. То есть, это, в общем-то, ожидаемо, поскольку рак – это взаимодействие между клетками, и, соотвественно, если гены у нас появились в момент появления многоклеточности, то поломка этих генов может привести к тому, что гены перестают общаться правильно, и у нас появляется раковая опухоль. То естьздесь возраст гена нам может реально помочь: этот ген может приводить к раку или не может приводить к раку. Еще они отметили интересную вещь, что в течение развития рака часто наблюдается такая ситуация, что сначала у нас мутируют гены из первой категории, а потом следующая волна событий кансерогенеза в одном и том же раке. Вот популяция: как часть изначального рака у нас появляются смутированные гены из другой категории, отсюда опять же немного напоминая и повторяя процесс.
Окей, основная идея очень простая: используя возраст гена, мы теперь чуть-чуть можем сказать, этот ген может быть раковым или нет. Опять же, недостоверно, но это дает нам все-таки дополнительную информацию.
Хорошо, теперь мы разберем другой пример, который касается вообще всех болезней человека. Это классическая картинка, сложная, но мы не будем ее разбирать в деталях. Значит, у нас есть сила каждой мутации. Либо она слабая, либо она очень сильная. А здесь частота: как часто мы видим это в популяции человека. И очень логично: если мутация сильная, с очень сильными мутирующими болезнями, она приводит к какому-то синдрому, к какой-то болезни, когда мутация будет отбираться отбором, и она никогда не будет в популяции части, она будет редкой. Все болезни, которые мы здесь видим, вредные, каждая такая мутация вредная, но такая мутация не может достигнуть большой чистоты в человеческой популяции, поскольку она отбирается.
Далее, как только мы уменьшаем вредность мутации, допустим, мы уменьшили ее до очень-очень маленькой, то, что здесь называется один и один. Тогда у нас отбор не может настолько эффективно удалять мутации с маленькой вредностью, просто отбор не видит этого. И тогда у нас эти мутации накапливаются в большой частоте популяции, и они могут вызывать большое количество так называемых common deceases, частых болезней, такие, как многие болезни, связанные с работой головного мозга, шизофрения, аутизм, интеллектуальные проблемы. То есть множество сложных болезней. И тогда мы думаем, что многие частые обычные болезни человечества определяются большим количеством мелких слабовредных мутаций. Тогда как менделирующие болезни, как правило, объединяются одной очень вредной мутацией. И, соответственно, у нас есть полный переход, непрерывный градиент между вредными редкими и частыми слабовредными. И теперь, немножко научившись и поняв, как у нас работает возраст гена, и это правда, мы можем предсказать, что здесь мы имеем, в основном, старые гены. То есть в одной менделирующей мутации, одной мутацией можно поломать, нарушить структуру старого гена, старого важного гена, и тогда это будет у нас очень вредная мутация, редкая в популяции. И, соответственно, наоборот, молодые гены менее ограничены отбором, имеющие большее количество степеней свободы накапливать разные мутации. И, соответственно, они накапливают много слабовредных мутаций, и, соответственно, многие частые болезни, такие как шизофрения, аутизм и так далее, могут объясняться мутациями, накопленными в более молодых генах. Тогда как мутации в старых генах, как правило, вредные редкие мутации, которые наследуются по правилам Менделя, и вызывают менделирующие болезни. Соответственно, это тоже предсказательная сила. Если мы имеем какие-то гены-кандидаты, которые могут быть ассоциированы с шизофренией, или с аутизмом, или с более серьезными патологиями, тогда мы можем посмотреть на возраст генов, и это нам поможет сказать, более вероятно или менее вероятно данный ген может вызывать, допустим, шизофрению или менделирующие болезни. Например, в случае рака, если мы скрестим предыдущую картинку с этой картинкой, то в случае рака все гены, которые вовлечены в рак, – старые. Они многоклеточные, или совсем первый уровень генов, которые важны для базальных клеточных функций.
Хорошо, далее я перехожу к последней длинной части. Потом будет еще одна очень короткая. И в этой части я представлю частично мой собственный анализ. То есть до сих пор было введение. А сейчас я расскажу коротко о своей работе.
Слушатель: У меня, может быть, не совсем вопрос: вы показывали слайд, где про мух-дрозофил исследование было, мне кажется, что это очень важный вопрос, и, наверное, многие захотят разобраться в этом, вот расскажите еще раз про первые три часа, может быть, более чуть популярно, более подробно. Как вот эту экспрессию генов они нашли, обнаружили, что они измеряли, собственно, как? И, можно еще продолжу свой вопрос, поясню: то есть, правильно ли я понимаю, что вы сравнивали с фейсбуком, а я сравню с операционной системой или еще с чем-нибудь. То есть есть некий загрузчик, потом идет операционная система, потом идет Firefox, а в нем уже Facebook. Так вот, Facebook – это самые молодые гены, загрузчик – это самые старые гены.
Константин Попадьин: Полностью согласен с этой аналогией, хорошая аналогия. То есть, ядро операционной системы, загрузчик – у нас будут старые гены. Как они это делали? Я думаю, они это делали примерно следующим образом: они брали инбретную линию мух, то есть, много идентичных дрозофил, и брали много неоплодотворенных, растирали их в стопки, и изучали все РНК, которые там были. Изучали все РНК, и дальше, если они видят, что данные РНК принадлежат гену с именем «А», «B», «C», «D» и так далее, они говорят: этот ген экспрессируется в этот момент, и давайте возраст этого гена вставлять в суммарную калькуляцию транскриптома для этого пункта.
Слушатель: Все понятно, то есть, они продукты изучали вот этого гена. Какие продукты представлены наиболее сильно вот в этом гене.
Константин Попадьин: Даже, может быть, не наиболее сильно, я думаю, что разумный подход такой, что если они делают десять параллельных линий, десять идентичных линий дрозофил, то они говорят (это частный подход), они могут требовать, пусть во всех десяти линиях у нас будет не нулевой уровень экспрессии гена А. Тогда мы будем считать, что ген А экспрессируется в яйце, и мы будем считать его возраст. Потому что даже если ген экспрессируется с небольшим уровнем, он может быть важным. Поэтому тот факт, что он экспрессируется во всех десяти линиях, – ценный, то есть на эту информацию смотрят.
Слушатель: То есть получается, что молодые гены спят в этот момент.
Константин Попадьин: Да, да, молодые гены не работают, они не экспрессируются. Но надо понимать, что это вреднее, то есть какие-то молодые гены работают, и мы видим эту линию, это среднее.
Слушатель: Правильно ли понимаю: в этой картинке, вот самый крайний как раз кусочек, который вы описали, что здесь показано, что эволюция, в основном, работает на мужской части, а на женской отдыхает. И кто авторы вот этого, собственно, интересно? Вот этого положения, что, вот видите, график у вас там сверху идет «экспрессия молодых генов», именно молодых, по которым будет дальнейший отбор, идет именно на мужской части, а стандартный классический ген экспрессии на женской. То есть, получается, отбор будет именно на мужской части.
Константин Попадьин: Мы сейчас уже видим результаты, реальные данные, что самцы молодых мух экспрессируют много молодых генов, в отличие от самок. Да, это нам может подсказывать, что многие гены, допустим, вовлеченные в спермогенез, молодые. А у самок важные гены, они могут быть более старые. Еще это может означать то, что вы сказали: что женская линия более консервативна, и более, я боюсь всяких слов, язык мой –враг мой, более качественная. Я могу рассказать, что я думаю по этому поводу. Ситуация такая: в большинстве конечных видов самки имеют более стабильную численность популяции. То есть если мы сравниваем самок, давайте говорить о дрозофилах, в среднем, самка будет, иметь предположим, сто детей. У самца же, поскольку он вкладывает в потомство только сперматозоиды, может быть огромная флуктуация: это может быть 0, это могут быть большие тысячи. То есть по популяционно-генетическим параметрам у нас самки дрозофил всегда имеют сто детишек, стабильная численность. А у самцов огромная флуктуация. В итоге с точки зрения эволюции у самок у нас будет самая эффективная численность сто, а у самцов, допустим, пятьдесят, то есть меньше в два раза. А эффективная численность напрямую связана с отбором: чем меньше численность популяции, тем сильнее там генетический дрейф, тем сильнее там стохастические процессы. Как подкидывание монетки: если у нас десять самцов, то они за пять поколений могут накопить просто случайным образом вредную мутацию.
Митохондриальные мутации у человека всегда передаются через материнскую линию (опять же, это спекуляции, но было пара публикаций), они более вредны мужчинам, чем женщинам. То есть, поскольку у нас митохондриальный геном наследуется только через материнскую линию, мутация, которая в митохондрии, будет более эффективно отбираться, будет иллюминироваться отбором. Но если эта мутация ухудшает приспособленность самца, то, в общем-то, никаких проблем, такая мутация сможет зафиксироваться. То есть, получается, у нас есть несколько механизмов, пониженная эффективная численность самцов из-за того, что у них флуктуация репродуктивного успеха. Это приводит к тому, что у самцов сильная стохастика, сильная случайность в фиксации вредных мутаций. Стохастика – значит когда-то одна, вторая, третья, сотая мутация будет зафиксирована в геноме, и эти мутации будут понижать только приспособленность самцов и самок. Дополнительная история с митохондрией, митохондрия матерински наследуемая, но она важна всем, и самцам, и самкам. И это тоже будет приводить примерно к такой картине, она будет ухудшать приспособленность самцов, но не самок, поскольку отбор лучше работает в самках.
Константин Попадьин: Итак, сейчас начинаются сложные вещи, потому что сейчас я попробую опуститься до более-менее методики, до смысла эксперимента, популярными словами, но все-таки мы пойдем глубже, чем раньше. Раньше мы прыгали по верхам и не обсуждали детали. Итак, начну с самого начала: мы взяли и проанализировали женевскую коллекцию клеток из пуповин новорожденных неродственных людей. Соотвественно, пуповина… У нас есть 204 неродственных мамы, у которых мы взяли пробу трех видов клеток: фибропласты, лимфоциты, т-клетки. И далее, соответственно, у нас есть 204 умножить на три линии клеток. И далее мы изучаем эффективность работы каждого гена. Померили все ту же РНК, как интенсивно работает каждый ген в данной клетке, в данной пуповине. И дальше мы попытались найти генетические варианты, которые связаны с разным уровнем экспрессии. Это важно очень. Значит, здесь нарисована такая стрелочка черная, это обозначает экспрессию гена. Значит, ген экспрессируется. Вот это черная стрелочка. А рядом с этим геном есть генетический вариант, у кого-то у людей это А, у кого-то Г. Соотвественно, поскольку мы теплоидные, у кого-то АА, у кого-то ГГ, а кто-то гетерозигота АГ. И, соотвественно, поскольку у нас есть целых 204 образца, мы имеем много проб пуповины, у которых АА, у которых АГ, и ГГ. И дальше мы смотрим: если мы видим картину, что-то типа такого: уровень экспрессии этого гена ближайшего. Маленький, если у нас есть АА; чуть повыше, если у нас есть случай АГ, и совсем большой, если у нас случай ГГ. Мы говорим: вот этот вариант АГ, вот этот полиморфизм, который гуляет в человеческой популяции, и если мы сейчас поделим зал на три части, АА, АГ и ГГ, и дальше мы изучим уровень экспрессии гена, то мы увидим то же самое. То есть, есть какой-то вариант полиморфный, это значит, что у человека он до сих пор не фиксировался (фиксировался – это случай, когда есть только АА или только ГГ). У нас есть промежуточный вариант, допустим, 30% одного, 30% другого, и посередине гетерозиготы. И, соотвественно, мы эти варианты называем генетический вариант, связанный с уровнем экспрессии. Как это может работать? Ну, предположим, что этот вариант может быть важен, потому что сюда, на это место, на этот кусок ДНК садится какой-то важный белок, транскрипторный фактор. И если это Г, транскрипторному фактору нравится Г, и он дает команду высокого уровня экспрессии этого белка. Если это А, транскрипторному фактору не нравится буква А, и он не экспрессирует данный ген с большой интенсивностью. То есть примерно так все и работает. Данный полиморфизм как-то влияет на вероятность присоединится к данному участку ДНК белков-регуляторов, и, соотвественно, таким образом, увеличивая или уменьшая affinity, сродство данного участка ДНК, скажем так, это можно воспринять как паззл. То есть у нас есть какая-то форма регуляторного участка и есть у нас, соотвественно, транскрипторный фактор, который должен подойти к этому. И, соответственно, если у нас какая-то буква АГ у нас меняется, у нас лучше или хуже сродство. Хорошее сродство белка, транскрипционного фактора, который регулирует это взаимодействие. Тогда у нас появляется, мы видим высокий уровень экспрессии белка, то бишь, ось Y здесь говорит уровень экспрессии. Чем выше, тем больше продуктов данного гена. Окей, то есть, значит, мы выделяем полиморфизмы в людях, которые объясняют уровень экспрессии, которые объясняют изменчивость в уровне экспрессии. Почему у некоторых мы видим низкий уровень экспрессии данного гена, а у некоторых высокую? Будем их называть генетические варианты, связанные с интенсивностью работы генов.
Хорошо, давайте пойдем дальше. Далее мы делаем все то же самое, о чем мы говорили много раз уже. У нас есть дерево, филогенетическое дерево всех тетропод, и мы для каждого гена знаем, этот ген уже был перед дивергенцией тетропод, или это человеко-специфичный ген. И для все трех видов клеточек из нашей коллекции мы считаем, сколько генов вообще экспрессировано. Например, вот я вижу: здесь 23 гена из категории человекоспецифичных в данных Т-клетках экспрессируются. Хорошо, то есть, они экспрессируются у всех двухсот образцов в нашей коллекции. А дальше мы говорим: а из этих двадцати трех генов сколько генов имеют такой генетический вариант? То есть, близко к началу гена у нас есть какой-то ДНК-овый полеоморфизм АГДЦ, и этот полиморфизм влияет, связан с уровнем экспрессии гена?. И в данном случае мы видим, например, восемь генов из 23-х, у которых мы наблюдаем регуляторный вариант. А у оставшихся мы не видим никаких регуляторных вариантов. Мы подбираем первый нуклеотид, второй, третий, но никогда мы не видим хорошую статистическую зависимость между нуклеотидами и уровнем экспрессии. То есть и дальше мы рисуем долю генов, у которых есть регуляторный вариант. И дальше мы смотрим, что как только наши гены стареют, мы идем налево, мы видим, что меньшая доля генов имеет вот такой регуляторный вариант. И то же самое примерно мы видим на лимфоцитах, то же самое на фибробластах, и общая идея такая, что молодые гены, их уровень экспрессии часто зависит от регуляторных мутаций. То есть рядом с молодыми генами есть какой-то полиморфизм ДНКовый, который мигает в популяции человека, и который очень хорошо связан с уровнем экспрессии данного гена. Прекрасно, основная мысль здесь, что молодые гены имеют много регуляторных вариантов, которые влияют на уровень экспрессии в генах. Посмотрим следующее: регуляторный вариант может быть разной степени силы. Предположим, что регуляторный вариант АА, АГ и ГГ вот так вот сильно меняют уровень экспрессии гена, а иногда вот так слабо. Какой-то наклон, допустим, здесь есть, но почти что нулевой. И еще из всех предыдущих статей, которые я вам не рассказывал, мы знаем, что сильные регуляторные варианты, они любят сидеть около начала гена. То есть вот эта стрелочка черная – это начало гена, и если у нас есть полиморфизм ДНК, который просто близко, физически близко к началу гена, это увеличит вероятность, что он важный. Это увеличит вероятность, что он как-то будет влиять на взаимодействие между транскрипционным фактором, который должен регулировать уровень экспрессии. А если у нас этот ДНКовый вариант сидит далеко, например, здесь, тогда, скорее всего, он будет слабый. И теперь первый наш шаг: мы увидели, что молодые гены часто имеют много регуляторных вариантов. А теперь мы хотим сказать: а как насчет силы этих регуляторных вариантов? Если молодые гены у нас толерантны к уровню экспрессии, то есть им более-менее все равно, какая у них экспрессия, тогда у них не только будет больше таких регуляторных вариантов, они еще и будут сильнее. И это независимая информация, интересная, давайте посмотрим. Значит, мы видим три цвета: фибропласты, лимфоциты и Т-клетки. Ось Y – это и есть та сила, которую я вам объяснял. Наверху самые сильные ДНКовые варианты, которые так сильно влияют на уровень экспрессии. А внизу слабенькие, они как-то влияют, но на глаз здесь даже и непонятно, как будто бы у нас прямая линия. И, соответственно, мы видим ноль, это начало гена. Что мы видим? Мы везде видим такие вулканчики, что около нуля у нас много точек, потому что многие регуляторные варианты любят сидеть… они сильно влияют на экспрессию гена, если они рядом с началом гена. Но дальше мы смотрим, что точки бывают разной интенсивности, я не знаю, видно ли вам. Есть совсем размытый цвет, есть промежуточный, и есть яркий. Соотвественно, размытые у нас будут старые, а самые яркие – молодые. Посерединке будет средний возраст генов. И мы видим, что если мы концентрируемся на самых ярких точках во всех тканях, то они стремятся быть совсем близко к началу гена, и еще они стремятся быть высоко. То есть молодые гены преимущественно имеют сильные регуляторные варианты, которые близко к верхней части этих рисунков. И они менее разбросаны, чем все остальные точки, они стремятся быть вокруг нуля везде. Конечно, данные шумные, потому что это биология (в биологии всегда все шумно). Но статистически делая разумные анализы, мы говорим: да, мы видим статистическую значимость, статистически значимую картину, что молодые гены имеют регуляторные варианты, которые, во-первых, сильные, а, во-вторых, сидят около начала гена. Молодые гены подвержены действию более сильных регуляторных вариантов. И это то, что мы ожидали.
То есть, первое: мы видим, что у молодых генов больше регуляторных вариантов, больше частота случаев, когда молодой ген связан с каким-то ДНКовым полиморфизмом, влияющим на уровень экспрессии. Но не только частота, еще и сила этого варианта меняется, и у молодых генов мы видим регуляторные варианты, которые очень сильно влияют на уровень экспрессии гена. Ну и параллельно они сидят ближе. То есть эти две компоненты связаны: и чем ближе сидит регуляторный вариант, тем он сильнее. Поэтому они идут вместе. Близость к началу гена и сила – не независимые, они связаны друг с другом. Таким образом, мы видим, что молодые гены более толерантны к накоплению мутаций, которые меняют их уровень экспрессии. И основное объяснение этого, что молодые гены не такие важные, и они могут себе позволить накопить регуляторные мутации, не убивая организм, не уменьшая приспособленность человека. То есть старым генам запрещено иметь регуляторные варианты, потому что старый ген должен показывать стабильный уровень экспрессии у всех людей. Вот если мы мерим старый ген в данной аудитории, у всех будет очень похожий уровень экспрессии. Если мы мерим молодой ген, у нас будет большая изменчивость, и в этом случае мы найдем ДНКовый вариант, ассоциированный с этой изменчивостью. Мы найдем мутацию, мы должны называть ее слабо-вредной. В случае старых генов мы такого не увидим, запрещено старому гену иметь полиморфизм, влияющий на уровень экспрессии старого гена. Если у нас есть молодой человек без каких-то связей и работы, он может делать, что угодно, он может ходить по улице без штанов, и все прекрасно. Если у нас президент, он должен следить уже за своими словами, за своими поступками. Соответственно, он не может себе позволить той свободы, которую может себе позволить молодой человек. То же самое с генами в данном случае. Молодые гены имеют большую степень свободы меняться и накапливать слабо-вредные мутации. Старым генам это запрещено.
Хорошо, далее мы идем к почти что последнему пункту. Опять у нас есть три цвета: фибропласты, лимфоциты и Т-клетки. И ось Y все та же самая – сила регуляторной мутации. Наверху у нас сильные мутации, которые сильно влияют на уровень экспрессии, внизу – слабые. А теперь другая ось – Х, мы об этом вообще не говорили в этой лекции. Ось Х – это как быстро и как часто кодирующая часть гена накапливает мутации. До сих пор мы говорили об уровне экспрессии, о том, как интенсивно работает ген, много у него РНК или мало, изменчиво оно или неизменчиво. Но у нас есть еще и тело гена, сама структурная часть, именно из которой и получаются белки. И, соответственно, это был и остается старый эволюционный паззл о том, почему мы часто видим, что изменчивость в уровне экспрессии у генов связана с изменчивостью в кодирующей части. То есть, если ген у нас меняет уровень экспрессии очень легко внутри вида, тогда и структурная часть этого гена толерантна к накоплению многих мутаций. Если у нас ген имеет повышенную изменчивость в уровне экспрессии, тогда и структурная часть этого гена имеет повышенную свободу. То есть получается, что если такое расслабление ограничение гена на двух разных масштабах: первый – как много этого гена, а второй – какой он, какая у него структура. Если у нас больше свободы у одного гена относительно уровня экспрессии и он фруктуирует очень сильно, тогда и структурная часть у него будет сильно меняться. А если у нас ген не меняется по уровню экспрессии, тогда и его последовательность среди всех людей, или среди всех приматов будет более-менее стабильной. И было много разных объяснений, почему мы видим эту корреляцию между экспрессией и структурой. Изменчивость в экспрессии и изменчивость в структуре. И здесь мы предполагаем, что, возможно, просто-напросто возраст генов объясняет все. Потому что если у нас ген молодой, во-первых, мы ему позволяем меняться в уровне экспрессии. Только это будет не вредно. И, соотвественно, он может меняться и в своей структуре. Он может накапливать слабовредные мутации в своем теле, которое будет транслироваться в белок. Если ген старый, то, помимо того, что уровень экспрессии у него должен быть стабильным, и само тело гена, сам белок должен быть тоже стабильным. Окей, что мы видим в этом анализе? По оси Х мы видим скорость накопления мутаций в кодирующей части гена. Какие-то гены будут в левом хвостике, вот здесь.
Старые гены, во-первых, очень консервативны с точки зрения структуры, а, во-вторых, по оси Y, у них если и есть регуляторная мутация, то они очень слабенькие. И дальше, когда мы двигаемся по диагонали, так, например, у нас увеличивается радиус каждого кружка, то есть у нас гены молодеют, они могут быть более изменчивыми. То есть они могут накапливать сильные регуляторные варианты, и параллельно у них ослабляется эволюция кодирующей части. Таким образом, мы, в общем-то, спекулируем, у нас нет доказательств, что, может быть, возраст гена просто определяет функциональную значимость гена полностью.
Итак: молодые гены имеют больше регуляторных вариантов и более сильный эффект этих вариантов по сравнению со старыми генами. Следовательно, молодые гены более свободны в их уровне экспрессии, поскольку отбор не иллюминирует их отклонение от оптимального уровня экспрессии. Это мутации очень-очень слабо-вредные, отбор их не видит. И глобальный и интересный вывод – большинство различий между здоровыми людьми основаны на изменениях в уровне экспрессии на структуре молодых генов, то есть, именно молодые гены объясняют различие в фенотипе, различии внутри здоровой популяции человечества. То есть я говорю «здоровой», потому что если у нас есть какие-то патологии, какие-то болезни, тогда, как правило, в этом ответственны старые гены. Но если мы берем огромную часть здоровой популяции человечества и все еще видим какие-то изменения в уровне экспрессии, в скорости накопления мутации, тогда, в основном, молодые гены будут объяснять эти уровни различия, не старые.
Окей, все, самое последнее. Еще один слайд. Хорошие и плохие места в нашем геноме – это чистая спекуляция, как я и говорил. Известно, что наш геном неравномерен, и у нас отличается темп мутирования, что самое главное. То есть некоторые регионы у нас горячие точки морфогенеза, некоторые холодные. В общем-то, мы имеем такие волны. Значит, красная линия здесь пример хромосомы 14, и красная линия показывает более-менее регулярную зависимость, что у нас есть вот такие вот волны, с каким-то периодом, и, соответственно, если у нас пик волны, это высокий темп мутирования. Если между пиками, это низкий темп мутирования.
Внутри нашего генома темп мутирования отличается в десять раз от того, где находится ген. Это может быть очень низкий темп мутирования. И, соответственно по некоторым предварительным данным мы получили, что молодые гены не только ослаблены с точки зрения отбора, но они еще и попадают, они еще сидят часто в неудачных местах, они сидят там, где высокий темп мутирования. То есть всегда, когда мы получаем какие-то результаты, мы можем объяснять любые результаты с точки зрения отбора и с точки зрения мутирования. Так вот, всю лекцию я вам говорил, что отбор более расслабленный, отбор не замечает изменения в молодых генах, поскольку они молодые и не очень важные. Это все верно, но теперь мы дополняем новой ннформацией, что, может быть, не только отбор приводит к тому, что молодые гены такие изменчивые в нашей популяции, а еще и просто прямой темп мутирования. Что в каждом поколении у нас происходит порядка сотни мутаций на геномные поколения, и ребенок имеет около ста мутаций. Подавляющее большинство абсолютно нейтральны, может быть, одна-две слабо-вредные. Но эти новые мутации распределены неравномерно. И если они чаще попадают в молодой ген, то это еще одно, полностью независимое от селективного объяснения, объяснение, почему молодые гены изменчивы. Почему у них структура нестабильная, и уровень экспрессии тоже нестабильный. То есть молодые гены часто попадают в регионы с повышенным темпом мутирования, почему, я не знаю (возможно, когда старые гены жили долго в геноме, они просто прыгали, находили более оптимальные места; молодым надо еще поперемещаться, чтобы найти хорошее место). Но это все спекуляции. Вот и все. В заключение я сюда переписал план, чтобы проверить, что мы обо всем поговорили. Я думаю, мы обо всем поговорили. Спасибо.