В настоящее время E. coli, несомненно,
представляет собой самую изученную
клетку из всех существующих.
Г.Стент
Кишечная палочка Escherichia coli — классический объект молекулярной генетики, на котором исследованы наиболее принципиальные проблемы организации генетического материала. Штамм E. coli K12 был успешно использован Дж.Ледербергом и Э.Тейтумом в 1946 г. для доказательства существования рекомбинаций у бактерий. Позже Дж.Ледерберг построил для нее первую генетическую карту, а Ф.Жакоб и Э.Вольман — первую кольцевую карту. В 1963 г. Дж.Кернс сфотографировал кольцевой геном E. coli в процессе его репликации.
Лет 30 назад огромным событием в генетике было секвенирование первого гена. К концу 1970-х годов технология секвенирования упростилась и стала рутинной процедурой. После этого были секвенированы геномные ДНК и РНК сначала малых фагов затем больших фагов и вирусов
клеточных органелл (митохондрий и хлоропластов) и плазмид (F-фактора и др.). Наконец, в конце 1980-х годов были начаты первые международные программы секвенирования полных клеточных геномов бактерий, грибов, растений, насекомых, млекопитающих, человека.
Зачем это нужно? Клеточный геном представляет собой сбалансированную систему генов — архив генетической информации, достаточной для контроля всего клеточного метаболизма, развития, морфогенеза, самовоспроизведения [1, 2]. В частности, геном клетки содержит гены всех основных генетических процессов — репликации, транскрипции, трансляции, репарации, рекомбинации, сегрегации и т.д. Полное секвенирование генома позволяет сопоставить и оценить генетическую сложность тех или иных молекулярных систем и геномов, выявить ранее неизвестные гены, выполнить сравнительный анализ функционального и структурного сходства различных генов и геномов, выявить общие принципы организации сложных клеточных молекулярно-генетических систем управления.
Работа по проекту полного секвенирования генома E. coli K12 была начата в 1991 г. под руководством д-ра Фреда Блаттнера (лаборатория генетики, Висконсинский университет, г. Медисон, США). В январе 1997 г. основные результаты были переданы в компьютерную базу данных GenBank [3], а в сентябре 1997 г. в американском журнале «Science» появилась итоговая статья коллектива участников секвенирования [4]. Полная последовательность ДНК генома E. coli K12 стала достоянием науки. Ниже мы приведем в сводной форме основные результаты этих работ с необходимыми комментариями, имея в виду, что такой уникальный материал позволяет ответить на многие принципиальные вопросы молекулярно-генетической организации и эволюции.
Таблица 1 Общие характеристики некоторых секвенированных прокариотических и эукариотических клеточных геномов |
|||
Биологический объект, вид |
L (Мб) |
Число |
Год |
1. Mycoplasma genitalium |
0.580 |
470 |
1995 |
2. Mycoplasma pneumoniae |
0.816 |
677 |
1996 |
3. Borrelia burgdorferi |
0.910 |
853 |
1997 |
4. Aquifex aeolicus |
1.551 |
1512 |
1998 |
5. Methanococcus jannaschii |
1.66 |
1738 |
1996 |
6. Helicobacter pylori |
1.667 |
1590 |
1997 |
7. Methanobacterium thermoautotrophicum |
1.751 |
1855 |
1997 |
8. Haemophilus influenzae |
1.830 |
1743 |
1995 |
9. Archaeoglobus fulgidus |
2.178 |
2436 |
1997 |
10. Bacillus subtilis |
4.214 |
4100 |
1997 |
11. Escherichia coli |
4.639 |
4288 |
1997 |
12. Saccharomyces cerevisiae |
12.068 |
5885 |
1996 |
13. Caenorabditis elegans |
100.0 |
12178 |
1998 |
14. Drosophila melanogaster |
120.0 |
13600 |
2000 |
15. Homo sapiens |
2910.0 |
38588 |
2001 |
Примечание. Таблица составлена по данным оригинальных работ, опубликованных в журналах «Nature», «Science», «NAR» и др. в 1995-1998 гг., а также базы данных GenBank [3] и последних публикаций. Методы оценки и сравнения возможных цистронов и их белков допускают некоторые неоднозначности в интерпретации. Поэтому оцененные числа цистронов не надо воспринимать как окончательные. Оценки некоторых ORF как цистронов могут быть уточнены. |
Заметим также, что параллельно с E. coli были секвенированы многие другие клеточные геномы бактерий и эукариот. К концу 1997 г. было опубликовано 8 полных клеточных геномов, а к лету 1998 г. — уже 15 (табл. 1). Среди них геномы микоплазм, энтеробактерий, архебактерий, дрожжей, нематоды. На очереди геномы других бактерий и грибов, а также дрозофилы, арабидопсиса, пшеницы, риса, кукурузы, мыши и, наконец, человека. В целом это направление теперь называют геномикой. Это, вероятно, одна из главных точек роста современной молекулярной генетики.
Непосредственно для секвенирования была выбрана линия E. coli K12 MG 1655,из которой были исключены а другие генетические манипуляции были сведены к минимуму. Длина генома этой линии L=4639221 н.п. Эта последовательность отвечает кольцевой генетической карте E. coli K12, калиброванной на 100 минут по времени конъюгационного переноса. Начало отсчета карты выбрано между генами lasT и thrL.
Общие характеристики последовательности ДНК генома E. coli K12 таковы: 87,8% генома занимают реальные и вероятные белок-кодирующие гены, или цистроны. Примерно 1/3 из них была известна ранее, а остальные выбраны среди огромного числа новых открытых рамок трансляции (возможных цистронов, или ORF) путем сложного сопоставления многих свойств, имеющих характерные различия между кодирующими и некодирующими районами. Функции 38% этих цистронов неизвестны.
— 0,8% — гены стабильных фракций РНК (т-РНК, р-РНК и др.).
— 0,7% — некодирующие повторы.
— 11,0% генома — функциональные сайты и другие участки, выполняющие регуляторные и другие функции.
Таким образом, геном E. coli K12 очень плотно нагружен генами (~ 88,5%), а межгенные участки занимают относительно малую долю (~11%). Среди 4288 выявленных или предсказанных цистронов 1853 описаны ранее, а 2435 — новые. Самый большой цистрон содержит 7149 нп. (2383 кодона), функция его неизвестна. Средний размер цистрона 951 нп. (317 кодонов). Средний интервал между цистронами — 118 нп. Однако межгенные интервалы в большинстве своем содержат различные функциональные сайты, то есть выполняют регуляторные функции. Кроме того, цистроны не содержат интронов — внутренних некодирующих участков.
Известно, что цистроны выделяются в ДНК и м-РНК начальными и конечными знаками пунктуации. В общей форме они были известны ранее и внесены в генетический код. Однако в геноме E. coli они встречаются с различными частотами:
Начальные знаки пунктуации |
Конечные знаки пунктуации |
ATG — 3542 |
TAA — 2705 |
GTG — 612 |
TGA — 1257 |
TTG — 130 |
TAG — 326 |
ATT — 1 |
CTG — 1 |
Интересно, что у 405 пар смежных цистронов вообще нет межгенных интервалов: знак начала трансляции одного частично перекрывается с конечным знаком другого:
(нач) (нач) (нач) (нач)
ATGA, TAATG, TGATG, GTGA, и др.
[кон] [кон] [кон] [кон]
По данным на январь 1998 г. [5] сложность молекулярно-генетической системы управления и метаболической сети E. coli можно охарактеризовать следующим образом:
1. Длина ДНК генома (Мб) |
4.6 |
2. Полное число генов |
4909 |
3. Число цистронов |
4288 |
4. Число кодируемых ими ферментов |
804 |
5. Число метаболических реакций |
988 |
6. Число метаболических путей |
123 |
7. Число химических веществ, участвующих в метаболизме |
1303 |
8. Число фракций т-РНК (генов т-РНК) |
79 (86) |
9. Число регуляторных белков |
60 |
В таких случаях специалисты говорят: «жизнь при 4909 генах». Метаболизм сложен, но не запредельно. В дальнейшем приведенные цифры могут возрасти в ходе исследований за счет новых знаний.
Более подробная классификация цистронов по 22 функциональным классам представлена в таблице 2. Здесь примерно 1/4 клеточных ресурсов связана с метаболизмом малых молекул, 1/8 — с метаболизмом макромолекул и 1/5 — с клеточными структурами и процессами. В метаболизме малых молекул ключевую роль играет синтез, распад и преобразование нуклеотидов (58 цистронов), аминокислот (131); энергетические процессы (243), транспорт (146), центральный промежуточный метаболизм (188) и другие процессы. В частности, системы, выполняющие основные генетические процессы, содержат:
— репликацию, рекомбинацию, модификацию и репарацию ДНК — 115 (2,68%);
— трапскрипцию, синтез, метаболизм и модификацию РНК — 55 (1,28%);
— трансляцию и посттрансляционную модификацию белков — 182 (4,24%) + 21 ген р-РНК + 86 генов т-РНК.
Кроме того, найдено 9 цистронов, контролирующих синтез шаперонов — вспомогательных белков, способствующих формированию правильной пространственной упаковки всех остальных белков. Этот процесс называется самоорганизацией, или фолдингом белков.
Помимо различных вспомогательных функций, эти системы в совокупности образуют сайзер — универсальную систему самовоспроизведения клетки [1, 2]. Сайзер составляет сердцевину молекулярно-генетической системы управления клетки. Несмотря на внушительное число участвующих генов (~460, свыше 10% всех генов), принципиальная блок-схема сайзера достаточно проста [1, 6].
Далее рассмотрим разнообразие функциональных единиц транскрипции. Для генома E. coli и других энтеробактерий характерно присутствие управляемых единиц транскрипции — оперонов. Первые опероны были открыты именно у E. coli: lac-опе-рон, контролирующий сбраживание сахара лактозы, trp-оперон, контролирующий синтез аминокислоты триптофана, и др. [см. 6]. Важной особенностью оперонов является наличие обратной связи между концентрацией контролируемого метаболита и наработкой ферментов его синтеза или распада. Всего в геноме E. coli выявлено и предсказано 2584 оперона. Среди них:
— 73% содержат 1 цистрон;
— 16% — 2 цистрона;
— 4,6% — 3 цистрона (в том числе lac-оперон);
— 6% — 4 и более цистронов (в том числе trp-, his-опероны).
Все они имеют не менее 1 промотора— начального знака транскрипции.
Опероны управляются регуляторными белками через специфические функциональные сайты управления. Например, белок-репрессор lac-оперона узнает его оператор — функциональный сайт и через него подавляет функцию инициации транскрипции. Иногда опероны подчинены нескольким регуляторным белкам и имеют несколько регуляторных сайтов [1, 6].
Всего по данным секвенирования выявлены 45 цистронов белков с регуляторными функциями и еще цистроны 133 предполагаемых регуляторных белков. Большинство из них, вероятно, участвует в управлении оперонами.
Так, внутри областей с предсказанными сайтами управления (в основном оперонов)
— 89,2% регулируются 1 белком (в том числе trp-оперон);
— 8,4% — 2 белками (в том числеlac-оперон);
— 2,4% — 3 и более белками.
В свою очередь эти области содержат
— 81,2% — 1 сайт управления;
— 12,2% — 2 сайта управления (в том числе lac-оперон);
— 6,6% — 3 и более сайтов управления.
Это значит, что большинство оперонов регулируется достаточно просто. Этим они существенно отличаются от генов эукариот, которые подвержены действию многих общих и специфических белковых факторов управления.
Геном E. Coli содержит 2 функциональные единицы репликации. Ф.Блаттнер и др. назвали их реплихорами [4].
Общее двустороннее начало репликации (ori, origin) локализовано на участке примерно 84,5 мин конъюгационного переноса и занимает ~ 250 нп. В этой зоне инициируется двусторонняя репликация. Реплихор 1 ориентирован по часовой стрелке, реплихор 2 — против нее. Оба процесса заканчиваются на противоположном участке генетической карты, ~ 34-35 мин., где каждый из них имеет свой отдельный ориентированный терминальный знак (ter) — T1 и T2. Следует отметить, что традиционно участки репликации, ограниченные знаками ori и ter, называют репликонами [6].
Таблица 2 |
||
Функциональный класс |
Число белков |
% |
1. Регуляторная функция |
45 |
1.05 |
2. Предполагаемая регуляторная функция |
133 |
3.10 |
3. Структура клетки |
182 |
4.24 |
4. Предполагаемые мембранные белки |
13 |
0.30 |
5. Предполагаемые структурные белки |
42 |
0.98 |
6. Фаги, транспозоны, плазмиды |
87 |
2.03 |
7. Транспортные и связывающие белки |
281 |
6.55 |
8. Предполагаемые транспортные белки |
146 |
3.40 |
9. Энергетический метаболизм |
243 |
5.67 |
10. Репликация, рекомбинация, модификация и репарация ДНК |
115 |
2.68 |
11. Транскрипция, синтез, метаболизм и модификация РНК |
55 |
1.28 |
12. Трансляция, посттрансляционная модификация белков |
182 |
4.24 |
13. Клеточные процессы, включая адаптацию и защиту |
188 |
4.38 |
14. Биосинтез кофакторов, простетических групп и носителей |
103 |
2.40 |
15. Предполагаемые шапероны |
9 |
0.21 |
16. Биосинтез и метаболизм нуклеотидов |
58 |
1.35 |
17. Биосинтез и метаболизм аминокислот |
131 |
3.06 |
18. Метаболизм фаттиевой кислоты и фосфолипидов |
48 |
1.12 |
19. Катаболизм соединений углерода |
130 |
3.03 |
20. Центральный промежуточный метаболизм |
188 |
4.38 |
21. Предполагаемые ферменты |
251 |
5.85 |
22. Другие известные гены (генные продукты и фенотипы неизвестны) |
26 |
0.61 |
23. Гипотетические, неклассифицированные, неизвестные |
1632 |
38.06 |
24. Всего |
4288 |
100.00 |
Геном E. coli K12 содержит также значительное число необязательных (факультативных) включений — профагов, плазмид и транспозонов. Выявлено 87 цистронов и белков этих включений (табл. 2). Число их может быть различным, поскольку они подвижны, способны к внедрению в
геном и выщеплению из него. Наилучшим образом это продемонстрировано для умеренного фага l и полового фактора (плазмиды) F, которые в данной линии отсутствуют. Многие фаги исключаются из генома не полностью, оставляя там в качестве следа некоторые свои гены. Эти остатки, не способные к самостоятельному перемещению и развитию, называют «криптическими» фагами. Среди факультативных включений в этой линии найдены 41 копия различных транспозонов (IS), которые участвуют в процессах внедрения и исключения плазмид.
Наконец, следует отметить, что геном E. coli содержит ряд функциональных и нефункциональных повторов. Октамер GCTGGTGG отвечает «горячим точкам рекомбинаций» (так называемым ).
Он встречается в сотнях позиций в обеих ориентациях и играет ключевую роль в конъюгационной рекомбинации и других генетических процессах. Найдено большое число копий (581) небольшого палиндромного повтора REP длиной ~ 40 нп. Функция их неизвестна. В сумме они занимают 0,54% ДНК генома. Известны и другие повторы. В основном они попадают в межцистронные интервалы.
Таким образом, молекулярно-генетическая система управления E. coli оказалась хотя и сложной, но вполне обозримой. Геном кодирует белки всех основных генетических процессов и систем: контролирует синтез и метаболизм мономеров, энергетику, транспорт, клеточные процессы, защитные реакции. Хотя функции 38% выявленных белков пока не известны, скорее всего, они пополнят уже обозначенные функциональные группы. Опероны, как управляемые единицы транскрипции, являются доминирующим вариантом организации генов E. coli K12 и других прокариотических клеток.
Сравнительный анализ молекулярно-генетических систем E. Coli и других объектов (см. табл. 1) позволил выявить многие гомологичные гены, оценить степень сходства геномов, а также высказать предположения о минимальной сложности гипотетической (а может быть, первичной?) клетки. Ясно, что для организации клетки необходим некоторый минимум молекулярных структур и процессов. В таблице 1 приведены суммарные данные по числу генов и размерам первых секвенированных клеточных геномов. Минимальный геном имеет микоплазма M. Genitalium — 0.58 Мб, 470 генов. Путем сравнения геномов выявлено, что минимальная клетка, способная к автономной жизнедеятельности и самовоспроизведению, должна была бы содержать не менее 250-300 наиболее существенных генов. Группа японских исследователей [7] показала, что можно обеспечить все основные метаболические потребности клетки, трансляцию и репликацию РНК-генома в системе со 127 генами. Правда, при этом клетка должна быть лишена архива ДНК, репарационных и других важных систем защиты и помехоустойчивости, что делает ее эволюционно беззащитной.
В заключение выражаю благодарность К.С.Макаровой, Ю.И.Вульфу и А.Э.Келю за содействие в адаптации последних данных по клеточным геномам.
Литература
- Ратнер В.А. Концепция молекулярно-генети-ческих систем управления. Новосибирск: Наука, 1993. 120 с.
- Ratner V.A., Zharkikh A.A., Kolchanov N.A. et al. Molecular Evolution. Berlin e.a.: Springer-Verlag, 1996. 433 p.
- Сайт в INTERNET: http://ncbi.nlm.nih.gov/genbank/genomes
- Blattner F.R., Plunket III.G., Bloch C.A. et al. The Complete Genome Sequence of Escherichia coli K12 // Science. 1997. V. 277. P. 1453-1462.
- Karp P.D., Riley M. EcoCyc: encyclo- pedia of E. coli genes and metabolism. http://ecocyc.PangeaSystems.com/ecocyc/ecocyc.html
- Ратнер В.А. Молекулярная генетика: принципы и механизмы. Новосибирск: Наука, 1983. 256 c.
- Tomita M. et al. A virtual cell with 127 genes // Proc. 1st Intern. Conf. «Bioinformatics of Genome Regulation and Structure (BGRS’98)», Novosibirsk: Inst. Cytol. Genet., 1998. V. 1. P. 97-99.
В.А.Ратнер, д.б.н., профессор,
Институт цитологии и генетики СО РАН,
Новосибирск