Но прежде чем перейти к описанию программы, а точнее игры, FoldIt, вернемся к методам определения структуры белка




Дата канвертавання19.04.2016
Памер130.71 Kb.
Московский Государственный Университет им. М.В.Ломоносова

Факультет биоинженерии и биоинформатики

FoldIt – новый метод получения PDB-моделей

Работу выполнила студентка 4 курса Дзама Маргарита

Введение

Современная наука сталкивается с огромным множеством проблем, решение которых требует значительных человеческих усилий: начиная с классификации многих терабайт астрономических изображений и заканчивая аннотацией геномов, занимающие гигабайты памяти. Предсказание структуры белков тоже является одной из таких проблем, поскольку время перебора всех возможных конформаций, который может принять белок, слишком велико, даже если использовать возможности суперкомпьютера. Для решения такого рода задач ученые все чаще обращаются к волонтерам, не имеющих никакого отношения к научному сообществу. Таким образом, сложная задача разделяется на множество маленьких подзадач, которые в свою очередь распределяются между тысячами, а порой и миллионами желающих принять участие в ее решении. Подобная стратегия весьма успешно используется на сегодняшний день, например, для классификации еще неизведанных галактик, для проведения сравнительного анализа экологической обстановки в разных областях и для систематизации знаний о функциях генов человека. Но чтобы добиться успеха, нужно вдохновить и привлечь необходимое число людей. И самый лучший способ – игры. В частности, Дэвид Бейкер и его коллеги описали несколько весьма успешных результатов, относящихся к разработке нового алгоритма для фолдинга белков в игровом варианте (FoldIt). Игроки теперь не просто пытаются выиграть игру, набрав при этом как можно больше очков, они чувствуют свою причастность к какой-то более глобальной миссии.



Методы получения третичной структуры белка

Но прежде чем перейти к описанию программы, а точнее игры, FoldIt, вернемся к методам определения структуры белка. Большинство структур, представленные в PDB, получены с помощью рентгеноструктурного анализа (РСА) или же при использовании ядерно-магнитного резонанса (ЯМР). Конечно, и в том, и в другом методах есть свои особенности и, что важнее, свои проблемы, которые решаются различными путями (на них я останавливаться не буду). Но что же делать, если мы не можем решить проблемы, встающие перед нами при использовании этих методов? Можно пойти теоретическим путем: построить третичную структуру белка, основываясь на структуре существующего гомолога, или опираться только на его последовательность (первичную структуру) в случае, если нам не повезло, и гомолога нет. Последний способ понимает под собой получение структуры de novo. В вычислительной биологии предсказание структуры белка de novo относится к алгоритмическому процессу, с помощью которого прогнозируется третичная структура белка на основе его аминокислотной последовательности. Это проблема заняла умы ведущих ученых на десятилетия и до сих пор остается нерешенной. Согласно журналу “Science” данная проблема входит в топ 125 нерешенных вопросов в современной науке. В настоящее время существуют некоторые успешные методы, которые могут с хорошей вероятностью предсказать фолдинг небольших, однодоменных белков в пределах 1,5 ангстрем по всей структуре. Методы de novo, как правило, требуют больших огромных вычислительных ресурсов и именно по этой причине используются только для относительно небольших белковых молекул. Моделирование структуры de novo отличается от template-based modeling (TBM) тем, что не существует уже готовой модели какого-либо гомолога, тем самым все попытки предсказания структуры белка на основе его последовательности становятся чрезвычайно сложными. Моделирование de novo для больших белков требует более совершенных алгоритмов и больших вычислительных ресурсов. Мощными суперкомпьютерами обладают, например, Blue Gene или MDGRAPE-3. Но можно еще и разделить сложную задачу, как сделали Folding@home, Rosetta@home, the Human Proteome Folding Project или Nutritious Rice for the World. Хоть и существует значительный вычислительный барьер, однако получаемый результат во многих областях, начиная со структурной геномики и заканчивая областями медицины и разработкой лекарств, делает предсказание структуры de novo активно исследуемой проблемой в настоящее время.

Наиболее успешные программы-предсказатели структур учитывают 3 следующих фактора:


  1. Поиск точной функции энергии, которая соответствует наиболее термодинамически устойчивому состоянию нативной структуры белка;

  2. Эффективный метод поиска, способный быстро идентифицировать состояния с низкой энергией путем конформационного перебора;

  3. Способность к выбору моделей, наиболее приближенных к нативному состоянию, из множества структур.

Программы de novo осуществляют поиск кандидатов, работая в трехмерном пространстве. Структура, имеющая минимум по энтропии и свободной энергии белка, будет выдаваться программой, считая, что данная структура наиболее приближена к нативному состоянию белка. Так работает и Rosetta, как заявил один из ее создателей, уже известный нам Дэвид Бейкер: “в процессе укладки каждый отдельный сегмент цепи колеблется между множествами локальных конформаций… укладка структуры, близкой к нативному состоянию, происходит, когда конформации, принятые в отдельных участках, приводят к… низкой энергии структуры. Rosetta затем определяет комбинации этих локальных конформаций, которые в целом имеют низшую энергию по всей структуре.”

Основное ограничение предсказания структуры способом de novo – это невероятно огромное время вычислений, производимых компьютером, требуемое для успешного разрешения проблемы укладки. Основываясь на том, что нужно постараться разделить задачу на более мелкие, которые решались бы проще, и что компьютеру иногда не хватает пространственного мышления и интуиции людей, создатели решили разработать игру, с помощью которой бы люди по всему миру помогали решать , воспринимая это как развлечение.



Foldit

Foldit - это визуальная игра-головоломка, цель которой получить точную модель белковой структуры, сложенной наилучшим образом (рис.1).





Рис.1. Скриншот FoldIt, показывающий инструменты и отображение.1 – визуализация атомов, которые слишком близко располагаются, 2 – водородные связи, 3 – гидрофобная боковая цепь с желтыми вставками, где есть незащищенные группы, 4 – гидрофильная боковая цепь, 5 – сегмент остова, окрашенного в красный цвет из-за высокой энергии остатков, 6 – ограничение подвижности молекулы, 7 – «замораживание» молекулы, 8 – набранные очки, 9 – лидеры, 10 – панель инструментов, 11 – чат для общения с другими игроками, 12 – автоматизированные инструменты/ «рецепты».

Сначала перед игроками возникают «тренировочные структуры», немного неправильно сложенные структуры, которые нужно в интерактивном режиме корректировать так, чтобы набрать наивысший балл (минимум энергии). При этом текущее состояние отображается, а также результаты других игроков и групп игроков (рис.1, 8-9). Чтобы игра была понятна людям, не имеющим дело с научной терминологией, многие биологические термины заменены на более общие понятия. Также создателями были спрятаны некоторые элементы, которые препятствовали бы более явному решению проблемы и загромождали собой пространство, и сделали возможным показывать области, которые получаются в ходе не самого удачного фолдинга, с тем, чтобы игрок обратил на них внимание и попытался улучшить положение дела (рис.1, 1-5). Есть специальные визуальные подсказки, отображающие гидрофобность (“незащищенная гидрофобность“), межатомные отталкивания (“столкновение“) и образующиеся полости (“пустота“). Игроки интуитивно манипулируют представленными инструментами. Наиболее быстрый способ манипуляции – непосредственно потянуть за любую часть белка. Это также возможно для поворота спиралей и стягивания бета-листов (“tweak“). Игроки также могут наложить небольшие ограничения на подвижность молекулы (“rubber bands”) и зафиксировать ее (“freezing”) (Рис.1, 6-7). Доступные автоматические инструменты: изменение положения ротаморов в боковой цепи путем комбинаторных переборов (“shake”), локальная минимизация энергии (“wiggle”), вставка фрагмента (“rebuild”).

С целью привлечения игроков, ранее не знакомых с молекулярной биологией, было важно ознакомить их с концепциями посредством тренировочных уровней: головоломки, которые всегда доступны и их можно собирать, набирая как можно больше очков. Это так называемые обучаемые уровни, где происходит ознакомление с набором инструментов и визуализацией белковой молекулы. На самом деле только несколько людей в топе самых лучших игроков профессионально связаны с биохимией или молекулярной биологией. Было обнаружено, что FoldIt распространена среди множества людей, различающихся и по профессии, и по возрасту, и по многим другим критериям.





Рис.2. Результаты демографического исследования, представленные на сайте FoldIt.
(а) Результаты, основанные на ответах всех людей.
(b) Результаты, основанные на ответах игроков, находящихся в топе 50 лучших игроков.

Далее встал вопрос, а как хорошо будут справляться люди с решением такого рода проблем. Чтобы оценить это, была представлена серия головоломок, для которых не просто не существовало решений, но и не было разрешенных гомологичных структур в общедоступных базах данных. В сравнительной таблице 1 представлена более детальная информация о 10 таких неизвестных структурах, где показаны лучшие результаты программы FoldIt и предсказания Rosetta. Создатели обнаружили, что игроки FoldIt более эффективно решали головоломки, которые требовали значительных изменений с тем, чтобы спрятать гидрофобные остатки внутрь белка.





Таблица 1. Список всех головоломок FoldIt, используемых для проверки решения проблемы укладки белка. Сравнение лучших результатов укладки, полученных от игроков, использующих программу FoldIt, и при использовании Rosetta. Решения, которые намного лучше решены тем или иным способом, выделены жирным. Результаты для каждой головоломки приведены в последнем столбце.

Хотя инструменты FoldIt весьма эффективны в поиске лучшей структуры, тем не менее, игрокам достаточно сложно идти в нужном направлении «издалека». Поэтому важно соблюдать баланс между человеческим и компьютерным вкладами. Разработаны разные алгоритмы, как создателями игры, так и собственно игроками, которые значительно упрощают жизнь. Эти алгоритмы называются рецептами и их можно подгрузить себе в FoldIt в «кулинарную книгу» (“cookbook”). Наиболее популярные и часто используемые представлены на рисунке 3. Некоторые рецепты, как например Blue Fuse, используются по многу раз разными игроками, другие же, как например 0 bounce, представленный по середине розовым цветом, используется только одним игроком.





Рис.3. Наиболее часто используемые рецепты FoldIt. Каждый столбец представляет отдельный рецепт. По вертикали показана частота использования. Цветами обозначены разные игроки. Blue Fuse является самым популярным рецептом.

Наиболее важная проблема, решенная игроками FoldIt, - разрешение структуры ретровирусной протеазы обезьяньего вируса Мэйсона-Пфайзера (M-PMV). M-PMV вызывает обезьяний СПИД (SAIDS) у обезьян рода Macaca. Ретровирусные протеазы (PR) играют критическую роль в созревании вируса и пролиферации, и находятся сейчас в центре внимания интенсивных разработок антиретровирусных лекарственных препаратов. Биофизические исследования и ЯМР показывали, что при отсутствии субстратов или ингибиторов M-PMV протеазы должны складываться в стабильный мономер, но кристаллическая структура не могла быть разрешена с помощью молекулярного замещения в течение нескольких десятилетий, даже при наличии гомологов. M-PMV PR прекрасно подходил для программы FoldIt, к тому же он оказался сказочно маленьким (114 аминокислотных остатков). С целью определить, может ли интуиция человека обойти автоматизированные системы, игрокам FoldIt был брошен вызов: построить точную модель M-PMV PR, основываясь на координатах, полученных методом ЯМР. По окончании трехнедельного соревнования, были проанализированы модели, набравшие наибольшее количество очков. Примечательно, что, несмотря на полный провал в предыдущих исследованиях, несколько решений FoldIt оказались весьма хорошими, чтобы позволить разрешить кристаллическую структуру.





Рис.4. Лучшие попытки разрешения структуры M-PMV PR. Позже определенная кристаллическая структура представлена синим на всех 4 картинках. (a) в зеленом цвете: предсказание FoldIt, следует отметить точное совпадение боковой цепи (b) в желтом цвете: предсказание Rosetta с учетом перестройки-уточнения структуры (c) в красном: предсказание Rosetta с учетом релаксации (d) в голубом: предсказание Rosetta используя CS-Rosetta (система химического сдвига на основе Rosetta).

Далее игрокам были предложены 10 разных структур от ЯМР, которые были плохо описаны при использовании функцией энергии Rosetta. Улучшения в точности моделей представлены на рисунке 5. Процесс уточнения структуры в ходе игры занял 16 дней. Решение при определенном молекулярном замещении считалось правильным, если модель имела логарифмическую функцию правдоподобия больше, чем в случае случайных моделей.





Рис.5. Улучшение структуры M-PMV PR при участии игроков FoldIt (a) процесс уточнения структуры в течение 16 дней игры. Ось Х показывает прогресс во времени. Ось Y показывает логарифмическую функцию правдоподобия для каждой модели. Чтобы считать решение правильным при молекулярном замещении, модель должна иметь логарифмическую функцию правдоподобия больше, чем лучшие случайные модели. Распределения по интенсивности этих случайно выбранных моделей показаны бледно-синей полосой (b)начиная с весьма уточненной ЯМР модели (красный цвет), сгенерированная модель одним из игроков (желтый цвет) ближе к позже полученной кристаллической структуре (синий цвет) (c)начиная с уточненной модели одним из игроков, другой игрок получил свою модель (розовый цвет) (d) третий игрок вносит окончательные поправки и получает свою модель (зеленый цвет) со значительным уточнением для обеспечения однозначного решения молекулярного замещения.

Функция правдоподобия полученной модели была достаточно высокой, чтобы говорить, что данное решение самое хорошее из множества других: полученных из FoldIt, автоматически полученных, уточненных другими способами. Используя решение FoldIt, структура была окончательно определена в течение нескольких дней после этого (Табл.2).





Таблица 2. Данные по структуре M-PMV PR.

Решающая роль игроков FoldIt в определении структуры M-PMV PR показывает всю мощь онлайн-игр, возможности человеческой интуиции и невероятные навыки к сложению трехмерных головоломок в решении сложнейших научных задач.



Построение пространственной структуры белка с использованием FoldIt и Jpred

Задача: построить пространственную структуру теоретического белка длиной в 100 а.о. из Streptococcus pneumonia в программе FoldIt. Последовательность:

>R0023 SP18154A, Streptococcus pneumoniae, 100 residues

MRAQSFFLTFSFIRSKIKLALNKGVLNMIEITYIDASKNERTVTFESYEDFERSQQACLIGVADYYPVQKLTYKGHNLDYHGTYGDIFFYLMKQDLSQYN
После установки программы с сайта http://fold.it/portal/ потребовалось немалое время, чтобы разобраться с данной программой. Оказалось, что загрузить собственную последовательность не так-то и просто. Для этого нужно создать шаблон головоломки с определенным количеством аминокислотных остатков по адресу http://fold.it/portal/node/add/contest. Но ты создаешь не просто шаблон, а игру, в которую можешь пригласить других участников. Количество типов головоломок ограничено (21 штука). Скорее всего, выбранный тип головоломки вряд ли подойдет точно к поставленной задаче, хотя бы по числу аминокислотных остатков, поэтому в моем случае я выбрала позицию «Freestyle Design: Variable Length», поскольку здесь мы можем изменять заданную длину цепи и вносить мутации по остаткам.

Далее мы заходим в программу FoldIt и открываем уже подгруженную головоломку. Цепь состоит из 55 аланинов, а наша последовательность составляет 100 аминокислотных остатков. Для этого нужно выбрать “Design Mode” и вручную производить вставки по 1, 2 или 3 аминокислотным остаткам (возможно, существует другой способ, но я не нашла). Теперь необходимо мутировать аланины в нашу последовательность. Скачиваем рецепт FASTA Amino Setter, который на вход требует аминокислотную последовательность, и далее происходят нужные нам замены. Таким образом, мы подгрузили нашу последовательность. Теперь хотелось бы отобразить элементы вторичной структуры. Для этого сначала я воспользовалась программой Jpred, предсказывающей вторичные структуры, исходя из введенной последовательности.





Рис.6. Предсказание элементов вторичной структуры программой Jpred.
Определив позиции элементов вторичной структуры, я воспользовалась рецептом Tvdl V2 Structure setter 1.0, который позволяет отобразить альфа-спирали и бета-листы на структуре. Правда, после этого альфа-спирали больше напоминают волнистые линии, нежели собственно спирали, поэтому я воспользовалась командой rebuild превратила их в настоящие спирали. После этого я начала сборку белка. Я решила, что 4 бета-листа нужно объединить и образовать водородные связи. После этого началась импровизация и включилась интуиция. Наиболее часто использовались инструменты “wiggle” и “bands”. Среди запускаемых рецептов хотелось бы отметить Blue Fuse v1.1, Local Quake 3.0 и Co lapses Settle. Я пробовала разрешить с самого начала несколько раз. На рисунках 7-9 представлены наиболее успешные результаты.

Наилучший результат в очках был равен 9400. Во втором случае структура получилась более «размазанной». Конечно, представленные мною результаты не совсем идеальны, в некоторых случаях есть и нежелательные гидрофобные остатки, находящиеся наружи, и пустоты, особенно во втором случае, и не самым лучшим образом расположены некоторые вторичные элементы друг относительно друга. Но все же можно сказать, что я получила весьма неплохой результат (особенно если учесть, что для большинства белков количество очков, соответствующее хорошей укладке, равно 10000-11000).





Рис.7. Первый способ укладки. Количество очков – 9088.



Рис.8. Второй способ укладки. Количество очков – 9255.



Рис.9. Третий способ укладки. Количество очков – 9363.

Выводы

  1. FoldIt является относительно точным, удобным и перспективным методом получения и уточнения пространственной структуры белка.

  2. Для решения важной, но трудоемкой задачи по укладке белка теперь могут привлекаться люди, не имеющие отношения к науке (просто играя и приятно проводя время).

  3. Программа FoldIt имеет множество встроенных инструментов и рецептов, которые не очень сложны в использовании и весьма упрощают процесс укладки белка.

  4. По сравнению с полностью автоматизированными программами FoldIt справляется с некоторыми задачами гораздо лучше. Однако нельзя полностью полагаться на интуицию человека, поскольку, начиная сборку белка с самого начала, игроку тяжело точно определить, как лучше всего свернуть белок. Требуется сочетание автоматизированного процесса и человеческих усилий.

  5. FoldIt - прекрасный способ действительно помочь в решении какой-либо задачи, почувствовать свою причастность к великому открытию и возможность завести новые и полезные знакомства, поскольку в FoldIt встроена функция чата.


Список литературы

  1. Gilski M, Kazmierczyk M, Krzywda S, Zábranská H, Cooper S, Popović Z, Khatib F, DiMaio F, Thompson J, Baker D, Pichová I, Jaskolski M.(2011); High-resolution structure of a retroviral protease folded as a monomer. Acta Crystallogr. D. Biol. Crystallogr. 67(Pt 11):907-14

  2. Good BM, Su AI. (2011); Games with a scientific purpose; Genome Biology; 12:135

  3. Cooper S, Khatib F, Treuille A, Barbero J, Lee J, Beenen M, Leaver-Fay A, Baker D, Popović Z, Players F. (2010); Predicting protein structures with a multiplayer online game. Nature; 466(7307):756-60.

  4. Khatib F, DiMaio F; Foldit Contenders Group; Foldit Void Crushers Group, Cooper S, Kazmierczyk M, Gilski M, Krzywda S, Zabranska H, Pichova I, Thompson J, Popović Z, Jaskolski M, Baker D. (2011); Crystal structure of a monomeric retroviral protease solved by protein folding game players.; Nat Struct Mol Biol, 8(10):1175-7. doi: 10.1038/nsmb.2119

  5. Khatib F, Cooper S, Tyka MD, Xu K, Makedon I, Popovic Z, Baker D, Players F. (2011); Algorithm discovery by protein folding game players.; Proc Natl Acad Sci U S A. 108(47):18949-53

  6. http://ru.wikiversity.org/wiki/FoldIt_Wiki

  7. http://www.the-scientist.com/?articles.view/articleNo/31155/title/Public-Solves-Protein-Structure/

  8. http://www.sciencedaily.com/releases/2001/02/010214074736.htm

  9. Editorial: So much more to know. Science 2005, 309:78-102

  10. Dill, Ken A. et al. The protein folding problem: when will it be solved? Current Opinion in Structural Biology 2007, 17:342–346.

  11. Rigden, Daniel J. From Protein Structure to Function with Bioinformatics. Springer Science. 2009. ISBN: 978-1-4020-9057-8.

  12. http://www.compbio.dundee.ac.uk/www-jpred/results/jp_reXEEMo/jp_reXEEMo.html


База данных защищена авторским правом ©shkola.of.by 2016
звярнуцца да адміністрацыі

    Галоўная старонка