Стартап DeepMind создал алгоритм, который умеет прогнозировать структуру белков

Над алгоритмом на искусственном интеллекте, который получил название AlphaFold, стартап работал около двух лет. Разработку DeepMind сразу же назвали прорывом в молекулярной биологии, на нее возлагают большие надежды в решении сложных научных задач. 

И это неслучайно — алгоритм быстро начал оправдывать возложенные ожидания. 

Так, на соревновании Critical Assessment of Structure Prediction (CASP) в 2018 году AlphaFold стал абсолютным лидером и обогнал 98 участников. Из 43 предложенных образцов он дал наиболее точный прогноз для 25. 

При этом предсказания ИИ были лучше для всех 90 предложенных белков. 

Структуры белка: оригинальные (зеленые), предсказанные AlphaFold (голубые)

Для сравнения, команда людей смогла правильно определить предполагаемую структуру только для трех белков из 43. Это был второй результат конкурса, но разница очевидна. 

При создании алгоритма перед учеными стояла сложная задача. Они хотели научить нейросеть моделировать структуры белков с нуля, на основе их генетической последовательности. Для этого ее «познакомили» с данными о тысячах белков с расшифрованной структурой. 

Схема алгоритма AlphaFold

Искусственный интеллект постоянно создавал новые фрагменты, чтобы все время улучшать предлагаемую последовательность аминокислот. Ученые также использовали метод градиентного спуска, чтобы оперативно находить ошибки и исправлять их. 

Визуализация метода градиентного спуска для предсказания структуры белка

В результате программа умеет не только определять расстояние между парами аминокислот и углами между химическими связями, которые соединяют эти аминокислоты, но и рассчитывать наиболее энергоэффективную форму белка. На то, чтобы сделать первые предсказания, у AlphaFold ушло две недели, затем время сократилось до нескольких часов. 

Зачем все это нужно? В первую очередь, белок — это основа жизни. В организме человека содержится огромное количество разновидностей этого органического вещества. По разным оценкам, оно может достигать нескольких миллиардов. 

Структур белка, состоящего из сотни аминокислот, соответственно, в разы больше. Их практически невозможно посчитать вручную, так как количество нулей здесь стремится к бесконечности. И чем сложнее структура, тем сложнее ее моделировать. Для простого перебора всех возможных конфигураций среднего по сложности белка нужно время, превышающее возраст Вселенной. 

При этом понять, как состав белка влияет на его структуру и как происходит самосборка — один из важнейших вопросов биологии. Его разгадка — ключ к пониманию того, как функционируют все живые организмы на Земле. 

И, конечно, есть у алгоритма и чисто практические задачи. Основная — помочь в создании синтетических аналогов белков с заданными свойствами. Прежде всего, это нужно, чтобы выпускать новые эффективные лекарства для лечения болезней, вызванных ошибочным сворачиванием белковых структур: Альцгеймера, Паркинсона, Гентингтона, кистозного фиброза и многих других. 

Также технологию будут использовать для борьбы с загрязнениями: исследователи  уже работают над специальными бактериями для секреции белков. Предполагается, что они сделают отходы (пластик, продукты нефтепереработки) биологически разлагаемыми, а значит, и мусора станет меньше. 

DeepMind — дочерняя компания Google из Лондона, основанная в 2010 году. Она специализируется на искусственном интеллекте, изначально предназначенном для игр (видео и настольных). Так, широкую известность DeepMind принесла система AlphaGo, которая в 2015 году обыграла профессионального игрока в го со счетом 5:0. 

AlphaGo — предшественник AlphaFold, обыграл профессионального игрока в го со счетом 5:0

Но в последние годы очевиден и интерес стартапа к науке. DeepMind активно сотрудничает с Оксфордским университетом, открыл подразделение DeepMind Health (ИИ в медицине), а его алгоритм для прогнозирования количества энергии от ветряных станций за 36 часов повысил их производительность на 20%.