Передовая модель химического языка для прогнозирования доступности синтеза соединений

автор Элеонора Ример 12.11.23 22:02

Автор Сонал Кент(перевод Элеонора Ример)

Благодаря новым достижениям в области искусственного интеллекта, использование вычислительных инструментов для создания новых молекул получило широкое распространение. Однако при этом возникает ряд проблем, связанных с молекулами, полученными с помощью вычислительных средств, а именно: насколько легко их синтезировать - эта характеристика называется синтетической доступностью соединения. Вычислительные возможности генерации новых молекул в основном используются в области автоматизированного проектирования лекарственных средств и, более конкретно, в области проектирования лекарственных средств с помощью искусственного интеллекта. Это позволяет значительно сократить время создания новых соединений и существенно снизить затраты. CADD осуществляется с помощью многих методов, одним из которых является фрагментный дизайн лекарств. Используя в качестве мишени определенную структуру, этот метод предполагает проведение виртуального скрининга на библиотеке молекулярных фрагментов для получения фрагментов лигандов, после чего проводится несколько раундов оптимизации и модификации в соответствии с требуемыми параметрами для получения желаемого соединения. Однако некоторые соединения, полученные таким способом, могут быть сложны в синтезе, что делает их слишком дорогостоящими для промышленного производства.

Машинное обучение может стать подходящим решением такой проблемы, поскольку при соответствующем обучении модель глубокого обучения должна быть способна определить, какие молекулы являются жизнеспособными с точки зрения синтезируемости. Для этого созданы различные инструменты, такие как SAscore, SCScore и RAscore, которые используют исторические данные из множества наборов данных для оценки синтетической доступности соединений по шкале от 1 до 10.

Для оценки этой характеристики была предложена новая модель, использующая модель химического языка. DeepSA обладает большей точностью, чем другие модели, при дифференциации соединений, которые легко или трудно синтезировать. По сравнению с другими моделями, выполняющими ту же функцию, способность DeepSA определять синтетическую доступность соединений оказалась выше и в большей степени соответствует результатам лабораторных испытаний.

Для обучения DeepSA использовались те же наборы данных, что и для обучения предыдущих моделей, чтобы убедиться в том, что превосходство в производительности связано с методикой, а не с различиями в наборах данных. В обучающих наборах присутствовало более 800 000 различных молекул, синтетическая доступность которых оценивалась с помощью Retro* - многошагового алгоритма планирования ретросинтеза. Retro* - это нейронный алгоритм, позволяющий находить простые синтетические маршруты для целевых соединений. В качестве входных данных для алгоритма использовались SMILES молекулы, чтобы определить конечное число шагов, необходимых для ее синтеза. Если число шагов было меньше 10, то молекула классифицировалась как легко синтезируемая.

После этого было использовано еще 650 тыс. молекул с использованием различных SMILES-представлений для добавления более сложных операций выборки к предоставленному набору данных. Тестовые наборы, использованные для независимой оценки эффективности моделей, были взяты из трех независимых исследований. Для оценки эффективности моделей использовались такие статистические показатели, как точность, прецизионность и F-score.

DeepSA состоит из трех различных модулей: первого - модуля обработки данных, второго - модуля встраивания признаков и последнего - модуля декодера. Исходные SMILES, приведенные в наборе данных, были преобразованы в канонический SMILES, после чего набор данных был расширен за счет введения альтернативных форматов SMILES. Для кодирования составных структур использовался токенайзер, а базовые атомарные структуры, используемые на входе, рассматривались как отдельные «слова» для построения связных предсказаний. Для получения конечного продукта использовались сетевые архитектуры моделей естественного языка и моделей химических языков. Архитектуры моделей были оптимизированы на модифицированном наборе данных таким образом, чтобы он был пригоден для решения задачи определения синтетической доступности.

Для дальнейшей валидации была проведена оценка эффективности модели для 18 соединений и сравнение с ранее опубликованными синтетическими путями. Эти соединения отсутствовали в обучающих наборах. Модель успешно предсказала синтетическую доступность всех соединений. Модель также была размещена в Интернете для исследователей, что позволило расширить доступ к программному обеспечению.

Развитие методов машинного обучения для обработки естественного языка привело к созданию различных моделей естественного языка. Эти модели способны обрабатывать белковые последовательности так же, как и естественные языки. Было замечено, что последовательности SMILES, представляющие собой различные соединения, по своей структуре схожи с естественным языком, что позволяет использовать эти фреймворки с небольшими изменениями. Наличие простых символов, которые в совокупности создают большой словарный запас, а также создание сложных последовательностей с помощью простых правил - это то, что объединяет последовательности SMILES и естественные языки.

Таким образом, стратегии обучения, аналогичные тем, которые используются для моделей естественного языка, могут быть применены и для расшифровки химического языка. При длительном обучении модель может быть настроена на выявление закономерностей и тенденций в этих языках и использовать их для формирования выводов о новых входных данных. Хотя в этом случае возможности модели ограничиваются разнообразием данных, на которых она обучается, это позволяет добиться высокой согласованности и точности результатов, получаемых за гораздо более короткие промежутки времени. Это делает их весьма полезными для исследовательских целей, где бюджеты и ресурсы зачастую ограничены, и может способствовать широкому распространению компьютерного проектирования лекарственных средств.

Передовая модель химического языка для прогнозирования доступности синтеза соединений JmucjRxE5dY