Разработчик
ФГБНУ ФИЦ ИЦиГ СО РАН
Авторы
Вензель А.С., Деменков П.С., Иванисенко Т.В., Иванисенко В.А.
Краткая характеристика
Программа предназначена для предсказания количества белка в миллионных долях в клетках дрожжей Saccharomyces cerevisiae по последовательностям белка и регуляторной области гена, кодирующего этот белок. Программа получает на вход аминокислотную последовательность белка и нуклеотидную последовательность регуляторного участка длиной 1000 пар оснований перед старт-кодоном гена, кодирующего данный белок. Входные последовательности преобразуются в вектора с помощью предобученных языковых моделей: ESM2 с 650 миллионами параметров для аминокислотных последовательностей и GENA-LM с 110 миллионами параметров для нуклеотидных последовательностей. На основе полученных векторов с помощью нейросетевой модели с архитектурой многослойного перцептрона предсказывается количество белка в клетках дрожжей Saccharomyces cerevisiae.
Области возможного использования
Программа может быть использована для прогнозирования уровня белков в бактериях в рамках задач биотехнологии и оптимизации процессов биосинтеза.
Степень готовности разработки к практическому применению
Программа готова к практическому применению.
Возможный технический и (или) экономический эффект
С помощью программы можно проводить рациональный компьютерный дизайн штаммов-продуцентов с повышенной экспрессией целевых наборов белков, предсказывая количество белка в дрожжах с заданными последовательностями.
Сравнительные характеристики с известными разработками
В существующих методах необходим предварительный анализ данных и извлечение признаков из последовательностей. В программе последовательности, подаваемые на вход, не подвергаются к предобработке.
Защита разработки
Свидетельство о госрегистрации № 2024686206, дата регистрации 06.11.2024, Бюл. № 11. Номер и дата поступления заявки: 2024684522 .21.10.2024