«Программа обучения графовой нейронной сети для предсказания ассоциативных связей между вершинами графа (ЭНДИнтерКоммон / ANDInterCommon)»

Разработчик

ФГБНУ ФИЦ ИЦиГ СО РАН

Авторы

Иванисенко Т.В., Деменков П.С., Иванисенко В.А.

Краткая характеристика

Разработанная программа предназначена для глубокого машинного обучения моделей предсказания рёбер графа на основе векторного представления топологии исходной сети. В качестве исходных данных программой используется структура ассоциативной сети, приведенная к моногенному (один тип вершин), однодольному (каждая пара вершин может иметь не более одного ребра) виду. Дополнительным источником информации выступает список числовых значений со-встречаемости пар вершин в научной литературе, например, в случае сети ANDSystem, взятый из БД системы ANDDigest (https://anddigest.sysbio.ru).

Программа позволяет проводить глубокое обучение моделей для векторизации (эмбеддинга) вершин больших графов, а также обучать классификационные модели для предсказания вероятности наличия связи между парами вершин на основе таких векторов. Программа позволяет проводить обучение на больших графах, размер которых достигает сотен тысяч вершин и миллионов связей, за небольшое время и не требует избыточных вычислительных ресурсов.

В качестве выходных данных программа возвращает две весовые матрицы, где первая соответствует свёрточной модели векторизации вершин, а вторая бинарной классификационной модели на основе многослойного перцептрона для предсказания взаимодействий. Дополнительно программа возвращает файл с числовыми векторными представлениями каждой из вершин графа, который может быть использован в качестве обучения для других моделей.

Области возможного использования

Программа может быть использована для:

— предсказания новых взаимодействий и свойств вершин в больших биологических сетях, с целью генерации гипотез для их дальнейшей экспериментальной проверки;

— восстановления неполных биологических сетей и процессов;

— поиска новых лекарственных мишеней и биомаркеров на основе анализа больших сетей взаимодействий.

— анализа метаболических и сигнальных путей — выявление ключевых и слабых звеньев;

— дизайна виртуальных клеточных моделей и новых штаммов микроорганизмов.

Степень готовности разработки к практическому применению

Программа готова к практическому применению.

Возможный технический и (или) экономический эффект

Сокращение времени и стоимости экспериментальной верификации гипотез о новых молекулярно-генетических взаимодействиях.

Повышение полноты и качества реконструированных биологических сетей.

Ускорение процесса разработки новых лекарственных препаратов, а также конструирования штаммов промышленно-значимых микроорганизмов.

Снижение затрат на моделирование сложных биологических процессов.

Сравнительные характеристики с известными разработками

Известными разработками, обладающими схожим функционалом с программой ЭНДИнтерКоммон являются методы предсказания взаимодействий на основе машинного обучения, такие как Node2Vec (https://github.com/aditya-grover/node2vec), DeepWalk (https://github.com/phanein/deepwalk), GraphSAGE (https://github.com/williamleif/graphsage-simple), и Graph Convolutional Networks (https://github.com/tkipf/gcn).

При этом, в виду, интегрированного подхода, на основе графовых нейронных сетей и со-встречаемости объектов, разработанная программа превосходит известные аналоги по точности предсказания взаимодействий в больших графах (сотни тысяч вершин).

Защита разработки

Свидетельство о госрегистрации № 2023681228, дата регистрации 11.10.2023.