«Программа генерации обучающих выборок для обучения нейронной сети предсказания ассоциативных связей между вершинами графа (ЭНДТрэйнингСет / ANDTrainingSet)»

Разработчик

ФГБНУ ФИЦ ИЦиГ СО РАН

Авторы

Иванисенко Т.В., Деменков П.С., Иванисенко В.А.

Краткая характеристика

Программа предназначена для автоматической генерации обучающих выборок, применяемых для глубокого машинного обучения графовых нейронных сетей, на основе структуры ассоциативной генной сети ANDSystem (https://www-bionet.sscc.ru/andvisio/#!/app/about), служащей в качестве входных данных. Программой осуществляется реформатирование гетерогенного (множество типов вершин) двудольного (множество типов связей) графа ANDSystem в моногенную, однодольную форму. Каждая вершина сети представляется программой в виде числового вектора из нулей и единиц, отражающего пару вершин. Где единицы являются индикаторами типов объектов. Дополнительной ячейкой, программой добавляется в конец вектора значение pvalue, отражающее со-встречаемость пары вершин. Для положительных связей используются фактические значения упоминаний объектов в научной литературе. В случае отрицательных рёбер значения со-встречаемости случайным образом выбираются программой из среди всех фактических. Источником значений выступает база данных ANDDigest (https://anddigest.sysbio.ru/).

Программа позволяет генерировать положительные и отрицательные примеры для обучающих выборок на основе ассоциативной сети передаваемой на вход программе. Результаты работы программы могут быть использованы для глубокого машинного обучения нейронных сетей, осуществляющих векторное представление больших графов. Особенностью векторов, получаемых с помощью подобных нейросетевых моделей, является хранение в сжатом закодированном виде, не только информации о типе вершины и её ближайших связях, но и о топологии сети, включая связи между соседями. Что, в свою очередь, значительно повышает точность классификационных моделей, например, при предсказании вероятности наличия связи между парами вершин.

Области возможного использования

Программа может быть использована в биоинформатике, а также других областях биологии и биомедицины, связанных с задачами анализа больших ассоциативных сетей. В частности, требующих машинного обучения моделей, для предсказания новых рёбер, классификации взаимодействий по их значимости, предсказания типов новых вершин и взаимодействий, на основе исходной сети, и т.д.

Степень готовности разработки к практическому применению

Программа готова к практическому применению.

Возможный технический и (или) экономический эффект

Сокращение времени на предобработку больших гетерогенных графов;

  • решение проблемы, связанной с недостаточной полнотой ассоциативных генных сетей, при их реконструкции на основе методов, основанных на синтактико-лингвистических правилах и шаблонах;
  • возможность проведения векторизации с более полным учётом информации о топологии ассоциативной сети;
  • сокращение временных и денежных затрат на подготовку обучающих данных;
  • повышение точности и эффективности интеллектуальных систем, основанных на анализе ассоциативных сетей с применением машинного обучения, за счет обучения на информации из ассоциативных генных сетей, полученных из масштабного анализа научной литературы.

Сравнительные характеристики с известными разработками

К разработкам, обладающим схожим функционалом, можно отнести программы генерации случайных графов, например, https://gist.github.com/erkal/9746513. При этом их недостатком, в сравнении с разработанной программой, является отсутствие возможности генерировать обучающие выборки, на основе реальных литературных данных, описывающих молекулярно-генетических взаимодействий между сущностями.

Другой отличительной особенностью разработанной программы является использования ассоциативной генной сети «ANDSystem», в сочетании с информацией о со-встречаемости пар объектов из «ANDDigest», а также типах вершин. Это позволяет разработанной программе генерировать обучающие данные с учётом значительно большего набора особенностей о графе, в сравнении с существующими программами для машинного обучения, включая графовые свёрточные сети (https://github.com/tkipf/gcn), «GraphSAGE» (https://github.com/williamleif/graphsage-simple) и другие.

Таким образом, ключевым преимуществом программы является автоматизация процесса быстрой подготовки качественных обучающих данных, с учётом широкого набора особенностей исходной сети, при её переводе в моногенную однодольную форму.

Защита разработки

Свидетельство о госрегистрации № 2023681296, дата регистрации 12.10.2023.