Программный комплекс для управления веб-ресурсом автоматической генерации дайджестов научных публикаций в области биологии (ЭНДДайджест/ANDDigest)

Патентообладатель: ФГБНУ «ФИЦ ИЦиГ СО РАН»

Авторы:

Иванисенко Т.В., Деменков П.С., Иванисенко В.А.

Краткая характеристика:

Разработанный программный комплекс состоит из нескольких модулей и предназначен для генерации кратких обзоров в заданной предметной области (дайджестов) на основе предопределенной онтологии и ключевых слов. Модули объединены в единый конвейер, состоящий из ядра, контролирующего передачу данных между клиентом и сервером, и их пошаговую обработку; модулей генерации и выполнения запросов к базе данных веб-ресурса; программ предобработки результатов, включая синтаксико-лингвистический анализ; модуля разметки биологических сущностей в результирующих текстах и генерации ассоциативных сетей; модуля расчета трендов, соответствующих динамикам интереса к размеченным объектам со стороны научного сообщества.

Области возможного использования:

Программный комплекс может быть использован в генетике, биоинформатике, а также других областях биологии.

Степень готовности разработки к практическому применению:

Программный комплекс готов к практическому применению.

Возможный технический и (или) экономический эффект

Основной экономический эффект от внедрения разработанного программного комплекса заключается в ускорении и частичной автоматизации процесса интерпретации экспериментальных генетических данных, поиска ассоциаций между молекулярно-генетическими объектами, а также подготовки научно-аналитических отчетов, обзоров литературы в различных областях наук о жизни.

Сравнительные характеристики с известными разработками

В качестве примеров систем, обладающих частичной схожестью функционала с разработанным программным комплексом, можно привести известные поисковые системы научной литературы, такие как Google Scholar (https://scholar.google.com), Web of Knowledge (https://www.webofknowledge.com), PubMed (https://pubmed.ncbi.nlm.nih.gov), а также Scopus (https://www.scopus.com). Данные поисковики обладают высокой эффективностью при поиске документов, но, в отличие от ANDDigest, не осуществляют автоматическую разметку биологических сущностей и экстракцию знаний о них, включая их автоматическую связь с различными внешними базами данных, установление синонимов и взаимодействий между парами распознанных объектов в текстах найденных документов.
В качестве другой группы аналогичных программ можно выделить компьютерные инструменты, обеспечивающие полный цикл инженерии знаний, включающий в себя экстракцию биологических объектов на основе онтологических описаний, уникальных для каждого инструмента, установления взаимосвязей между ними, размещения информации в базе знаний, а также их графического представления конечному пользователю в форме ассоциативных сетей. Наиболее известными представителями данной группы являются STRING (https://string-db.org), Pathway Studio (https://www.pathwaystudio.com), MetaCore (https://portal.genego.com), а также, разработанная в ИЦиГ СО РАН, система ANDSystem (https://www-bionet.sscc.ru/and/cell). В то же время, данные системы не обеспечивают генерацию дайджестов, кроме того, каждая из них основана на собственном уникальном онтологическом описании предметной области, существенно различающихся между собой типами используемых объектов, способами установления взаимодействий между ними, а также полнотой используемых словарей. Несмотря на то, что ANDDigest использует онтологию ANDSystem, отличие от последней также заключается в используемом методе установления взаимодействий между объектами. ANDDigest основана на методе со-встречаемостей в то время, как выявление информации о взаимодействиях в ANDSystem происходит на основе семантических правил и шаблонов. Кроме того, ни один из указанных аналогов данной группы не позволяет выполнять поиск информации на основе комбинированных запросов, сочетающих объекты из онтологии и уточняющие ключевые слова, вводимые пользователями вручную.

Патентная защита разработки: Свидетельство о регистрации № 2020660515, зарегистрирована в Реестре ПрЭВМ 04.09.2020, дата поступления заявки: 16.06.2020.