Программа для расчета распределений научных документов с упоминанием биологических объектов из онтологии по годам (ЭНДТаймлайн / ANDTimeline)

Разработчик

ФГБНУ ФИЦ ИЦиГ СО РАН

Авторы

Иванисенко Т.В., Деменков П.С., Иванисенко В.А.

Краткая характеристика

Программа предназначена для автоматического построения временных рядов на основе числа документов с упоминанием молекулярно-генетических объектов из предопределенной онтологии по годам. Расчёт осуществляется с помощью предварительно размеченных текстов на основе словарей.

Программа позволяет осуществлять реконструкцию динамик роста, либо падения интереса со стороны научного сообщества по отношению к каждому объекту из онтологии, на основе числа документов, в которых он упоминался в год за период времени, задаваемый пользователем.

Всего программа ЭНДТаймлайн позволяет генерировать временные ряды для следующих 13 типов объектов из области биологии и биомедицины: клетки, клеточные компоненты, заболевания, лекарства, гены, метаболиты, микроРНК, молекулярные функции, организмы, клеточные пути, фенотипы, белки, и побочные эффекты.

Входными данными для программы выступают тексты реферативных описаний научных статей на английском языке, предварительно размеченные с помощью онтологии из системы ANDDigest (https://anddigest.sysbio.ru). Под онтологией понимается набор словарей, включающих в себя основные имена и наборы синонимов для каждого объекта заданного типа.

В качестве выходных данных программа возвращает числовой вектор, в котором первая ячейка соответствует идентификатору молекулярно-биологической сущности, а остальные содержат число документов с упоминанием рассматриваемой сущности в каждом году из рассматриваемого периода времени.

Области возможного использования

Программа может быть применена для решения широкого круга задач из области наук о жизни связанных с расчётом трендов роста интересуемого объекта, поиска корреляций, проведения аналитических исследований и т.д.

Степень готовности разработки к практическому применению

Программа готова к практическому применению.

Возможный технический и (или) экономический эффект

Генерируемые временные ряды можно рассматривать, как отражение интереса со стороны научного сообщества к заданным объектам и областям исследований. Таким образом, основной экономический эффект от внедрения разработанной программы заключается в возможности выявления потенциально перспективных объектов и направлений, при планировании и проведении научных исследований, анализе литературы, предсказании будущих перспективных направлений.

Сравнительные характеристики с известными разработками

Известными разработками, обладающими схожим функционалом с программой ЭНДТаймлайн являются модули расчёта временных динамик на основе числа публикаций удовлетворяющих запросам пользователей из веб-систем для поиска научных документов PubMed (https://pubmed.ncbi.nlm.nih.gov), Scopus (https://www.scopus.com/), и Web of Science (https://www.webofscience.com/).
При этом следует заметить, что в отличие от модулей вышеозначенных систем, программа ЭНДТаймлайн основана на применении оригинальной онтологии системы ANDDigest (https://anddigest.sysbio.ru).

Защита разработки

Свидетельство о регистрации №2022683394, зарегистрирована в Реестре ПрЭВМ 05.12.2022, бюл. № 12. Номер и дата поступления заявки: 2022682290 от 21.11.2022.