Программа оценки точности разметки коротких имён биологических объектов в неструктурированных текстах на английском языке (ЭНДПред / ANDPred)

Разработчик

ФГБНУ ФИЦ ИЦиГ СО РАН

Авторы

Иванисенко Т.В., Деменков П.С., Иванисенко В.А.

Краткая характеристика

Программа предназначена для автоматической оценки соответствия названий биологических объектов длинною 5 символов и менее, размеченных по словарю, их типам. Оценка осуществляется программой на основе использования трансформерных моделей глубокого машинного обучения, настроенных на классификацию имён биологических объектов по их типам, в соответствие с тем контекстом, в котором они упоминаются. Программа позволяет осуществлять анализ текстов с предварительно размеченными в них биологическими объектами одного из заданных типов, на основе словарей в любых текстах на английском языке, включая, научную литературу, патенты, электронные медицинские карточки, а также другие источники. Всего программой «ЭНДПред» поддерживается 12 типов молекулярно-генетических объектов: клетка, заболевание, ген, белок, лекарство, метаболит, молекулярная функция, микро-РНК, клеточный путь, клеточная компонента, а также побочный эффект. В качестве входных данных программа использует тексты на английском языке, в которых проверяемый объект заменяется на специальный тэг <andsystem-candidate>. Такой подход позволяет программе осуществлять оценку, руководствуясь исключительно информацией об окружении объекта (его контексте). В качестве выходных данных программа возвращает числовое значение, являющееся вероятностью соответствия рассматриваемого объекта заданному типу, или нескольким типам одновременно. Например, заболевание и побочный эффект.

Области возможного использования

Программа может быть применена в любых областях наук о жизни, связанных с задачами повышения точности распознавания поименованных биологических сущностей заданных типов, в предварительно размеченных текстах на естественном языке.

Степень готовности разработки к практическому применению

Программа готова к практическому применению.

Возможный технический и (или) экономический эффект

Основной экономический эффект от внедрения разработанной программы заключается в повышении точности распознавания молекулярно-биологических сущностей в текстах, и снижении ошибки, связанной с лингвистической неопределенностью, за счёт анализа только коротких имён объектов. В частности, повышение точности распознавания ведёт к более качественному установлению новых, ранее неизвестных взаимодействий, между молекулярно-генетическими объектами, посредствам оценки их со-встречаемости. Данный момент играет особое значение при решении задач связанных с поиском новых лекарственных мишеней, разработке новых способов терапии заболеваний, исследовании молекулярно-генетических механизмов, протекающих внутри организмов и т. д.

Сравнительные характеристики с известными разработками

Наиболее близким аналогом по функционалу с программой «ЭНДПред» является модуль классификации генов и белков в размеченных текстах веб-ориентированной системы «STRING» (https://string-db.org/). Реализованный в системе модуль выполняет аналогичную функцию, классифицируя имена генов и белков, в размеченных текстах, на правильные и ошибочные. Система распознавания имён заболеваний и лекарств, включая побочные эффекты от их применения (https://github.com/MaastrichtU-IDS/prodigy-drug-indication-annotation), является другим примеров системы, обладающей похожим функционалом. Онлайн ресурс «Polysearch 2.0» (http://polysearch.ca) позволяет осуществлять в текстах идентификацию биомедицинских сущностей, таких как заболевания человека, гены, белки, метаболиты, токсины, метаболические пути, лекарства и др. При этом, для разметки данный ресурс не использует контекстный анализ окружения сущности. Более того, ни один из вышеприведенных аналогов, не позволяет анализировать все те типы объекты, которые поддерживаются программой «ЭНДПред». Одновременно с этим, программа «ЭНДПред» проверяет только короткие имёна длинною 5 и менее символов. На данный диапазон приходится подавляющая часть ошибок, связанных с пересечением названий объектов с разного рода общеупотребительными словами, аббревиатурами и одноименными объектами других типов. Это позволяет программе «ЭНДПред» обрабатывать большие объёмы текстов за значительно меньшее время и при меньших вычислительных ресурсах, чем это требуется существующим аналогам, практически без потери в точности.

Защита разработки

Свидетельство о регистрации №2022668741, зарегистрирована в Реестре ПрЭВМ 11.10.2022, бюл. № 10. Номер и дата поступления заявки: 2022667645 от 28.09.2022.