Программа для обучения моделей классификации имён биологических объектов в размеченных текстах (ЭНДТрэин / ANDTrain)

Разработчик

ФГБНУ ФИЦ ИЦиГ СО РАН

Авторы

Иванисенко Т.В., Деменков П.С., Иванисенко В.А.

Краткая характеристика

Программа предназначена для глубокого обучения бинарных классификационных моделей, осуществляющих оценку правильности разметки молекулярно-генетических терминов заданного типа по словарю, на основе контекста в котором они упоминаются в документе.
В качестве входных примеров программой используются тексты абстрактов в каждом из которых молекулярно-генетических термин заданного типа заменён на служебный тэг <andsystem-candidate>.
Обучение осуществляется на основе точной настройки (fine-tuning) предобученной трансформерной модели «BioBERT». Общая длина учитываемого при обучении контекста составляет не более 512 слов, в случае, превышения этого значения программа осуществляет сокращение числа слов, идущих правее от служебного тэга.
Всего программа обеспечивает обучение двоичных классификаторов для десяти типов объектов: заболевание, ген, белок, метаболит, клетка, клеточная компонента, лекарство, молекулярная функция, микро-РНК, клеточный путь.

Области возможного использования

Программа может быть использована в области биологии и биомедицины, а также других областях, связанных с задачами автоматизированной аннотации поименованных сущностей заданного типа в неструктурированных текстах на английском языке, включая полнотекстовые документы и патенты.

Степень готовности разработки к практическому применению

Программа готова к практическому применению.

Возможный технический и (или) экономический эффект

Основной экономический эффект от внедрения разработанной программы заключается в ускоренной аннотации и повышении качества распознавания молекулярно-генетических объектах в текстах. Что является крайне актуально при решении задач, связанных с поиском релевантной литературы и патентов, реконструкции биологических путей, создании золотых стандартов и др.

Сравнительные характеристики с известными разработками

В качестве разработок, аналогичных «ЭНДТрэин», можно рассматривать существующие классификационные модели, направленные на автоматическое распознавание поименованных биологических сущностей в неструктурированных текстах. Например, в системе «STRING» (https://string-db.org/) разработчики использовали точно настроенные модели «BioBERT» для классификации выявленных в текстах имён генов и белков на правильно и неправильно распознанные. Другой разработкой является веб-сервис BERN (https://bern.korea.ac.kr/) использует точно настроенные модели «BioBERT» для распознавания в текстах 7 типов биологических сущностей: генов, белков, организмов, заболеваний, лекарств, метаболитов и мутаций.
В то же время, следует заметить, что программа «ЭНДТрэин» превосходит существующие аналоги по числу рассматриваемых типов объектов.

Защита разработки

Свидетельство о регистрации №2022668791, зарегистрирована в Реестре ПрЭВМ 12.10.2022, бюл. № 10. Номер и дата поступления заявки: 2022667646 от 28.09.2022.