Программа генерации обучающих выборок для машинного обучения моделей классификации имён биологических объектов в неструктурированных текстах (ЭНДГен/ANDGen)

Разработчик

ФГБНУ ФИЦ ИЦиГ СО РАН

Авторы

Иванисенко Т.В., Деменков П.С., Иванисенко В.А.

Краткая характеристика

Программа предназначена для автоматической генерации обучающих выборок, необходимых для тренировки классификационных моделей методами глубокого машинного обучения. Программа осуществляет конвертацию названий биологических объектах, длинною 15 символов и более, из предварительно размеченных по словарю неструктурированных текстов на английском языке в обучающие выборки. Данные выборки используются для проведение глубокого машинного обучения трансформерных моделей путём их точной настройки (fine-tuning). Генерируемые программой выборки позволяют обучать модели, осуществляющие высокоточную классификацию распознанных с помощью словаря имён на соответствующие заданному биологическому типу (белок, ген, метаболит, заболевание и др.), либо не соответствующие ему, руководствуясь исключительно контекстом, в котором термин упоминается. Программа генерирует корпусы обучающих примеров для следующих типов объектов: организм, клетка, заболевание, ген, белок, лекарство, метаболит, молекулярная функция, микро-РНК, клеточный путь, клеточная компонента, а также побочный эффект.

Области возможного использования

Программа может быть использована в биоинформатике, а также других областях биологии и биомедицины, связанных с задачами высокоточного распознавания поименованных сущностей в неструктурированных текстах на естественном языке.

Степень готовности разработки к практическому применению

Программа готова к практическому применению.

Возможный технический и (или) экономический эффект

Основной экономический эффект от внедрения разработанной программы заключается в ускоренном создании высококачественных обучающих выборок, и, как следствие, значительном повышении точности распознавания коротких поименованных сущностей в текстах в сравнении с традиционными методами анализа текстов, такими как распознавание по словарю. Данная функция крайне важна при осуществлении поиска документов, реконструкции генных сетей, биологических путей и др.

Сравнительные характеристики с известными разработками

В качестве разработок, аналогичных ЭНДГен, можно рассматривать существующие корпусы размеченных текстов из области биологии и биомедицины, которые могут быть использованы в качестве обучающих выборок. Так NLM-Gene (ftp://ftp.ncbi.nlm.nih.gov/pub/lu/NLMGene) является корпусом текстов, содержащим размеченные имена генов для различных организмов, разработанным Национальной Библиотекой Медицины США (NLM). Всего в NLM-Gene содержится 550 рефератов PubMed из 156 биомедицинских изданий, размеченных посредствам двойной аннотации шестью экспертами из NLM. Корпус CHEMDNER (http://www.biocreative.org/resources/biocreative-iv/chemdner-corpus/) включает в себя 10,000 абстрактов PubMed, суммарно содержащих упоминания 84,355 химических объектов, размеченных вручную экспертами в области химии. Другим хорошо известным золотым стандартом является корпус GENIA (http://www.geniaproject.org/), содержащий около 2000 аннотированных вручную абстрактов, с размеченными именами генов, ДНК, РНК, клеточных линий и типов клеток.
В то же время главными недостатками данных разработок является небольшое количество учитываемых типов молекулярно-генетических объектов, малое число размеченных документов, а также высокая трудоёмкость при разработке таких обучающих выборок для их использования с целью эффективного машинного обучения. Кроме того, создание таким образом корпусов, обладает крайне высокой трудоёмкостью и времязатратностью на их подготовку, вызванными большими объемами экспертного анализа литературы. В свою очередь ЭНДГен позволяет автоматически генерировать обучающие выборки, включающие в себя десятки миллионов обучающих примеров с высокой точностью разметки, а также для большого числа типов объектов. При использование словарей только длинных имён молекулярно-биологических объектов из системы ANDDigest (https://anddigest.sysbio.ru/), позволяет избежать влияния ошибок, связанных с лингвистической неоднозначностью, обеспечивая высокую точность генерируемых примеров.

Защита разработки

Свидетельство о регистрации №2022668790, зарегистрирована в Реестре ПрЭВМ 12.10.2022, бюл. № 10. Номер и дата поступления заявки: 2022667647 от 28.09.2022.