База данных ансамбля деревьев для прогнозирования семейной гиперхолестеринемии на основе машинного обучения и секвенирования нового поколения (АДПСГ)

Разработчик

ФГБНУ ФИЦ ИЦиГ СО РАН

Авторы

Колкер А.Б., Шахтшнейдер Е.В., Иванощук Д.Е., Тимощенко О.В., Рагино Ю.И.

Краткая характеристика

База данных ансамбля решающих деревьев предназначена для прогнозирования семейной гиперхолестеринемии на основе методов машинного обучения и предназначена для работы в наборах данных. Решающие правила сохранены в виде представления данных языка разметки для прогнозного моделирования (Predictive Model Markup Language— PMML). Ансамбли деревьев построены на основе размеченной базы данных пациентов с семейной гиперхолестеринемией (RU 2017620408, 07.04.2017) и не размеченной базы данных биохимии крови с учетом кросс-пересечения параметров. Обход деревьев можно организовать при помощи любого инструмента, поддерживающего технологию PMML, например, пакета pypmml языка Питон. База данных состоит из двух ансамблевых наборов: 100 деревьев в каталоге ./restrees c именами от 1 до 100 — деревья, построенные по лабораторно подтверждённым данным с использованием технологии Bootstrap aggregating (Бэггинг), и 100 деревьев в каталоге ./restrees_ex , построенных по частично размеченной комбинированной выборке.

Области возможного использования

База данных (БД) может быть использована в клинической практике, а именно в кардиологии и липидологии.

Степень готовности разработки к практическому применению

База данных готова к практическому применению.

Возможный технический и (или) экономический эффект

База данных имеет прикладную диагностическую значимость для прогнозирования риска развития семейной гиперхолестеринемии. Экономический эффект от использования базы данных заключается в снижении материальных затрат на лечение семейной гиперхолестеринемии.

Сравнительные характеристики с известными разработками

БД содержит уникальную информацию по уровнях биохимических показателей у лиц с семейной гиперхолестеринемией. В БД представлены данные о глюкозе, липидном профиле, возрасте, поле, индексе массы тела, семейном анамнезе (инсульт у родителей, братьев, сестёр до 60 лет), DCLN – lite, отношении HDL/LDL, а также параметров для расчета DCLN_LITE.

Защита разработки

Свидетельство о регистрации № 2022623708, зарегистрирована в Реестре баз данных 27.12.2022.