«База данных дифференциально экспрессирующихся генов арабидопсиса в ответ на избыточную освещенность (AraLightDEGs)»

Разработчик

ФГБНУ ФИЦ ИЦиГ СО РАН

Авторы

Бобровских А. В., Зубаирова У. С., Дорошков А. В.

Краткая характеристика

База данных AraLightDEGs представляет собой платформу для хранения и анализа информации о дифференциально экспрессирующихся генах (ДЭГ) модельного растения Arabidopsis thaliana в ответ на избыточную освещенность. Данные были получены в результате систематического поиска, отбора и биоинформатической обработки 21 транскриптомного эксперимента, опубликованных в репозиториях NCBI (GEO, SRA, BioProject). Все данные прошли строгую проверку на соответствие критериям отбора, включая генотип Columbia (Col-0), фотосинтетические ткани и условия освещенности (контроль: 50–150 мкмольм⁻²с⁻¹; стресс: ≥ 500 мкмоль м⁻²с⁻¹) и контроль качества.

Обработка данных включала выравнивание прочтений на референсный геном, контроль качества, подсчет экспрессии и идентификацию ДЭГ с использованием современных биоинформатических инструментов (HISAT2, RNA-SeQC, featureCounts, edgeR). В результате было идентифицировано 218 335 ДЭГ, соответствующих 19 723 уникальным генам.

БД реализована с использованием СУБД MariaDB, её структура представлена на Рисунке 1. Пользовательский интерфейс БД, реализованный с использованием современных технологий (HTML5, CSS3, JavaScript, Flask), предоставляет удобный доступ к данным через веб-ресурсы ИЦиГ СО РАН (https://www.sysbio.ru/aralightdegs/). Разработанная БД позволяет регулярно обновлять её содержимое по мере поступления новых данных из публичных репозиториев (таких как NCBI GEO, SRA и BioProject) или результатов собственных исследований. Это обеспечивает актуальность и расширяемость БД, делая её удобным инструментом для долгосрочного использования в научных исследованиях.

Рисунок 1. Структура базы данных дифференциально экспрессирующихся генов арабидопсиса в ответ на избыточную освещенность (AraLightDEGs)

Общая информация о базе знаний и доступных в ней экспериментальных данных размещена на вкладке «About» (https://www.sysbio.ru/aralightdegs/about); вкладка «Search» (https://www.sysbio.ru/aralightdegs/search) реализует основной функционал пользовательского интерфейса поиска информации в базе данных с использованием различных фильтров по экспериментальным условиям (времени и интенсивности избыточной освещенности, возраста растений, тканей растений) и фильтрам по ДЭГ (частота идентификации, средняя экспрессия по всей выборке экспериментов) и позволяет загружать полученные пользователями результаты в табличном формате; вкладка «Download» (https://www.sysbio.ru/aralightdegs/download) позволяет пользователям осуществлять загрузку списков ДЭГ по всем экспериментальным условиям (58 таблиц), матриц экспрессии по всем экспериментам (21 таблица), а также расширенные описания информации о представленных экспериментах в табличном формате.

Основной формат выдачи в базе знаний AraLightDEGs на поисковой вкладке «Search» — табличный; таблица динамически генерируется во время SQL-запроса от пользователя при нажатии одной из двух кнопок быстрого поиска «Quick search for short response DEGs»/«Quick search for medium and long response DEGs» с предустановленными параметрами поиска, либо при нажатии основной кнопки поиска «Search in AraLightDEGs»; выдача табличной информации зависит от выбранных пользователем фильтров. Фрагмент таблицы выдачи из базы знаний AraLightDEGs представлен на Рисунке 2 ниже.

Рисунок 2. Фрагмент таблицы выдачи базы знаний AraLightDEGs, в которой представлены данные о ДЭГ модельного растения Arabidopsis thaliana в ответ на избыточную освещенность.

В частности, внизу поисковой страницы приводится таблица выдачи, с подразбиением на подстраницы в случае длинного вывода (1000 строк на одну подстраницу; кнопка «Subpage» позволяет их переключать). В веб-версии таблицы выдачи есть следующая информация в 11 колонках:

  1. Идентификаторы ДЭГ («Gene ID»), позволяющие их однозначно идентифицировать;
  2. Краткое функциональное описания ДЭГ («Gene Description»);
  3. Указание о семействе транскрипционных факторов, к которому относится ДЭГ, если относится («Transcription factor family»);
  4. Частота, с которой ДЭГ идентифицируется как повышающий свою экспрессию «Frequency of upregulation»;
  5. Частота, с которой ген идентифицируется как понижающий свою экспрессию («Frequency of downregulation»);
  6. Общая частота идентификации ДЭГ («Total frequency»);
  7. Среднее значение log2FoldChange для случаев, когда ген повышает свою экспрессию («Average upregulated log2FoldChange»);
  8. Среднее значение log2FoldChange для случаев, когда ген понижает свою экспрессию («Average downregulated log2FoldChange»);
  9. Средняя интенсивность света (микромоль * метр⁻² * секунду⁻¹), при которой наблюдались изменения экспрессии гена («Average light intensity (PPFD)»);
  10. Среднее время воздействия избыточной освещенности (в минутах), при котором наблюдались изменения экспрессии гена («Average time (minutes)»);
  11. Средний уровень экспрессии гена в логарифмической шкале (log2 counts per million, «Average expression (log2CPM)»).

Также доступна кнопка загрузки полной версии таблицы при нажатии кнопки «Download the results». Загрузка ряда колонок является опциональной и может быть включена по желанию пользователя, секция («Include in the downloadable results table»): «Gene description» — описано выше; «Transcription factor family» — описано выше; «Gene Ontology terms list» — список терминов Gene Ontology, описывающих биологические процессы, молекулярные функции и клеточные компоненты, связанные с ДЭГ; «List of experimental conditions with upregulation» — список экспериментальных условий, при которых ген повышает свою экспрессию; «List of experimental conditions with downregulation» — список экспериментальных условий, при которых ген понижает свою экспрессию; «List of log2FoldChange values of experimental conditions with upregulation» — список значений экспрессии в log2FoldChange для случаев повышения экспрессии гена в различных условиях; «List of log2FoldChange values of experimental conditions with downregulation» — список значений экспрессии в log2FoldChange для случаев понижения экспрессии гена в различных условиях.

Области возможного использования

База данных AraLightDEGs может быть использована в следующих областях:

  1. Генетика растений: изучение молекулярных механизмов ответа на избыточную освещенность;
  2. Молекулярная биология: идентификация ключевых регуляторов в генных сетях стрессового ответа растений;
  3. Биотехнология: разработка генетически модифицированных растений с повышенной устойчивостью к избыточной освещенности.
  4. Селекция растений: создание новых сортов, устойчивых к избыточной освещенности;

5. Системная биология и биоинформатика: моделирование стрессового ответа растений на транскриптомном уровне.

Степень готовности разработки к практическому применению

База данных AraLightDEGs полностью готова к практическому применению и уже используется в научно-исследовательской деятельности ИЦиГ СО РАН.

Возможный технический и (или) экономический эффект

Технический эффект использования базы данных AraLightDEGs заключается в предоставлении исследователям готовой платформы для анализа данных, что значительно ускоряет процесс изучения стрессового ответа растений. Возможный экономический эффект выражается в снижении затрат на проведение экспериментов за счет использования систематизированных данных и приоритизации генов для дальнейших исследований, что, в свою очередь, может ускорить разработки новых подходов в агробиологии и биотехнологии растений и ускоренному созданию устойчивых к световому стрессу сортов.

Сравнительные характеристики с известными разработками

База данных AraLightDEGs является разработкой, не имеющей прямых аналогов. В отличие от существующих баз данных, она предоставляет курируемую информацию о дифференциально экспрессирующихся генах Arabidopsis thaliana в ответ на избыточную освещенность, включая детальные метаданные экспериментов и удобный интерфейс для поиска и анализа.

Защита разработки

Свидетельство о регистрации №2025622410 зарегистрирована в Реестре баз данных 03.06.2025 г., Бюл. №6, дата поступления заявки: 2025621938 19.05.2025