Введение
За последние годы исследования в области протеомики, геномики и различные другие биологические исследования позволили получить все больший объем биологических данных. Чтобы сделать выводы из этих данных, требуется сложный вычислительный анализ для интерпретации данных. Одна из наиболее активных областей определения структуры и принципов наборов биологических данных - это использование интеллектуального анализа данных для решения биологических проблем. Некоторые типичные примеры биологического анализа, выполняемого с помощью интеллектуального анализа данных, включают прогнозирование структуры белков, классификацию генов, анализ мутаций при раке и экспрессии генов. По мере того, как биологические данные и исследования становятся все более обширными, важно, чтобы применение интеллектуального анализа данных прогрессировало, чтобы продолжить развитие активной области исследований в области биоинформатики. Это эссе направлено на сбор информации из различных академических источников, чтобы обсудить обзор интеллектуального анализа данных, биоинформатики, применения интеллектуального анализа данных в биоинформатике и заключительное резюме.

Интеллектуальный анализ данных

Интеллектуальный анализ данных - это метод извлечения информации для использования шаблонов и моделей обучения из больших обширных наборов данных. Сам по себе интеллектуальный анализ данных включает использование машинного обучения, статистики, искусственного интеллекта, наборов баз данных, распознавания образов и визуализации (Li, 2011). Процесс интеллектуального анализа данных, часто называемый обнаружением знаний в базах данных (KDD) или интеллектуальным анализом данных (IDA) (Raza, n.d.), не ограничивается только биоинформатикой и используется во многих различных отраслях для обеспечения интеллектуального анализа данных. Применение моделей интеллектуального анализа данных и машинного обучения может включать в себя различные системы, как отмечают Кононенко и Кукар (2013).

«Системы машинного обучения могут представлять собой правила, функции, отношения, системы уравнений, распределения вероятностей и другие представления знаний».

Этот интеллект или открытие знаний, полученных в результате интеллектуального анализа данных, преследует множество целей, включая такие, как прогнозирование, проверка, диагностика и моделирование (Guillet, 2007). Обычно процесс обнаружения знаний (см. Рисунок 1) через базы данных включает в себя хранение и обработку данных, применение алгоритмов, визуализацию / интерпретацию результатов (Кононенко и Кукар, 2013 г.)

Рисунок 1: Процесс обнаружения знаний с помощью интеллектуального анализа данных

Важно отметить, что процесс интеллектуального анализа данных или KDD включает в себя множество методов, таких как машинное обучение. В результате процесс интеллектуального анализа данных включает в себя множество шагов, которые необходимо повторить и уточнить, чтобы обеспечить точность и решения в рамках анализа данных, а это означает, что в настоящее время нет стандартной основы для выполнения интеллектуального анализа данных.

Рисунок 2: Этапы модели процесса CRISP-DM для интеллектуального анализа данных

Однако CRISP-DM (Межотраслевой стандартный процесс интеллектуального анализа данных) определяет одну стандартную структуру для процесса интеллектуального анализа данных в нескольких отраслях, содержащую этапы, общие задачи, специализированные задачи и экземпляры процессов (Chalaris et al., 2014) (см. фигура 2). Джайн (2012) обсуждает, что основными задачами интеллектуального анализа данных являются:
1. Классификация: относит элемент данных к предопределенному классу
2. Оценка: определение значения для неизвестных непрерывных переменных
3 . Прогноз: записи, классифицируемые в соответствии с предполагаемым будущим поведением
4. Ассоциация: определение элементов, которые вместе
5. Кластеризация: определение совокупности в подгруппы или кластеры
6. Описание и визуализация: представление данных
Обычно этот процесс и определение Data Mining определяют извлечение знаний. Когда мы определяем машинное обучение в интеллектуальном анализе данных, мы используем методы автоматического интеллектуального анализа данных, Кононенко и Кукар (2013) заявляют, что

«Машинное обучение нельзя рассматривать как истинное подмножество интеллектуального анализа данных, поскольку оно также включает в себя другие поля, не используемые для интеллектуального анализа данных»

После этого знания приобретаются за счет использования различных используемых методов машинного обучения, включая: классификацию, регрессию, кластеризацию, изучение ассоциаций, логических отношений и уравнений (Кононенко и Кукар, 2013 г.) (см. Рисунок 3)

Рисунок 3: Методы машинного обучения

Как показано на рисунке 3, машинное обучение можно разделить на модели обучения без учителя или с учителем. Модели обучения без учителя включают в себя алгоритмы интеллектуального анализа данных, идентифицирующие закономерности и структуры в переменных набора данных, то есть кластеризацию (Larose and Larose, 2014). Контролируемое обучение определяет, где указывается или предоставляется переменная, чтобы алгоритмы могли прогнозировать на ее основе, то есть регрессии (Larose and Larose, 2014).

Биоинформатика

Биоинформатика занимается хранением, сбором, моделированием и анализом биологических данных для использования информационных инструментов, таких как интеллектуальный анализ данных. Заки, Карипис и Янг (стр. 1, 2007) обсуждают информатику как науку об обработке биологических данных, включая последовательности, молекулы, экспрессии генов и пути. Кроме того, Фогель, Корн и Пан (2008) определяют биоинформатику как:

«Исследование, разработка или применение вычислительных инструментов и подходов для расширения использования биологических, медицинских, поведенческих данных или данных о здоровье, в том числе для сбора, хранения, организации, архивирования, анализа или визуализации таких данных».

Также важно отметить, что биоинформатика - это также, в широком смысле, исследование самой жизни. Как Tramontano (2007), определяет

«… мы могли бы определить биоинформатику как науку, которая анализирует биологические данные с помощью компьютерных инструментов, чтобы сформулировать гипотезы о процессах, лежащих в основе жизни»

В последние годы развитие технологий как в вычислительной, медицинской, так и в биологической областях позволило разрабатывать и накапливать данные с экстремальной скоростью, и, таким образом, интерпритация этой информации быстро выросла (Ramsden, 2015). Эта в высшей степени междисциплинарная область включает в себя множество различных подполей обучения; Рамсден (2015) указывает, что последовательности ДНК - одна из наиболее широко исследуемых областей анализа в биоинформатике. Как правило, биоинформатические данные часто делятся на три основные категории: данные последовательности, структурные данные и функциональные данные (Tramontano, 2007). Более того, эти данные содержат разные биологические объекты, гены или белки, а это означает, что, хотя расхождение в знаниях является значительной частью биоинформатики, управление данными также является первоочередной задачей (Chen, 2014).

Применение интеллектуального анализа данных в биоинформатике

Как уже говорилось, биоинформатика - это отрасль, в которой все больше и больше данных, и поэтому использование методов интеллектуального анализа данных помогает предлагать упреждающие исследования в конкретных областях биомедицинской промышленности. Кроме того, это позволяет исследователям лучше понять биологические механизмы, чтобы открывать новые методы лечения в сфере здравоохранения и знания о жизни. В последние годы вычислительный процесс открытия прогнозов, закономерностей и определения гипотез на основе биоинформатических исследований значительно расширился (Fogel, Corne and Pan, 2008). Раза (2010) объясняет, что интеллектуальный анализ данных в биоинформатике имеет множество применений, включая «поиск генов , обнаружение функциональных доменов белков, обнаружение функциональных мотивов и вывод функций белков». Банки данных, такие как Protein Data Bank (PDB), содержат миллионы записей различной биоинформатики, например, PDB имеет 12823 позиции каждого атома в известном белке (RCSB Protein Data Bank, 2017). К этим данным применяются методы кластеризации, классификации, ассоциативных правил и тому подобное, которые обсуждались ранее, для прогнозирования выходных данных последовательности и создания гипотезы на основе результатов. Хотя эти результаты могут быть неточными, поскольку для этого потребуется физическая модель, применение интеллектуального анализа данных позволяет получить более быстрый результат.

Заключение

Обширная наука о интеллектуальном анализе данных в области биоинформатики кажется идеальным вариантом из-за постоянно растущего и развивающегося объема биологических данных. Поскольку эта область исследований настолько обширна, очевидно, что атрибуты биологических баз данных создают большое количество проблем. В связи с этими проблемами повышение качества и точности выводов, сделанных на основе интеллектуального анализа данных, становится все более важным. В результате для будущих направлений исследований важно адаптироваться к интеграции новых баз данных биоинформатики, чтобы предоставить больше методов эффективных исследований.

Ссылки

Чаларис, М., Грицалис, С., Марагудакис, М., Сгуропулу, К. и Цолакидис, А. (2014). Повышение
качества образовательных процессов, предоставление новых знаний с помощью методов интеллектуального анализа данных - ScienceDirect. [онлайн] Доступно по адресу: http://www.sciencedirect.com/science/article/pii/S1877042814040282 [дата обращения 15 марта 2017 г.].

Чен, Ю. (2014). Биоинформатические технологии. 1-е изд. Берлин: Springer Berlin.

Фогель, Г., Корн, Д. и Пан, Ю. (2008). Вычислительный интеллект в биоинформатике. 1-е изд. Серия IEE Press по вычислительному интеллекту.

Гийе, Ф. (2007). Меры качества в интеллектуальном анализе данных. 1-е изд. Берлин: Springer.

Джайн, Р. (2012). Введение в методы интеллектуального анализа данных.

Кононенко И., Кукар М. (2013). Машинное обучение и интеллектуальный анализ данных. 1-е изд. Оксфорд [u.a.]: Woodhead Publ.

Лароз, Д. и Лароз, К. (2014). Обнаружение знаний в данных: введение в интеллектуальный анализ данных. 1-е изд.

Ли, X. (2011). Биологический анализ данных и его приложения в здравоохранении. 1-е изд. Всемирная научная издательская компания.

Лловет, Дж. (2016). Справочник по трансляционной медицине. 1-е изд. Edicions Universitat Barcelona.

Рамсден, Дж. (2015). Биоинформатика: Введение. 1-е изд. Springer.

Раза, К. (2010). Применение интеллектуального анализа данных в биоинформатике. [онлайн] Доступно по адресу: http://www.ijcse.com/docs/IJCSE10-01-02-18.pdf [Доступно 8 марта 2017 г.].

RCSB Protein Data Bank. (2017). Банк данных о белках: Статистика. [онлайн] Доступно по адресу: http://www.rcsb.org/pdb/statistics/ [Доступно 21 марта 2017 г.].

Трамонтано, А. (2007). Введение в биоинформатику. 1-е изд. Лондон: Chapman & Hall / CRC.

Заки, М., Карипис, Г. и Янг, Дж. (2007). Интеллектуальный анализ данных в биоинформатике (БИОКДД). [онлайн] Доступно по адресу: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1852315/ [доступ 8 марта 2017 г.].