Рак легких является одной из ведущих причин смерти во всем мире. При ранней диагностике можно назначить лечение и добиться успешных результатов; однако часто людям диагностируют слишком поздно, что приводит к осложнениям или летальному исходу. Чтобы решить эту проблему, я использовал модель машинного обучения, которая использует данные из истории болезни, демографические данные пациентов и биологические профили, такие как воздействие загрязнения воздуха, употребление алкоголя, аллергия на пыль и профессиональные вредности, чтобы определить, может ли кто-то заболеть раком легких в чтобы включить более ранние диагнозы.

Модель машинного языка (ML) — это компьютерная программа, которая используется для автоматической интерпретации информации и создания прогнозов на основе входных данных. В последние годы модели машинного обучения привлекли к себе значительное внимание, особенно в связи с их потенциальными приложениями в области медицины. Модели машинного обучения предлагают большие преимущества для прогнозирования случаев рака легких, в том числе более быструю диагностику благодаря своевременным выводам, полученным в результате обширного поиска в базе данных, а также связанные аналитические возможности, которые способствуют повышению качества медицинской помощи, специально разработанной в соответствии с индивидуальными потребностями.

Методологии науки о данных определяют процедуры для поиска решений конкретных проблем. Это циклический процесс, требующий значительных действий, которые побуждают бизнес-аналитиков и специалистов по обработке и анализу данных действовать соответствующим образом. Для поддержания порядка были разработаны различные обзоры и методы, которые помогут как новичкам, так и опытным специалистам по данным организовать и структурировать свою работу. Я использовал стандартный процесс интеллектуального анализа данных, также известный как CRISP-DM. Он считается одним из самых популярных методов, используемых и по сей день. Методология разделена на шесть разделов и является итеративной. Это означает, что вы можете повторять шаги столько раз, сколько вам нужно, пока не достигнете своей цели. Этапы:

  • понимание бизнеса
  • Понимание данных
  • Подготовка данных
  • Моделирование
  • Оценка
  • Развертывание

Понимание бизнеса. Рак легких является основной причиной смерти от рака во всем мире: в 2018 году умерло 1,59 миллиона человек. Хотя большинство случаев рака легких вызывается курением, загрязнение воздуха также является фактором риска. Новое исследование показало, что загрязнение воздуха может быть связано с повышенным риском развития рака легких даже у некурящих.

Представьте себе случай, когда существует система или модель, которая может предсказать, когда у человека появятся признаки рака легких. Это может привести к своевременному выявлению многих случаев и предотвращению распространения раковых клеток. Эта модель позволит врачам и исследователям сравнивать различные факторы риска, вызывающие рак легких, и определять, какие факторы играют наибольшую роль в развитии заболевания. Хотя используемое исследование не доказывает, что загрязнение воздуха вызывает рак легких, оно предполагает, что между ними может быть связь. Необходимы дальнейшие исследования, чтобы определить, как уровни загрязнения воздуха влияют на риск рака легких. Благодаря тому, что это включено в модель, можно спасти много жизней.

Прогнозные модели используют исторические данные для изучения, выявления закономерностей и создания точных прогнозов. Выявляйте ассоциации и связи между симптомами, привычками и заболеваниями, чтобы делать значимые прогнозы. Прогнозная аналитика в здравоохранении помогает улучшить уход за пациентами и лечение хронических заболеваний.

Аналитическое понимание. Основываясь на приведенном выше понимании бизнеса, я решил, что лучший аналитический подход — это прогнозный подход. Это связано с тем, что модель используется для прогнозирования возможности развития у пациента рака легких.

Понимание данных: начиная со сбора исходных данных и работы, чтобы ознакомиться с данными, выявить проблемы с качеством данных и получить первоначальное представление о данных. Эта фаза также позволяет аналитикам обнаруживать интересные подмножества и формировать гипотезы для скрытой информации. Это критический этап, потому что очень важно знать, какие данные используются и откуда они поступают: насколько надежен источник, насколько он соответствует цели модели и так далее. Используя Kaggle, данные, полученные из него, могут быть показаны в исчерпывающих формах.

Подготовка данных. Теперь, когда у нас есть достаточные знания о данных, следующим шагом будет подготовка их для алгоритма машинного обучения, который будет использоваться для построения модели. Это включает в себя процессы, которые делают данные совместимыми с алгоритмом. Эти процессы включают определение пропущенных значений, преобразование данных в подходящие типы, проверку того, что данные представлены в числовой форме и т. д. Используя функцию isnull(), она проверяет, есть ли какие-либо пропущенные значения в наборе данных.

Как видно выше, пропущенных значений нет. Переходя к следующему шагу, мы затем проверим, находятся ли значения данных в форме, совместимой с алгоритмом машинного обучения. Используя код data.info(), он дает краткую информацию о данных, показывая тип данных значения.

Увидев, что есть два значения, которые не являются целыми числами, их нужно будет преобразовать в целые числа. Для этого можно использовать кодировку меток, которая используется для преобразования категориальных данных в числовые. Преобразование меток в числовую форму, чтобы преобразовать их в машиночитаемую форму. Ниже приведен еще один метод преобразования категориальных данных в числовые данные. Преобразованный столбец — «Уровень», поэтому исходные значения «низкий», «средний» и «высокий» будут заменены на «0», «1» и «2» соответственно.

Использование data.info() после преобразования, чтобы убедиться, что значение действительно изменилось. После этого мы назначаем столбцы в качестве переменных признаков, которые представляют собой измеримые фрагменты данных, которые можно использовать для анализа.

Столбцы были выбраны в зависимости от того, насколько близко они помогут в достижении цели модели. Целевая переменная, с другой стороны, в основном является результатом. Это переменная, которая отвечает на вопрос о прогнозе.

Моделирование. Первым шагом в моделировании является выбор используемого метода моделирования. Инструменты, возможно, уже были выбраны на этапе понимания бизнеса, но на этом этапе выбираются конкретные методы моделирования, такие как построение дерева решений, логистическая регрессия, наивный байесовский метод, K ближайших соседей и метод опорных векторов (SVC).

Другими словами, классификация — это тип «сопоставления с образцом», при котором алгоритм классификации применяется к обучающим данным, чтобы найти те же самые образцы (похожие слова, настроения, строки чисел и т. д.) в будущих наборах данных. Если вы используете несколько методов, выполняйте эту задачу отдельно для каждого метода. Как и я, я использовал три разных классификатора, поэтому мне пришлось делать их отдельно.

Следующим шагом на этапе моделирования является разработка тестов. Его можно описать как предполагаемый план обучения, тестирования и оценки модели. Ключевым компонентом планирования является решение о том, как разделить доступный набор данных на наборы данных для обучения, тестирования и проверки. Прежде чем мы на самом деле построим модель, нам нужно создать механизм для проверки качества и достоверности модели. Например, в контролируемых задачах интеллектуального анализа данных, таких как классификация, часто используется коэффициент ошибок в качестве меры качества для моделей интеллектуального анализа данных. Поэтому мы обычно разбиваем набор данных на обучающий набор и тестовый набор, строим модель на обучающем наборе и оцениваем ее качество на отдельном тестовом наборе.

Оценка. Этап оценки важен, потому что он помогает нам оценить текущий прогресс и успех модели, а также дает нам возможность увидеть, можно ли извлечь какие-либо новые уроки из нашей работы. На этом этапе есть три шага; оценка результатов, процесс обзора и определение следующего шага. Оценка результатов связана с выяснением того, успешно ли модель выполнила цели бизнеса. Процесс проверки позволяет подвести итоги проверки процесса и отметить действия, которые были пропущены или которые необходимо повторить. И, наконец, определение следующего шага — это просто вопрос обдумывания того, что делать дальше, после того, как вы увидите результаты последних двух этапов. Решаем, переходить ли к этапу развертывания, выполнять весь процесс заново — возможно, было забыто значение — или начинать заново с новым набором данных.

Развертывание. На этом заключительном этапе, когда результаты оценки точности выглядят благоприятными, теперь вы можете работать с заинтересованными сторонами, чтобы определить, как модель будет реализована. Это включает в себя функции автоматизации для получения необработанных данных и предоставления их для моделирования. Кроме того, для обеспечения эффективности должен быть реализован план мониторинга и обслуживания.

Ссылки