Предскажите, кто выжил после катастрофы Титаника, с помощью автоматизированного машинного обучения

Kaggle, принадлежащий Google Inc., представляет собой онлайн-сообщество специалистов по науке о данных и машинному обучению. Другими словами, это ваш дом для науки о данных, где вы можете находить наборы данных и участвовать в соревнованиях. Тем не мение; Я изо всех сил пытался завершить свою первую конкурсную работу из-за, я бы сказал, неподходящих ресурсов. Я прошел ядро (читается как статьи) для этого конкурса, но все они не были предназначены для новичков. Я имею в виду, как новичок, я не хочу видеть визуализации, которые я не могу выполнить или интерпретировать, мне просто нужно понять, что происходит простыми словами.

И если вы здесь, чтобы начать работу с Kaggle, эта статья поможет вам с автоматизированной библиотекой. Специальному специалисту по домену сложно писать сложные коды, потому что для простоты есть несколько автоматизированных библиотек, которые выполняют свою работу без ненужных строк кода или визуализаций.

Сегодня я собираюсь использовать библиотеку машинного обучения PYCARET для решения этой проблемы, и вы увидите, насколько эффективна эта библиотека. для тех, кто не знает о PYCARET, ниже я упомянул небольшое введение в PYCARET. Пожалуйста, просмотрите его один раз.

Вы можете получить доступ к веб-сайту pycaret и документации с https://pycaret.org.

PyCaret — это библиотека машинного обучения с открытым исходным кодом на Python, которая позволяет перейти от подготовки данных к развертыванию модели за считанные секунды в выбранной вами среде ноутбука.

PyCaret, будучи библиотекой с низким кодом, делает вас более продуктивным. Теперь, когда вы и ваша команда тратите меньше времени на кодирование, вы можете сосредоточиться на бизнес-задачах.

PyCaret — это простая и удобная библиотека машинного обучения, которая поможет вам проводить комплексные эксперименты по машинному обучению с меньшим количеством строк кода.

PyCaret — готовое решение для бизнеса. Он позволяет быстро и эффективно создавать прототипы в выбранной вами среде ноутбука.

Шаг 1. Начните с Kaggle

поэтому я надеюсь, что у всех вас есть учетная запись kaggle, и вы все знакомы с kaggle, или если вам нужно какое-либо руководство для начинающих, чтобы делать что-то в kaggle, перейдите по этой ссылке для обучения. После этого присоединяйтесь к Kaggle Titanic. конкурса, перейдя по этой ссылке. Сделанный? Здорово. Все готово. Теперь займемся реальной работой.

Шаг 2 — Установите Пикарет

вы можете просто установить pycaret с помощью команды установки pip, как показано ниже.

Шаг 3 — Загрузить данные

вы можете просто загрузить данные с помощью команды pycaret или с помощью pandas, здесь я использую pandas, как показано ниже.

Шаг 4 — Импорт модуля

В зависимости от типа эксперимента, который вы хотите провести, один из шести доступных модулей, поддерживаемых в настоящее время, должен быть импортирован в вашу среду Python. Импорт модуля подготавливает среду для конкретной задачи. Например, если вы импортировали модуль «Классификация», среда будет настроена соответствующим образом для выполнения только задач классификации.

Нам нужно предсказать, выживет пассажир или нет, так что это проблема классификации. поэтому мы импортируем модуль классификации с помощью приведенной ниже команды.

Инициализация установки

теперь нам нужно выполнить настройку с нашими данными, предоставив целевую переменную и немного другой информации, как указано ниже.

Шаг 5 — Сравните модели

Это первый шаг, который мы рекомендуем в рабочем процессе любого контролируемого эксперимента. Эта функция обучает и сравнивает общие метрики оценки, используя k-кратную перекрестную проверку для всех доступных моделей в библиотеке модуля, который вы импортировали. Используемые метрики оценки:

Классификация: точность, AUC, полнота, точность, F1, каппа
Регрессия:MAE, MSE, RMSE, R2, RMSLE, MAPE

Результатом функции является таблица, показывающая усредненный балл всех моделей по складкам. Количество складок можно определить с помощью параметра fold в функции compare_models. По умолчанию для кратности установлено значение 10. Таблица сортируется (от большего к меньшему) по выбранному показателю и может быть определена с помощью параметра sort. По умолчанию таблица отсортирована по Точность для экспериментов по классификации и R2 для экспериментов по регрессии. Некоторые модели исключены для сравнения из-за их более длительного времени работы. Чтобы обойти это предупреждение, для параметра turbo можно установить значение False.

Вывод

теперь, наблюдая результат, мы можем сказать, что модель Light Gradient Boosting Machine имеет самую высокую точность, поэтому мы можем использовать эту модель, но сначала мы должны настроить модель один раз для лучшего результата, для этого нам нужно создать модель иначе, как указано ниже.

здесь вы можете увидеть результат модели на каждой итерации. Теперь мы можем настроить модель с помощью команды, приведенной ниже

Шаг 6—Анализ производительности модели путем визуализации результата

Анализ производительности обученной модели машинного обучения является неотъемлемым этапом любого рабочего процесса машинного обучения. Анализировать производительность модели в PyCaret так же просто, как написать plot_model. Функция принимает объект обученной модели и тип графика в виде строки внутри функции plot_model.

Шаг 7 — Прогноз

После успешного развертывания модели либо в облаке с помощью deploy_model, либо локально с помощью save_model,она может использоваться для прогнозирования невидимых данных с помощью функции predict_model. Эта функция использует обученный объект модели и набор данных для прогнозирования. Он автоматически применит весь конвейер преобразования, созданный во время эксперимента. Для классификации прогнозируемые метки создаются на основе вероятности 50 %, но если вы решите использовать другой порог, который вы могли получить с помощью optimize_threshold, вы можете передать probability_thresholdпараметр в predict_model. Эту функцию также можно использовать для создания прогнозов по удержанию/набору тестов.

Теперь давайте выполним прогноз, используя настроенную модель.

Шаг 8 — Окончательная подача

Отправка нашего окончательного результата. Наш выходной файл .csv должен иметь только два столбца — «Идентификатор пассажира» и «Выживший», как указано на странице конкурса. Создав это и отправив, перейдя на страницу конкурса, моя заявка получила 0,7751, что очень хорошо, поскольку мы написали всего несколько строк кода.

ПОСЛЕДНИЙ

Я опубликовал эту статью из-за основного вопроса Как человек может выполнить сложный анализ, не написав длинные коды? Знание предметной области, хорошие данные и готовность учиться новому — это все, что вам нужно для продвижения вперед. Вам не нужно быть мастером с самого начала. Все это приходит с настойчивостью. Если вы читаете это, значит, у вас есть все силы для достижения своих целей, просто не останавливайтесь, несмотря ни на что. Если у вас есть сомнения относительно этой статьи, свяжитесь со мной по электронной почте. И даже если у вас нет никаких сомнений, мне все равно будет приятно видеть вас в моем почтовом ящике с вашими ценными отзывами или предложениями, если таковые имеются.

Счастливого обучения.