У меня наконец-то появилось «свободное» время, чтобы узнать немного больше о машинном обучении. Итак, с учетом сказанного, я почти без ума от математики (опять же, то же самое чувство 90-х).

Итак, я использую это для изучения:

Это было действительно продуктивно даже для меня (я не разработчик, поэтому иногда бывает сложно перейти к нескольким темам). Итак, моей отправной точкой было запустить Пример исследования Титаника от Kaggle, но уже с использованием BigQuery. 🤠

Итак, вот как я это сделал. Я не буду тратить слишком много времени на разговоры о Bigquery, поэтому давайте продолжим с данными. После загрузки данных я создал новый набор данных и импортировал данные в две таблицы, обучающую и тестовую.

Здорово! Теперь у нас есть данные (действительно маленькие, но в первом случае выглядят нормально). Итак, мы хотим создать модель, чтобы предсказать, выживут ли некоторые люди или нет, на основе нескольких характеристик, таких как «класс билета», «пол», «количество братьев и сестер» и «количество родителей».

В этом случае мы будем использовать модель логистической регрессии, потому что мы хотим предсказать какой-то ярлык, который мы уже знаем (да / нет). Итак, это лучшая часть. Мы будем использовать SQL для создания нашей модели в Bigquery:

Итак, проверьте, насколько легко читать:

  1. Создайте модель titanic.model как логистическую регрессию, используя сохранившийся столбец в качестве метки.
  2. Используйте для этой модели тренировочную таблицу с выбранными столбцами.

И это все. 🥸 Итак, при запуске, поскольку у нас есть небольшой набор данных, создание модели займет одну минуту. Теперь наша модель создана. Теперь давайте оценим модель:

Обратите внимание, что у нас 80% точности. Хорошо? Что ж, у нас есть другие метрики, чтобы понять это, например, отзыв, точность и оценка f1, но пока давайте просто разберемся, как создать и оценить модель.

Следующим шагом будет использование тестовых данных, чтобы проверить, действительно ли модель хороша.

Проверить это! У нас есть прогнозируемое значение, метки и% вероятностей для каждого из них (проверьте массив в Bigquery 🤓). Для квеста в Kaggle на выходе должны быть PassengerId и Prediction:

Проверяя вывод вручную, вот результат:

Итак, я считаю, что это был успех !! Опять же, я только начинаю, мне еще многому нужно научиться, так что давайте продолжим.

Я в восторге от этого, и если у вас есть что порекомендовать, я буду очень признателен.

Спасибо! Оставайтесь в безопасности и будьте здоровы!