У меня наконец-то появилось «свободное» время, чтобы узнать немного больше о машинном обучении. Итак, с учетом сказанного, я почти без ума от математики (опять же, то же самое чувство 90-х).
Итак, я использую это для изучения:
- Сотостраничная книга ML
- Построение моделей машинного обучения и глубокого обучения на базе GCP
- Loooot видеороликов MIT на YouTube, связанных с этой темой
- Google Qwiklabs
- Kaggle
- Google Colab ❤️
Это было действительно продуктивно даже для меня (я не разработчик, поэтому иногда бывает сложно перейти к нескольким темам). Итак, моей отправной точкой было запустить Пример исследования Титаника от Kaggle, но уже с использованием BigQuery. 🤠
Итак, вот как я это сделал. Я не буду тратить слишком много времени на разговоры о Bigquery, поэтому давайте продолжим с данными. После загрузки данных я создал новый набор данных и импортировал данные в две таблицы, обучающую и тестовую.
Здорово! Теперь у нас есть данные (действительно маленькие, но в первом случае выглядят нормально). Итак, мы хотим создать модель, чтобы предсказать, выживут ли некоторые люди или нет, на основе нескольких характеристик, таких как «класс билета», «пол», «количество братьев и сестер» и «количество родителей».
В этом случае мы будем использовать модель логистической регрессии, потому что мы хотим предсказать какой-то ярлык, который мы уже знаем (да / нет). Итак, это лучшая часть. Мы будем использовать SQL для создания нашей модели в Bigquery:
Итак, проверьте, насколько легко читать:
- Создайте модель titanic.model как логистическую регрессию, используя сохранившийся столбец в качестве метки.
- Используйте для этой модели тренировочную таблицу с выбранными столбцами.
И это все. 🥸 Итак, при запуске, поскольку у нас есть небольшой набор данных, создание модели займет одну минуту. Теперь наша модель создана. Теперь давайте оценим модель:
Обратите внимание, что у нас 80% точности. Хорошо? Что ж, у нас есть другие метрики, чтобы понять это, например, отзыв, точность и оценка f1, но пока давайте просто разберемся, как создать и оценить модель.
Следующим шагом будет использование тестовых данных, чтобы проверить, действительно ли модель хороша.
Проверить это! У нас есть прогнозируемое значение, метки и% вероятностей для каждого из них (проверьте массив в Bigquery 🤓). Для квеста в Kaggle на выходе должны быть PassengerId и Prediction:
Проверяя вывод вручную, вот результат:
Итак, я считаю, что это был успех !! Опять же, я только начинаю, мне еще многому нужно научиться, так что давайте продолжим.
Я в восторге от этого, и если у вас есть что порекомендовать, я буду очень признателен.
Спасибо! Оставайтесь в безопасности и будьте здоровы!