Мы на полпути через программу Генеральной Ассамблеи. Мы многому научились за последние 6 недель. Мы начали с основ Python и прошли через функции, итерации и NumPy, а также основы командной строки.

В течение следующих двух недель мы продолжили работу с NumPy, представили Pandas и Scipy и использовали различные методы построения графиков. Линейная регрессия была первой концепцией модели машинного обучения. Мы исследовали независимые и зависимые переменные и определили разницу между смещением и дисперсией. После основных концепций и повторного введения в статистику и линейную регрессию мы узнали, как разделить обучение и протестировать наш набор данных, чтобы начать строить модели для прогнозов и понимать концепции переобучения и недообучения этих моделей. Затем регуляризация стала следующим уроком, изучая, как методы регуляризации, такие как Ridge, Lasso и Elastic, регулируют переоснащение и недооснащение.

Неделя 4 продолжилась более продвинутыми методами моделирования, такими как логистическая регрессия, оценка соответствия модели и настройка модели. Мы определили, какие из этих независимых и зависимых переменных были релевантными и коррелированными, затем продолжили очищать наши данные и использовать выбор признаков в наших прогностических моделях. Веб-скрапинг и классификации также преподавались как методы сбора данных из различных ресурсов в Интернете.

На пятой неделе мы начали изучать концепции SQL и баз данных SQL. Запрос данных из нашего терминала и как использовать python для запроса данных через SQL путем удаленного подключения к Postgres. Также был представлен конвейерный метод со Sklearn, который показал, насколько быстро можно упростить процесс моделирования. В конце пятой недели был приглашен специалист по данным, чтобы показать свой опыт работы в мире данных. Ее путешествие в области данных было очень впечатляющим — она использовала науку о данных, чтобы выявлять мошенничество с кредитными картами, кражу личных данных, более точно определять местонахождение мин и миссалов для подводных лодок и даже обнаруживать секс, оружие и торговцев людьми в глубокой сети с использованием методов НЛП.

Шестая неделя была для нас большой неделей. Мы узнали много сложных тем, включая обработку естественного языка, деревья решений, API и JSON, а также сравнение моделей. К концу недели деревья решений перешли в случайный лес и повысили концепции. Мы завершили неделю панелью профессионалов, ориентированных на данные — двух специалистов по данным и одного инженера по данным. У нас была возможность изучить их карьеру и взаимодействие с ними, чтобы лучше понять, как данные используются в их компаниях.