Мои любимые проекты в Калифорнийском университете в Беркли

Будучи специалистом по науке о данных с отличием и младшим специалистом по информатике в Беркли, я столкнулся с множеством проектов за последние три с половиной года. И теперь, когда моя учеба подходит к концу, я ищу роли в области анализа данных, науки о данных, машинного обучения, управления продуктами и подобных областях. Поскольку учебная программа Беркли по науке о данных очень новая, а специальность по науке о данных была создана только в 2018 году, курсовые работы и проекты не так хорошо известны, как другие дисциплины, такие как информатика. Поэтому я подумал, что будущим работодателям будет полезно, если я расскажу о некоторых из моих любимых технических проектов и соответствующих курсах.

Несмотря на то, что я прошел большое количество курсов в Беркли, наиболее ценными для меня были проекты по Data H195 — Data Science Honors Thesis Seminar, Ind Eng 135 — Applied Data Science with Venture Applications, Data C100 — Principles and Techniques of Data Science, Compsci 188 — Искусственный интеллект, Ind Eng 185 — Challenge Lab и Info 290M — Lean/Agile Product Management. Проекты на этих курсах охватывали множество тем, включая: анализ данных, визуализацию данных, науку о данных, машинное обучение (обучение с учителем, без учителя и обучение с подкреплением), НЛП, блокчейн и управление продуктами.

Данные H195

В этом семинаре участвуют все студенты программы с отличием по науке о данных, и основная цель этой программы — провести независимое исследование и написать диссертацию. Хотя я еще даже не наполовину завершил работу над своей диссертацией, я могу дать краткое изложение того, что, по моему мнению, в конечном итоге будет обсуждаться в моей диссертации. Моя работа возникла из идеи опроса общественного мнения о президентских выборах 2020 года с использованием данных социальных сетей. Мой главный вопрос для этого проекта: могут ли социальные сети воспроизвести или превзойти точность национальных опросов и правильно спрогнозировать народное голосование на выборах? На практике я собираю данные Twitter с помощью API Twitter и анализирую эти данные с помощью комбинации анализа настроений и структурного анализа. Анализ настроений извлекает предпочтения публикации в социальных сетях с помощью НЛП по тексту твита, а структурный анализ взвешивает характеристики твита с помощью машинного обучения.

Инд Eng 135

В этом курсе, получившем название Data-X, студенты могут преодолеть разрыв между теорией и практикой в науке о данных. Поскольку Data-X предназначен в первую очередь для опытных студентов и аспирантов, он охватывает большое количество тем от базовых (анализ данных, визуализация, регрессия и веб-скрейпинг) до продвинутых (машинное обучение, временные ряды, НЛП и нейронные сети). При освещении этих тем основное внимание уделяется семестровому групповому проекту с дополнительным корпоративным сотрудником.

Телепат

В моем проекте моя команда сотрудничала с Volvo, чтобы улучшить веб-аналитику с помощью продукта, который мы назвали MindReader. Первоначальной целью было лучше понять намерения посетителей веб-сайта Volvo, но после полугода применения методологии Agile мы создали MindReader. MindReader анализирует намерения пользователя и классифицирует сеансы веб-сайта, используя неконтролируемое обучение. Во-первых, мы использовали скрытую модель Маркова (HMM) для прогнозирования скрытых намерений (таких как просмотр или покупка) с последовательностью страниц и временем пребывания на странице, представляющими выбросы. Мы оптимизировали модель, создав несколько HMM, чтобы найти количество скрытых состояний с максимальной модульностью. Оттуда мы использовали кластеризацию k-средних (оптимальное количество кластеров имело самый низкий индекс Дэвиса-Булдина) для разделения нескольких сеансов веб-сайта. С помощью этого метода MindReader смог классифицировать сеансы веб-сайта по пяти основным категориям, каждая из которых имеет разную долю скрытых намерений. Как менеджер проекта, я в основном руководил проектом, согласовывал сроки и цели и помогал с кодированием.

Данные С100

Data C100, вероятно, является наиболее фундаментальным курсом в области науки о данных в Беркли. На этом занятии я изучил и отработал ключевые области жизненного цикла науки о данных: постановку вопросов, сбор и очистку данных, исследовательский анализ и визуализацию данных, статистический вывод и прогнозирование, а также принятие решений. Я изучил принципы и применил методы науки о данных, включая языки для преобразования, запроса и анализа данных; алгоритмы машинного обучения, методы регрессии, классификации и кластеризации; принципы создания информативных визуализаций данных; статистические концепции ошибки измерения и предсказания; и методы масштабируемой обработки данных. Два моих любимых проекта в этом классе касались классификации и предсказания.

Классификация спама/ветчины

Для этого проекта классификации я создал классификатор, чтобы отличать спам (мусорную или коммерческую) от обычных (не спамовых) писем. Я использовал разработку признаков текстовых данных с помощью библиотек scikit-learn для обработки данных и подбора моделей, а также проверил производительность моей модели на минимизацию переобучения путем анализа кривых точности-отзыва. Мне особенно понравился этот проект, потому что он позволил мне объединить свои навыки в области науки о данных и информатики — вместо того, чтобы случайным образом предсказывать или угадывать, какие функции текста будут лучше всего повышать точность модели, я написал скрипт на Python для составления списка наиболее важных слов. использовать в качестве функций. Сценарий python проанализировал все электронные письма в наборе данных, чтобы составить список из 90 наиболее распространенных слов, отсортировал этот список по их влиянию (которое я определил как разницу между частотой каждого слова в спаме и ветряных электронных письмах) и выбрал 50. наиболее эффективные слова для использования в качестве признаков в моей модели. Благодаря этому скрипту я превзошел необходимую точность на 4% при первом тесте модели.

Прогнозирование продолжительности поездки на такси

В этом проекте я создал регрессионную модель, которая прогнозировала время поездки на такси в Нью-Йорке. Шаги, включая выбор данных, EDA для оценки влияния исторических событий, проектирование признаков с использованием PCA, а также линейную и древовидную регрессию.

Compsci 188

Одно из моих первых знакомств с искусственным интеллектом и машинным обучением произошло при прохождении курса CS 188. Этот курс основан на идеях и методах проектирования интеллектуальных компьютерных систем с упором на парадигму статистического и теоретико-решающего моделирования. Проекты включали такие темы, как поиск в пространстве состояний и вероятностный вывод, но два моих любимых проекта были основаны на обучении с подкреплением и машинном обучении.

Обучение с подкреплением с Pac-Man

Целью этого проекта было в основном понять и внедрить методы обучения с подкреплением в рамках решений Pac-Man. Я применил итерацию ценности и Q-learning при принятии решений в Pac-Man.

Машинное обучение

Для моего первого знакомства с машинным обучением я реализовал алгоритм персептрона и модели нейронных сетей. После реализации я применил их к нескольким задачам, включая классификацию цифр, регрессию и идентификацию языка.

Инд англ 185

Этот класс представлял собой лабораторию SCET (Центр предпринимательства и технологий Сутарджа), ориентированную на блокчейн, которая помогла преодолеть разрыв между академическими и реальными знаниями в области блокчейна. Он использовал предпринимательство и ориентированные на пользователя методы проектирования для создания нового продукта/стартапа. В течение семестра я сотрудничал со своей командой, чтобы создать и запустить рабочий прототип, а также разработать и представить убедительную бизнес-презентацию.

Продукт моей команды для решения этой задачи заключался в создании верификатора резюме на основе блокчейна, чтобы гарантировать, что работодатели могут доверять статусу истории занятости соискателей. Применение блокчейна в этой области повысило эффективность за счет того, что нескольким компаниям не нужно повторно проверять одно и то же резюме, и снизило стоимость всего процесса найма.

Информация 290M

На этом курсе для выпускников я познакомился с современной парадигмой управления продуктами Lean/Agile, основанной на современной отраслевой практике. Он охватывал весь жизненный цикл управления продуктом, от поиска клиентов и пользователей до создания высокопроизводительных команд и выпуска сложных цифровых продуктов. Частью курса был семестровый проект по построению бизнеса и проверке нескольких гипотез для проверки бизнес-модели.

Для моего проекта моя команда создала CartJuice, бизнес, посвященный улучшению продуктовых магазинов, который позволяет пользователям пробовать новые вещи и экономить деньги при совершении покупок. Этот проект включал создание и оценку прото-персон, карт эмпатии, холста ценностного предложения и холста бизнес-модели, а также разработку нескольких экспериментов для проверки гипотез о бизнес-модели.