От химии к науке о данных: начните свой путь обучения!

Когда я встречаюсь с людьми, они часто удивляются, узнав, что я занимаюсь химией. Они спрашивают меня, чем я занимался в то время, когда проводил исследования в области химии, и я кратко объясню, чем я занимался и как перешел в науку о данных.

С детства меня увлекала химия (точнее, процесс изготовления хлеба. В детстве я мечтал стать пекарем: P), а во время получения степени бакалавра и магистра моей главной целью было продолжить академическую карьеру, изучая умные материалы и биоматериалы. Имея это в виду, я потратил около трех лет на исследования в области органической химии.

Там я работал с ионными жидкостями двумя разными способами, первый - в качестве инкапсулирующих агентов. Второй и самый безумный - в разработке нового полимерного электролита. Во всей этой работе использовался метод ЯМР-спектроскопии, в основном в CENIMAT NMR lab @ FCT NOVA.

Во время учебы в магистратуре биоорганической химии в FCT NOVA я разработал и полностью исследовал новый полимерный целлюлозный материал. Этот проект был чрезвычайно интересен, поскольку использование целлюлозы в качестве основы полимерных ионных жидкостей позволяет производить новые материалы, сочетающие в себе некоторые уникальные свойства ионных жидкостей с присущими полимеру характеристиками. Поскольку материал показал многообещающие результаты, был подан патент.

В этом проекте я почувствовал необходимость изучить времена релаксации ЯМР T1 / T2 молекул геля. Математический метод немного сложен, потому что материал представляет собой гель, и именно тогда я впервые применил навыки питона, которые у меня были в то время.

После получения степени магистра я решил улучшить свои знания и записался на Курс машинного обучения Эндрю Нг (действительно, это потрясающий вводный курс для машинного обучения!), Выходные по программированию Smart Ninja и встречи в Лиссабоне. (В будущем я поделюсь с вами книгами, блогами, онлайн-курсами, встречами в Лиссабоне и людьми, которые помогли мне в этом путешествии).

Проведя полтора года в консалтинговой компании, я почувствовал необходимость начать документировать всю проделанную мной работу. Следовательно, я создаю репозиторий GitHub с упражнениями Python и задачами Kaggle. Из-за этого я трачу гораздо больше времени на практику / решение задач, чем на чтение книг по машинному обучению. Совсем недавно я усилил уже полученные знания и теперь ставлю цели.

Моей первой большой задачей Kaggle была Задержка и отмена рейсов, цель которой - предсказать, когда рейс задерживается. В этой задаче я прошел все этапы науки о данных: базовую статистику, построение базовой линии, исследование / понимание данных, разработку функций и итерацию модели. Я рекомендую эту задачу, потому что это задача средней сложности, когда вы можете попрактиковаться в проектировании функций, набор данных не такой большой, работать с временным компонентом и другими.

Наконец, я искренне верю, что умная работа с правильным объемом тяжелой работы является ключом к успеху. Такой образ мышления мотивирует меня делать все возможное во всем, что я делаю. Таким образом, могут ли химики начать карьеру в области науки о данных или улучшить свою исследовательскую карьеру в области химии? Конечно! Любой человек любого происхождения, искренне мотивированный, может чему-то научиться. Поверьте, я знаю ученых из самых разных областей.

Не стесняйтесь следить за моим сайтом, репозиторием GitHub и публикациями на Medium!