Я, данные и машинное обучение.

Привет всем, это мой первый пост в среде. Я студент последнего курса факультета электроники и связи Визаг, штат Андхра-Прадеш, Индия.

Недавно я участвовал в программе летней стажировки 2019 года в Smartbridge при поддержке IBM, это был восхитительный и находчивый опыт.

Я был немного напуган, выбирая стажировку, которая не относилась к моей дисциплине, но рискнул и все равно сделал это. Я выбрал этот путь из-за моей любви к применению аналитических навыков к проблемам вокруг меня и поиску лучшего решения, которое все примут.

Для меня наука о данных — это правильная платформа для анализа данных и принятия обоснованных выводов. Но на этот раз мое решение опирается на статистику, математику, графики и результат, с которым гораздо легче убедить людей.

Самое первое, что мне сказали во время моего обучения, это то, сколько данных произошло за десятилетие. Объем, достоверность, разнообразие и скорость данных. И эти данные есть везде!

Данные — это то, что никогда не может быть уменьшено с течением времени, с развитием технологий у нас есть лучшие устройства и среды для извлечения данных для обработки информации. Это будет продолжать улучшаться с течением времени.

Насколько я понимаю, наука о данных — это способ прогнозирования результатов с помощью кодирования, математики и статистики для улучшения бизнеса или организации.

Мои первые две недели были связаны с практиками кодирования Python для импорта данных, чтения и обработки заданных наборов данных. И выполнить исследовательский анализ данных.

Затем нас познакомили с различными алгоритмами машинного обучения. В основном есть два вида выходов. Если выходные данные имеют непрерывный формат, например «концентрация кислорода в образце воды», необходимо применить регрессии. Если данные представлены в категориальном формате, то есть ДА или НЕТ, или «тип рака у пациента (злокачественный или доброкачественный)», мы должны использовать классификацию.

На основе другого набора данных после очистки и при необходимости нормализации данные разбиваются на две части. Один для обучения модели, а другой для проверки вывода. Наблюдались значения точности, кривые ROC, матрицы путаницы. Нас учили, как переоснащение и недообучение повлияют на эти оценки.

Лучшая модель, которая продемонстрировала идеальное соответствие с наивысшими показателями точности, использовалась для развертывания путем создания веб-интерфейса для этой модели с помощью IBM Watson Studio.

К концу третьей недели мы были отмечены как «Отраслевые специалисты по данным».

Стажировка была просто толчком для моих интересов, она показала, как далеко я должен зайти, чтобы попасть в этот корпоративный мир Data Science.

Теперь ношу с собой карту маршрута. Буду продолжать совершенствоваться, пока не дойду до конца.

И буду продолжать делиться своими работами, следите за обновлениями, чтобы узнать больше. Я вернусь.

Я, данные и машинное обучение.

Вопросы по теме