Привет всем, это мой первый пост в среде. Я студент последнего курса факультета электроники и связи Визаг, штат Андхра-Прадеш, Индия.
Недавно я участвовал в программе летней стажировки 2019 года в Smartbridge при поддержке IBM, это был восхитительный и находчивый опыт.
Я был немного напуган, выбирая стажировку, которая не относилась к моей дисциплине, но рискнул и все равно сделал это. Я выбрал этот путь из-за моей любви к применению аналитических навыков к проблемам вокруг меня и поиску лучшего решения, которое все примут.
Для меня наука о данных — это правильная платформа для анализа данных и принятия обоснованных выводов. Но на этот раз мое решение опирается на статистику, математику, графики и результат, с которым гораздо легче убедить людей.
Самое первое, что мне сказали во время моего обучения, это то, сколько данных произошло за десятилетие. Объем, достоверность, разнообразие и скорость данных. И эти данные есть везде!
Данные — это то, что никогда не может быть уменьшено с течением времени, с развитием технологий у нас есть лучшие устройства и среды для извлечения данных для обработки информации. Это будет продолжать улучшаться с течением времени.
Насколько я понимаю, наука о данных — это способ прогнозирования результатов с помощью кодирования, математики и статистики для улучшения бизнеса или организации.
Мои первые две недели были связаны с практиками кодирования Python для импорта данных, чтения и обработки заданных наборов данных. И выполнить исследовательский анализ данных.
Затем нас познакомили с различными алгоритмами машинного обучения. В основном есть два вида выходов. Если выходные данные имеют непрерывный формат, например «концентрация кислорода в образце воды», необходимо применить регрессии. Если данные представлены в категориальном формате, то есть ДА или НЕТ, или «тип рака у пациента (злокачественный или доброкачественный)», мы должны использовать классификацию.
На основе другого набора данных после очистки и при необходимости нормализации данные разбиваются на две части. Один для обучения модели, а другой для проверки вывода. Наблюдались значения точности, кривые ROC, матрицы путаницы. Нас учили, как переоснащение и недообучение повлияют на эти оценки.
Лучшая модель, которая продемонстрировала идеальное соответствие с наивысшими показателями точности, использовалась для развертывания путем создания веб-интерфейса для этой модели с помощью IBM Watson Studio.
К концу третьей недели мы были отмечены как «Отраслевые специалисты по данным».
Стажировка была просто толчком для моих интересов, она показала, как далеко я должен зайти, чтобы попасть в этот корпоративный мир Data Science.
Теперь ношу с собой карту маршрута. Буду продолжать совершенствоваться, пока не дойду до конца.
И буду продолжать делиться своими работами, следите за обновлениями, чтобы узнать больше. Я вернусь.