Полная дорожная карта, чтобы стать специалистом по данным

AI, взрыв машинного обучения изменит правила игры. Наука о данных и искусственный интеллект - две самые важные технологии в современном мире. Хотя Data Science использует в своих операциях искусственный интеллект, он не полностью представляет ИИ.

Привет, я Тек Радж Авасти. В настоящее время я работаю младшим инженером по обработке данных в Bungee Technology. Вы можете Связаться со мной в Linkedin, Github, Twitter, Gmail.

После множества запросов, вопросов от юниоров, коллег об искусственном интеллекте, машинном обучении и науке о данных я вынужден справиться с трудностями, которые у меня были, чтобы подготовить статью, поскольку невозможно ответить каждому в отдельности. Потому что AI, Data Science - одна из самых сложных областей в ИТ и компьютерной инженерии. Вы не сможете начать с ними после изучения одного, двух или трех навыков.

Итак, сначала я объясню вам, что на самом деле такое AI, ML, Data Science, Deep Learning, но я не буду определять все и вся здесь, в этой статье, например, что такое AI, что такое ML, что такое Data Science. вы можете найти эти вещи где угодно в Интернете. Я расскажу, как начать путь к искусственному интеллекту, науке о данных.

В конце этой статьи я расскажу о некоторых удивительных продуктах AI, ML, проектах, которые принесли (собираются произвести) революцию в технологиях. Это будет больше мотивировать вас в этой области.

AI - обширная область. В нем есть подполя, в основном машинное обучение, робототехника, обработка естественного языка. ML снова имеет свою поддомену Deep Learning. И сердце всего этого - машинное обучение, поскольку ИИ - это теоретическая вещь, а машинное обучение использует ИИ, чтобы все происходило, чтобы реализовать все с помощью программирования. Вы можете ясно понять больше о поле AI из рисунка ниже.

И вот дорожная карта начинается.

Первый шаг к AI, Data Science - это не программирование, не математика и даже не наука, а подготовка мышления. Почему? Потому что почти половина студентов выбирают искусственный интеллект, машинное обучение из-за ажиотажа, которые не интересуются математикой. Да, выбирать горячие вещи, симпатичную девушку, красивого парня в жизни - это нормально, у нас есть выбор 😁😂 . Но проблема в том, что мы не задумываемся о том, что внутри, мы непосредственно начинаем с вещей без какого-либо видения. Потому что с ИИ, машинным обучением и наукой о данных будет нелегко, если вы не сможете и дальше совершенствовать математику, структуру данных и алгоритмы. Вам не обязательно быть профессионалом в математике, чтобы стать разработчиком искусственного интеллекта или машинного обучения (если вы не собираетесь быть исследователем в этой области). Просто хорошо изучите необходимое. Многие студенты сдаются после того, как осознают ценность математики, но у них это плохо получается. Итак, убедитесь, что вы хорошо подготовили эти вещи на 1, 2, 3 курсах инженерного факультета и ИТ.
Следующий шаг в обучении - программирование на Python. Но в большинстве инженерных, ИТ-колледжей программирование на Python преподается на 3-м курсе, и даже некоторые колледжи не преподают Python в своих учебных программах. А инженерная математика начинается с первого года обучения. Итак, я поставил программирование на Python и математику на один уровень, так что вы можете начать с математики или python. Даже вы можете самостоятельно изучить программирование на Python параллельно с математикой.

Пожалуйста, не переходите к AI, ML, не сделав свое программирование, структуру данных и алгоритмы сильными. Позже вы поймете важность этого. Я ясно упомянул, чему нужно учиться в Python и математике.

Следующее, что составляет основу области программирования, - это открытый исходный код. Ознакомьтесь с Github, Gits, Jupyter Notebooks, потому что это наиболее часто используемые инструменты.

4. Следующим шагом будет изучение базы данных. Все заняты изучением R или Python для науки о данных, но без базы данных наука о данных бессмысленна. В основном используется реляционная база данных. MySQL, Amazon Redshift, BigQuery и PostgreSQL - хорошие варианты реляционной базы данных. SQL в основном используется при написании скриптов, работе с базой данных как части машинного обучения или конвейеров данных.

Но не беспокойтесь об этих тяжелых словах, если вы новичок, начните с SQL и Mysql. Их легко освоить, и они фундаментальны. Позже вы узнаете больше вещей одно за другим.

5. После этого следует изучить Data Wrangling, который является первым, но самым важным делом в Data Science. Data Wrangling означает сбор данных, очистку данных и изучение данных.

6. Затем изучите визуализацию данных, которая больше всего необходима в науке о данных, в основном в машинном обучении и анализе данных. Просто изучите основы, вы можете узнать больше во время работы над проектами, а также большую часть части визуализации данных можно будет изучить в Matplolib, а отдыхать во время работы с проектами. Но в то же время вы можете изучить теоретический ИИ; концепция агентов ИИ, алгоритмов поиска, области ИИ и т. д., чтобы вы получили ясное представление об ИИ, а затем перешли к машинному обучению.

7. Затем следует сердце искусственного интеллекта, наука о данных, т.е. машинное обучение, которое является применением искусственного интеллекта. Машинное обучение заключается в том, чтобы заставить машины учиться на обученных данных, примерах, чтобы машины могли учиться, как человек. Таким образом, модели машинного обучения получают набор данных, который представляет собой набор данных. Затем модель ML обучается делать, находить, анализировать, исследовать вещи. Итак, машинное обучение используется везде: в искусственном интеллекте, в Нидерландах, в глубоком обучении и компьютерном зрении.

А вот и математика. Машинное обучение в основном касается дифференциального исчисления, линейной алгебры, статистики и теории вероятностей . Эти вещи используются в области искусственного интеллекта, науки о данных наряду с такими языками программирования, как Python, R ( даже c ++ также можно где-то использовать ). Python занимает первое место в мире среди языков программирования, а область искусственного интеллекта и науки о данных в основном использует python. Итак, вы реализуете все эти математические концепции или алгоритмы, используя язык Python или R. В машинном обучении вы будете использовать оптимизированные библиотеки Python, такие как sklearn, Tensorflow, Keras, pytorch, при реализации проектов машинного обучения. Так что изучите эти библиотеки основами, пока вы будете узнавать все больше, используя их в проектах. (Свяжитесь со мной, чтобы получить лучшие учебные пособия по Tensorflow для начинающих с теорией и программированием. Это бесплатно, но невозможно прикрепить здесь)

8. А глубокое обучение - это подполе машинного обучения. Глубокое обучение использует искусственные нейронные сети, которые работают с очень большими объемами данных. Но прежде чем переходить к глубокому обучению, сначала изучите компьютерное зрение, чтобы впоследствии вы могли применить в нем глубокое обучение. И распознавание изображений, классификация изображений, распознавание лиц, объектов (в видео), обнаружение - все эти вещи относятся к компьютерному зрению и машинному обучению, в этом применяется глубокое обучение. Вы будете использовать библиотеку Pyhton openCV в компьютерном зрении. Так что изучите эту библиотеку на этом шаге.

9. Я уже говорил вам, когда и почему использовать глубокое обучение на предыдущем шаге. А глубокое обучение - это потрясающая вещь, она вам просто понравится. Даже вы можете забыть об алгоритмах машинного обучения после того, как пристрастились к искусственным нейронным сетям в глубоком обучении. Но у алгоритмов машинного обучения и глубоких нейронных сетей другое применение, вы это узнаете позже.

10. Следующее, что вам нужно изучить, - это обработка естественного языка. Он использует машинное обучение и глубокие нейронные сети. НЛП день за днем приносит революции. Итак, наконец, вы стали инженером по искусственному интеллекту после 10 шагов.

11. И следующая важная вещь в области данных, помимо ИИ, - это большие данные, о которых вы уже можете догадаться, поскольку это эпоха Интернета, и в секунду производятся миллиарды, триллионы данных. Большие данные - это область, в которой рассматриваются способы анализа, систематического извлечения информации или иной работы с наборами данных, которые слишком велики или сложны для обработки с помощью традиционной обработки данных « программное обеспечение".

Инженеры по большим данным тесно сотрудничают с инженерами по машинному обучению, искусственным интеллектом. В больших данных используется очень много инструментов, библиотек. Некоторые из них - Hadoop, ApacheSpark. Apache Hadoop и Apache Spark - это платформы с открытым исходным кодом для обработки больших данных с некоторыми ключевыми различиями. Таким образом, вы должны изучить эти вещи, чтобы работать с большими данными.

Наконец, после изучения и работы со всеми этими вещами вы станете полноценным специалистом по анализу данных.

Изменяющие правила игры приложения ИИ, которые существуют или вот-вот появятся на рынке:

OPENAI GPT-3 - это авторегрессивная языковая модель, использующая глубокое обучение для создания текста, похожего на человеческий. Это модель предсказания языка третьего поколения из серии GPT-n, коммерческой лаборатории исследований искусственного интеллекта в Сан-Франциско. Ожидается, что GPT-3 сократит или заменит (но не полностью) работу инженера-программиста, поскольку он разрабатывает программный код в соответствии с инструкциями пользователя.
Tesla self - вождение автомобиля использует комбинацию датчиков, камер, радаров и искусственного интеллекта (AI) для путешествий. между пунктами назначения без участия человека-оператора.
Суперкомпьютер IBM Deep Blue победил Каспарова 12 мая 1997 года. DeepMind заявила, что разница между AlphaZero и его конкурентами заключается в том, что в ее подходе к машинному обучению человек не участвует, кроме основных правил игры в шахматы.
AlphaGo победил чемпиона мира по го Ли Седола в пяти матчах. Он идет туда, куда раньше не ходила никакая машина. Геймплей долгое время был выбранным методом для демонстрации способностей мыслящих машин, и эта тенденция продолжала появляться в заголовках газет в 2016 году, когда AlphaGo, созданная Deep Mind (ныне Дочерняя компания Google) победила чемпиона мира по го Ли Седола в пяти матчах.
Facebook’s Transcoder, компилятор AI Source-to-Source, который преобразует код с одного языка в другой в C ++, Java и Python.
Microsoft Math использует оптическое распознавание символов (OCR) для рукописного ввода, чтобы извлечь математическое уравнение из фотографии учащегося в его заметках.
Pix2Story от Microsoft использует обработку естественного языка (NLP) для повествования. ИИ сканирует изображение, применяет стиль письма и создает историю, демонстрируя, как ИИ может стимулировать творчество.
Sketch2Code от Micorsoft преобразует рукописные рисунки в прототипы HTML. Дизайнеры обмениваются идеями на доске, а затем изменения мгновенно отображаются в браузере, что помогает улучшить сотрудничество между дизайнером, разработчиком и заказчиком.
Компания Microsoft Celebs Like Me использует распознавание лиц, чтобы сопоставить фотографию пользователя с похожими на нее знаменитостями. Основанный на модели Deep Neural Net (DNN), он был обучен с использованием Bing Satori Knowledge Graph и Bing Image Graph.

И многое другое. Позже я опубликую учебные материалы, лучшие уроки, идеи проектов в этой области, если они вам понадобятся.

Спасибо за чтение.

Если вам нужно надлежащее руководство по искусственному интеллекту, подали в Data Science, вы можете связаться со мной в Linkedin. Вскоре мы планируем создать Сообщество Data Science (еще не завершено) для наставничества, последовательного руководства учащимися и разработчиками в этой области с помощью надлежащих учебных материалов и руководства по проекту (в соответствии с этой дорожной картой).

Мы планируем эту инициативу, потому что у меня самого был очень плохой опыт в качестве новичка в этой области, потому что я не нашел вовремя наставника, который мог бы направить меня в том, как двигаться дальше. У меня ушло около года на то, чтобы получить четкое представление о дорожной карте. Вначале я случайно изучал ИИ, Машинное обучение. И произвольно занимаюсь программированием на Python. И я не смог найти, как программировать в проектах AI, ML, когда и где используется математика, когда и где использовать глубокое обучение, компьютерное зрение. И это не только мой опыт, каждый новичок имеет такой же опыт в этой области, как ИИ. Наука о данных представляет собой комбинацию математики, естествознания (робототехники) и программирования, и нет статей или видео, которые бы так подробно рассказывали обо всем. .

Вот почему эта область является сложной, и вы станете Динозараусом, если не будете сильно продвигаться вперед из-за ажиотажа и конкуренции в этой области. Помните, AI, ML - это не просто так, потому что даже техническая и финансовая индустрия пока не добивается успеха в развертывании AI, ML и робототехники, потому что переход к автоматизации является сложной задачей и меняет правила игры.

Чем ты. Удачного обучения. Оставайтесь благословенными.

Никогда не отказывайтесь от своих целей, не испробовав все возможные пути. Иначе вы просто не хотите, чтобы это произошло.

Полная дорожная карта, чтобы стать специалистом по данным

Вопросы по теме