Чему вы должны научиться, когда начинаете

Ключевой вопрос для любого новичка в науке о данных — какой язык использовать. Существует множество вариантов, и сделать выбор может быть сложно, особенно когда вы видите аргументы в Твиттере (или другом авторитетном источнике) о том, что один язык лучше другого. Я могу с уверенностью сказать, что независимо от того, с какого языка вы начинаете, лучше начать, чем тратить время на выбор языка! После того, как вы выучите один язык, становится намного проще подобрать другой, если это необходимо, и в настоящее время для большинства языков Data Science доступны полные наборы инструментов.

Тем не менее, большинство людей начинают с Python. Причиной этого является глубокая экосистема, которая сложилась вокруг науки о данных в Python, включая такие библиотеки, как sklearn, statsmodels, pandas, matplotlib, tensorflow и многие другие. Это означает, что любой рабочий процесс, с которым вы могли бы столкнуться в карьере специалиста по науке о данных, вы, вероятно, сможете реализовать на Python. Однако другим преимуществом выбора Python является то, что он имеет широкое применение и за пределами науки о данных. Это включает в себя использование в веб-разработке с помощью таких фреймворков, как Django и Flask, а вскоре и Pyscript, его использование в автоматизации и тестировании из-за его простоты и пакетов, таких как Beautiful Soup, а также широкое использование в общем программном обеспечении. Инженерные кружки по строительным изделиям. Таким образом, изучение Python может подготовить вас не только к изучению Data Science, но и к гораздо более широкой карьере в области разработки программного обеспечения.

Основы Python

Одним из первых шагов изучения любого языка программирования является изучение основ. В рамках этого вам также необходимо настроить свой компьютер, чтобы вы могли писать и запускать код. В Data Science это часто делается с помощью Anaconda и Jupyter Notebooks, общей среды, используемой для рабочих процессов Data Data Science. Преимущество этого для начинающих заключается в том, что вы можете четко запускать небольшие отдельные фрагменты кода, а Anaconda может помочь вам ориентироваться в часто запутанной реальности конфликтов пакетов в Python. Хотя многие позже переходят к использованию реальных скриптов Python и использованию виртуальных сред, блокноты Anaconda и Jupyter — хорошее место для начала.

Изучение самого языка часто начинается с понимания того, как работают переменные и типы данных. В случае Python и в большинстве языков переменные используются для хранения информации, которая позволяет вам вызывать и использовать эту информацию позже в вашей программе. Это просто делается с помощью оператора = в Python, который присваивает информацию переменной. Во-вторых, нужно узнать, какие типы данных поддерживает язык. В случае Python четыре основных основных типа данных включают int, float, str и bool, которые представляют целое число (целочисленное значение без десятичной точки), число с плавающей запятой (числовое значение с десятичной точкой), строковое значение (типизированное слова) и логическое значение (которое может принимать только True и false ). Хотя есть и другие типы данных, с которыми вы, вероятно, столкнетесь, это основные строительные блоки, которые помогут вам начать свое путешествие.

Следующее, что нужно знать об операторах языка. Это обозначение, которое используется для выполнения таких операций, как математические или сравнительные операции. В первом мы используем такие обозначения, как + для сложения, - для вычитания, * для умножения и / для деления, как и следовало ожидать. Однако мы также можем выполнять операции сравнения, которые затем формируют основу потока управления. В Python это может включать сравнения, такие как == для проверки равенства значений, != для неравных и < , > для меньше и больше соответственно.



Логика Python

Следующее, что нужно рассмотреть, — это то, как логика и поток процессов работают в Python. Это сделано для того, чтобы вы могли создавать более сложные программы, в которые встроена некоторая логика, так что определенные действия запускаются при выполнении заданных условий. В Python создание этих сложных программ часто включает использование условных операторов, логических операторов, циклов и функций.

Первое, что следует рассмотреть в этом отношении, — это условные операторы. Хотя вы рассмотрели сравнительные операторы, это включает в себя то, как их можно использовать для проверки того, выполняется условие или нет, а затем запускать некоторый код в ответ на это. Примером этого может быть проверка того, равна ли переменная a b, так что a == b или a больше, чем b, так что a > b ответит как True. Затем эти операторы сравнения можно использовать для запуска кода с помощью условных операторов if, else, elif. Это позволяет вам запускать код if при соблюдении условий или else того, что могло бы произойти в противном случае. Затем эти условия могут быть объединены в более сложные операторы с помощью and , or и not, что позволяет проверять более одного условия за раз.

Нам также нужно знать, как повторять фрагменты кода в зависимости от условий или путем создания повторно используемых фрагментов кода. Первый может быть запущен с помощью циклов, которые, по сути, запускают один и тот же фрагмент кода, пока выполняется условие. Это разделено на циклы while и for, в которых первый выполняет заданное действие, пока условие остается истинным, а цикл for будет перебирать уже определенную группу. Затем у нас также есть функции, которые полезны, когда у нас есть код, который нам нужно использовать снова и снова, но в разных областях вашего кода. Это может быть, когда вы хотите выполнить одно и то же действие, но с другими входными данными или на другом этапе вашего рабочего процесса, и это делается путем определения функции, которую можно вызвать позже в вашем коде.



Последовательности Python

После того, как вы ознакомились с основами и логикой языка, следующим шагом будет понимание того, как хранить различные формы данных. Это очень важно в науке о данных, поскольку вы вряд ли будете хранить отдельные фрагменты информации за раз, а будете хранить несколько фрагментов данных, каждый из которых требует определенного формата. Для этого нам нужно иметь возможность выбрать правильный формат данных, который обеспечит наиболее эффективное хранение и доступ к ним.

В python есть четыре основных встроенных последовательности, которыми вы часто пользуетесь. Сюда входят список, кортеж, набор и словарь. Важно научиться использовать их и их ключевые характеристики, чтобы обеспечить правильное хранение данных. В этом случае:

  • Списки: изменяемы, упорядочены, индексируемы и могут содержать повторяющиеся записи.
  • Кортежи: неизменяемы, упорядочены, индексируемы и могут содержать повторяющиеся записи.
  • Наборы: изменяемые, неупорядоченные, неиндексируемые и не допускающие дублирования записей.
  • Словарь: изменяемы, упорядочены, индексируемы и не могут содержать повторяющиеся значения (по крайней мере, в своих ключах).

Понимание каждой из этих характеристик определит, какую структуру/последовательность данных вы выберете для хранения своих данных, чтобы к ним было легко получить доступ, когда вы захотите выполнить анализ.



Парадигмы программирования

Помимо изучения языка, также важно понимать, как работают разные парадигмы программирования. Изучая большинство из вышеперечисленного, вы столкнетесь с парадигмами процедурного и функционального программирования. В первом случае код структурирован процедурным образом, благодаря чему код «выполняется» в основном так, как он был написан. В то время как последний часто использует процедурное программирование, но также использует преимущества абстрагирования повторяющихся фрагментов кода в функции. Это уменьшает общий объем кода, который вам нужно написать, а также допускает некоторую форму абстракции.

Альтернативой этому, с которой вы столкнетесь при более глубоком изучении библиотек в Python, является объектно-ориентированное программирование. В отличие от двух предыдущих парадигм, эта структурирует код так, что характеристики и поведение данных могут быть объединены в единую структуру. Это достигается путем создания «чертежей», известных как классы, которые позволяют вам создавать объекты, которые могут приобретать определенные характеристики и поведение, определенные ранее в коде. Понимание этой парадигмы важно для возможности взаимодействия со многими библиотеками, которые будут частью любого рабочего процесса Data Science. Преимущество этой парадигмы заключается в том, что она упрощает написание кода, который можно использовать многократно, и объединяет как характеристики, так и поведение в единую структуру, упрощая использование и понимание при взаимодействии с библиотеками.



Выводы

Изучение нового языка кодирования может быть трудным, особенно для тех, кто изучает свой первый язык. В этом отношении Python полезен для специалистов по данным из-за относительной простоты начала работы с простым синтаксисом, который достаточно легко читать и понимать. При изучении языка Data Science рекомендуется охватить большинство основ, включая: переменные, структуры данных, последовательности, операции, логику, функции и объектно-ориентированное программирование. После того, как вы освоите эти основы, вы сможете с большей уверенностью начать свое путешествие по науке о данных в Python и перейти к более сложным темам и построить свой рабочий процесс по науке о данных. Удачи!

Если вам понравилось то, что вы прочитали, и вы еще не являетесь участником Medium, не стесняйтесь зарегистрироваться в Medium, используя мою реферальную ссылку ниже, чтобы поддержать меня и других замечательных писателей на этой платформе! Заранее спасибо.



Или не стесняйтесь проверить некоторые из моих других статей на Medium: