Как специалист по данным, я постоянно работаю с небольшими и простыми до больших и сложных наборов данных, чтобы раскрыть идеи и принять обоснованные решения. Чтобы эффективно управлять этими данными и анализировать их, я полагаюсь на множество важных инструментов, которые упрощают мой рабочий процесс и помогают мне достигать значимых результатов. От сбора данных до очистки, визуализации и моделирования — эти инструменты имеют решающее значение в моих повседневных задачах. В этой статье я расскажу об основных инструментах, которыми пользуюсь, включая Python и Notepad++ (ДА! Я ИСПОЛЬЗУЮ Notepad++), чтобы иметь четкое представление о том, что делать в каждом проекте по науке о данных. Теперь давайте углубимся в то, как эти инструменты играют решающую роль в моем наборе инструментов для обработки данных и повышают мою продуктивность при работе с разнообразными задачами, связанными с данными.

В качестве бонуса я сделаю небольшой проект по науке о данных, используя набор данных о сердечных заболеваниях от Kaggle и предоставлю скриншоты того, как я использую некоторые инструменты для этого проекта.

Google Таблицы

Для хранения табличных данных и их очистки я часто обращаюсь к Google Sheets. Это упрощает манипулирование данными и предварительную обработку данных, что делает его бесценным инструментом в моем наборе инструментов. Это облачная среда и функции совместной работы — это то, что мне нравится больше, чем MS Excel. Здесь я выполняю в основном все задачи по очистке и обработке данных. Большую часть времени мои листы состоят из этих трех: Documentation, Raw и Data.

  • Лист документации, как следует из названия, — это место, где я документирую все шаги, которые я сделал по очистке и обработке необработанных данных. Это полезно, чтобы отслеживать все, что изменилось в необработанных данных, и легко находить ошибочные шаги.

  • Сырой лист — это место, где хранятся необработанные данные.

  • Лист данных — это место, где хранятся чистые данные. Это лист, на котором данные готовы для анализа и моделирования.

MS Power BI

Для визуализации данных я предпочитаю MS Power BI. У него может не быть такой же облачной среды и функций для совместной работы, как в Google Sheets, в нем легко использовать функции перетаскивания для создания графиков, а интуитивно понятные функции дизайна позволяют мне быстро создавать информационные панели и отчеты. Другие функции, такие как нарезка данных, фильтрация и возможности детализации, полезны для исследования данных и получения аналитических сведений.

питон

Заниматься наукой о данных без языка программирования нельзя! Поэтому я использую Python 3.8+. Этот инструмент действительно полезен для меня двумя способами: созданием сценариев и моделированием.

  • Скрипты на Python помогают мне автоматизировать некоторые задачи в моем рабочем процессе обработки данных, такие как просмотр веб-страниц и редактирование табличных данных.
  • Для моделирования Python предлагает несколько библиотек для этого, таких как scikit-learn и Tensorflow (только будьте осторожны с версиями!). Универсальность и гибкость Python делают его важным инструментом в моем наборе инструментов для обработки данных.

Понятие

Для управления каждым проектом по науке о данных, личным или совместным, я использую Notion. Его гибкость в обработке представлений временной шкалы, списков дел, документации и страниц базы данных — это то, что мне действительно нравится в нем. Я могу организовать файлы, ссылки и необходимую информацию с помощью Notion. Это похоже на Google Workspace, но я храню все на одной странице! Кроме того, я могу оформить страницу, чтобы придать ей более эстетичный вид, связанный с тем, что представляет собой проект. Обычно моя домашняя страница для каждого проекта состоит из следующего: время, дата, задачи, текущий прогресс, цели и каталог.

  • To-Dos — это список моих задач.
  • Цели — это то, что мне нужно выполнять ежедневно или еженедельно.
  • Текущий прогресс показывает, насколько я близок к выполнению каждой цели.
  • Каталог представляет собой список подстраниц для дополнительной информации, такой как дополнительная литература и важные ссылки.

ЧатGPT

Когда дело доходит до отладки кода и его объяснения, я использую ChatGPT. Я могу задавать вопросы и мгновенно получать полезные ответы (хотя мне нужно помнить о написании подсказок). ChatGPT помогает мне понять сложные фрагменты Python и проблемы с отладкой. Однако я не полагаюсь исключительно на ChatGPT для отладки своего кода. Я также ищу в Google и документации, чтобы лучше писать подсказки и лучше понимать определенные вопросы.

Совместная работа Google

Как я упоминал ранее, я использую Python для двух целей: написания сценариев и моделирования. Здесь я занимаюсь моделированием на Python, сценарии для следующего инструмента. У него есть бесплатная версия, и мне достаточно удобно запускать код Python. С Colab мне не нужно настраивать локально, и я могу сразу перейти к своим задачам моделирования с помощью встроенных библиотек. Он также имеет облачную среду, поэтому мне не нужно хранить весь код локально.

Блокнот++

Может быть, вы думаете: «Правда?! Блокнот++,? Почему бы не использовать другие IDE, такие как Anaconda или Visual Studio?». Да, да, вы правы, но использование Anaconda, Visual Studio и других IDE слишком тяжело. Мне лично нравится Notepad++, так как он легкий и простой в установке. Кроме того, мне нравится ощущение, когда я использую свой cmd для запуска своих скриптов Python. Вот и все!

Что теперь?

От сбора данных до моделирования каждый специалист по данным полагается на множество важных инструментов. В настоящее время эти инструменты в совокупности позволяют мне быть эффективным в моем рабочем процессе обработки данных, но я ожидаю, что в будущем будет доступно больше инструментов, и они будут лучше, чем те, которые я использую сейчас. Инструменты, которые я упомянул, — это только те инструменты, которые мне удобно использовать, и я уверен, что собираюсь узнать больше для выполнения других задач.