Поскольку наука о данных является растущей темой в индустрии программного обеспечения, а машинное обучение находится на переднем крае технологической сферы, ежедневно разрабатываются новые приложения, которые упрощают и ускоряют работу. И с этим захватывающим ростом мы постоянно сталкиваемся с притоком новых создателей, ученых и аналитиков, которые в равной степени пополняют ряды тех, кто учится на протяжении всей жизни.

Сегодня я решил, что хочу поделиться своими личными пятью любимыми инструментами, некоторые из которых очевидны, а некоторые не так очевидны. В любом случае, надеюсь, кто-нибудь найдет эти рекомендации по инструментам полезными.

5. WSL

Первый инструмент в этом списке предназначен исключительно для пользователей Windows, то есть не для меня, но это отличный способ максимизировать ваш рабочий процесс внутри Windows. Для тех, кто плохо знаком с этой концепцией, в Windows нет традиционного терминала bash, потому что операционная система была запрограммирована совершенно иначе, чем системы на основе Unix. Это может нанести серьезный ущерб рабочему процессу обычного разработчика, и Data Scientists не исключение.

Однако WSL позволяет запускать виртуальный терминал Linux, обычно Ubuntu, внутри Microsoft Windows. Обычно пакет для Windows требует постоянного переключения приложений, «Git-Bash», «Anaconda Prompt» и т. Д. Конечно, нет ничего плохого в том, чтобы выбрать этот путь, но WSL значительно упрощает всю эту интеграцию и позволяет улучшенный рабочий процесс, особенно при работе в команде.

4. Браузер БД

Многие люди, возможно, не слышали о DB-Browser. DB-Browser позволяет просматривать внутреннее устройство базы данных, а также знакомиться с ее схемой, не отправляя ни одного запроса. Я часто использую DB-Browser, когда у меня есть какая-то загадочная БД или я хочу протестировать некоторые запросы, чтобы убедиться, что он делает то, что я хочу, правильно, прежде чем нажимать код. DB-Browser также повсеместно доступен в Windows, Linux и Mac, что делает его отличным бесплатным инструментом, который может использовать каждый.

3. R ​​Studio

Если вы известный R-программист или предпочитаете Python, Scala, MATLAB или Julia, но часто используете R, R studio определенно является инструментом DS, на который стоит обратить внимание. Единственным существенным недостатком R studio является то, что она не дешевая и, конечно же, не бесплатна. Независимо от цены или использования, R studio определенно отличная среда для работы, в которой мне очень нравится.

2. Докер

Docker - это еще один, о котором вы, возможно, думали, но не попали в этот список. Поскольку это более самоуверенный список, я полагаю, я должен напомнить вам, что Docker, безусловно, не всегда лучший выбор для всего. Однако, как человек, который любит Dev-ops и Linux, Docker - отличный инструмент для настройки виртуальных сред для выполнения вашей работы. У нас есть не только преимущество менеджеров языковых пакетов, таких как индекс пакетов Python, но и преимущество менеджера пакетов Linux.

Хотя эти преимущества, безусловно, есть, для большинства может быть лучше просто использовать Pip / virtual env. Эти инструменты определенно полезны для быстрой настройки, отслеживания рабочих колес и развертывания. У каждого из них есть свои недостатки и преимущества, но в моем случае я рекомендую Docker.

1. Юпитер

И в заключение, которое предвидели все, представляю вам:

Юпитер

Конечно, Jupyter, вероятно, не нуждается в представлении, но он занимает первое место в моем списке, потому что не имело бы никакого смысла не иметь его там. Jupyter позволяет вам использовать виртуальные среды Conda внутри виртуального ядра с последовательным выполнением виртуального ядра. Это просто необходимо для Data Science, но, конечно, вы, вероятно, уже знали об этом.

Также следует отметить, что Jupyter кроссплатформенный и может использоваться где угодно. Jupyter также поддерживает расширения, которые позволяют выполнять любой язык, что делает его инструментом, который вы можете использовать с R, Scala, Julia и C в дополнение к Python. Я не могу сказать вам, сколько раз в день я прыгаю в Jupyter, чтобы что-то отладить или протестировать функцию, прежде чем я попытаюсь ее использовать. Быстрая и простая настройка также является плюсом.

Заключение

Существует множество инструментов, которые упрощают работу Data Scientist. Это моя лучшая пятерка, основанная на том, как часто я использую каждую из них, но мне было бы очень интересно узнать, какое программное обеспечение любят использовать другие специалисты по данным, а какие - им нравятся. Не стесняйтесь поделиться этим ниже, я очень хотел бы знать.

Я так рад видеть будущее программного обеспечения, основанного на DS, в ближайшие пару лет и далее. И с учетом значительных скачков за последний год, я полагаю, что в ближайшие годы мы увидим несколько действительно крутых вещей!