Изучите аналитику данных с нулевыми навыками программирования бесплатно

Все, что вам нужно, - это изучить эти инструменты с открытым исходным кодом в Интернете.

Вы часто слышите новое модное словечко в индустрии - Data Analytics (раньше это был AI-ML)? Звучит ли это сложно, но в то же время достаточно просто? Понимаете логику моделей, но не знаете, как кодировать? Опасаетесь потратить слишком много времени на изучение кода, прежде чем броситься в бой?

Не волнуйтесь, есть несколько замечательных инструментов, доступных бесплатно для некодеров, которые могут помочь в разработке сложных моделей в кратчайшие сроки. Эти инструменты совершенно бесплатны для личного использования, чрезвычайно просты и интуитивно понятны и могут помочь в практике без хлопот научиться программировать.

Я программист-любитель, но большой энтузиаст машинного обучения. Я могу кодировать, но стараюсь избегать этого, насколько могу (слава богу за эту опцию макроса записи в Excel), пока я не могу этого избежать.

Я работал над разработкой модели для прогнозирования трафика на дороге, и мне пришлось многое попробовать, когда я начал искать ресурсы, не связанные с кодированием, и нашел эти жемчужины. Я обсуждаю три лучших, которые я нашел. Опять же, это открытый исходный код для индивидуальных пользователей, но есть платные версии для коммерческого использования.

Чего не могут сделать эти инструменты

Имейте в виду, что хотя эти инструменты устраняют необходимость в кодировании, ваше понимание моделей, основ подготовки данных и статистики должно быть выше минимума. Причина в том, что когда вы кодируете, вы точно знаете, что и как делается, в то время как в большинстве этих инструментов параметры по умолчанию предварительно загружены, а иногда код не виден пользователю. Таким образом, ошибки модели могут остаться незамеченными, если пользователь не проведет тщательный контроль качества.

В дополнение к этому, эти инструменты не скажут вам, какой метод очистки данных использовать, какую модель построить или какую статистику вместо этого сравнивать, инструменты позволят вам легко выполнять все вышеперечисленные задачи и дадут вам больше времени для размышлений и анализа. данные.

Теперь, когда вы прочитали все предупреждения, давайте перейдем к делу.

1. Knime Analytics

Это, безусловно, лучший инструмент в области открытого кода.

Knime - это очень интуитивно понятная платформа, которая помогает создавать модели с помощью узлов перетаскивания в среде рабочего процесса. Он построен на Python, имеет виджеты для ввода данных, очистки данных, моделирования (регрессия, кластеризация, классификация, нейронные сети и т. Д.), Статистики и наиболее часто используемых представлений.

У него есть настольная версия (Мне она нравится) и серверная версия для людей, которые хотят разрабатывать и развертывать эти рабочие процессы модели в Интернете. Установить Knime на ваш компьютер довольно просто, а использовать его - даже больше. Ниже приведен пример модели NN.

Есть узлы для каждого действия, необходимого для построения нейронной сети. Импорт данных, их разбиение, передача части учащемуся, предиктору (тестовый набор), а затем счетчику для проверки точности модели. Параметры могут быть установлены в узлах, которые связаны друг с другом с помощью соединителей, и могут выполняться последовательно.

2. Апельсин

Orange - это инструмент машинного обучения, визуализации и анализа данных с открытым исходным кодом. Orange также работает с виджетами, упорядоченными по шаблону рабочего процесса, и имеет некоторые специализированные библиотеки для конкретных задач (временные ряды, биоинформатика и т. Д.).

Пользовательский интерфейс Orange более гибок, но его список узлов менее исчерпывающий, чем у Knime. Он имеет множество вариантов визуализации и может производить достойную аналитику данных. Он построен на Python и может помочь создавать и оценивать модели для регрессии, классификации, NN, кластеризации, временных рядов, среди прочего.

3. Статистика BlueSky

Bluesky - это инструмент на основе R, который можно использовать для моделирования и визуализации данных. Это открытый исходный код, доступный для настольных компьютеров. Он имеет богатый графический интерфейс и может помочь новичкам в обучении R, поскольку для каждой функции отображается код R.

В BlueSky отсутствует архитектура стиля рабочего процесса и функциональность узлов. Вместо этого у него есть функции, перечисленные на вкладках, аналогичные вкладкам ленты MS Office. Прелесть BlueSky в том, что он построен на R, который является невероятно мощным языком для статистического анализа данных. В нем есть редактор команд, и, поскольку код полностью виден пользователю, пользователям очень легко изменять код по своему усмотрению. Это гарантирует, что обычные пользователи R могут сэкономить значительное количество времени, используя это приложение.

На рынке доступно множество инструментов для анализа данных, но большинство из них не имеют открытого исходного кода. Это затрудняет работу отдельных пользователей, которые все еще находятся на исследовательской стадии науки о данных.

Эти три инструмента - мои самые любимые для решения небольших проблем с аналитикой данных. Они могут сэкономить огромное количество времени для новичков, которых может отпугнуть идея научиться программировать.

Этот список основан на инструментах, доступных в конце 2019 года. Я обновлю его, если найду другие похожие инструменты. Надеюсь, эта история поможет вам в начале вашего пути к аналитике данных!