Все мы читаем эти статьи о том, как большие данные захватывают мир. Одним из инструментов, широко используемых для такой крупномасштабной обработки данных, является Spark. Spark - это агент для анализа больших данных, который является базовой структурой для машинного обучения и анализа данных, используемых в отрасли.

Работать над проектами анализа данных с помощью Jupyter Notebook и Pandas - это хорошо и хорошо, но если вы хотите масштабировать его, вам нужно спроектировать его немного по-другому. К сожалению, сложно понять, как на самом деле установить все необходимое на вашей рабочей станции или ноутбуке, так что при масштабировании используется точно такой же код. Я настраивал свою локальную рабочую станцию ​​с Windows 10 для реальной работы с данными, поэтому решил поделиться своим рецептом. Существует множество сценариев и пошаговых руководств по настройке этого материала для Linux, поэтому я собираюсь пройти настройку этих замечательных инструментов на вашем домашнем компьютере с Windows 10. Виртуальные машины не требуются.

Предпосылки

Git

Скачайте и установите Git для windows. Это откроет вам Git Bash в стартовом меню. Это будет полезно для извлечения блокнотов, которые я создал для тестирования вашей настройки. Используйте параметры по умолчанию для установки, кроме оформить как есть, зафиксировать как есть. Возможно, это только я, но мне не нравится, когда git возится с содержимым моих файлов.

Java и Scala

Spark требует для запуска Java и Scala SBT (версия для командной строки), поэтому вам необходимо загрузить и установить Java 8+. В лицензию Java внесены некоторые изменения, но, поскольку это сделано для целей разработки, вы можете загрузить и использовать ее. Scala - это язык сценариев, который работает на машине Java и используется Spark для написания сценариев.

7-молния

Если у вас еще не установлен 7-Zip, это отличный инструмент для работы со всеми видами сжатых форматов файлов.

Анаконда

Anaconda - это менеджер пакетов для научных вычислительных ресурсов, который позволяет легко устанавливать Python, R и Jupyter Notebooks. Скачайте здесь и выберите 64-битный графический установщик Python 3.7. После загрузки и запуска вы должны увидеть что-то вроде ниже. Если он еще не установлен, нажмите кнопку установки Jupyter Notebook.

Искра

Spark - это платформа для вычислительной кластеризации. Вы можете скачать его как файл .tgz, который можно использовать 7-zip для извлечения во временное место. Может потребоваться два раунда в 7-zip, один раз, чтобы распаковать его, и один, чтобы распаковать его. У вас должен получиться spark-2.4.3-bin-hadoop2.7 с кучей вещей внутри. Переместите папку spark-2.4.3-bin-hadoop2.7 в удобное для поиска место, например C: \ spark-2.4.3-bin-hadoop2.7.

Сделаем несколько тестов

Чтобы проверить, все ли работает. Откройте новую командную строку Windows (Win, найдите cmd) и убедитесь, что Java установлена ​​правильно. В противном случае вам, возможно, придется выйти из системы или перезапустить, чтобы обновление пути вступило в силу.

Ява

Запустите команду java, и она должна вернуть текст использования.

C: \ Users \ simon ›java

Искра

Перейдите к «C: \ spark-2.4.3-bin-hadoop2.7» в командной строке и запустите bin \ spark-shell. Это подтвердит правильность совместной работы Spark, Java и Scala. Некоторые предупреждения и ошибки в порядке. Используйте «: quit», чтобы вернуться в командную строку.

Теперь вы можете запустить пример расчета числа Пи, чтобы убедиться, что все работает.

bin \ run-example SparkPi 10

Git

Запустите приложение git bash, чтобы открыть приглашение bash. (Win, ищите bash)

$ cd
$ mkdir Documents / Development
$ cd Documents / Development
$ git clone https://github.com/simonh10/SparkML.git

Юпитер

Запустите приложение Jupyter Notebook (Win, найдите Jupyter), это должно запустить сервер Jupyter Notebook и открыть веб-браузер. Если браузер не открывается, перейдите по адресу http: // localhost: 8888 и перейдите в Documents / Development / SparkML. Вы должны увидеть ниже.

Выберите искровой тест, и он откроет ноутбук. Чтобы запустить тест, нажмите кнопку «перезапустить ядро ​​и запустить все ››» (подтвердите диалоговое окно). Это установит модули pyspark и findspark (может занять несколько минут) и создаст контекст Spark для выполнения заданий кластера. Ссылка пользовательского интерфейса Spark приведет вас к пользовательскому интерфейсу управления Spark.

Теперь вы можете запускать Python Jupyter Notebooks в кластере Spark на вашем локальном компьютере!

Куда дальше?