В этой записи блога вы узнаете, как создать приложение Apache Spark, написанное на языке JAVA, с использованием Apache Maven и Eclipse IDE. В этой статье в качестве системы сборки используется Apache Maven.
Создание приложения Java Spark в Eclipse включает в себя следующее:
- Используйте Maven в качестве системы сборки.
- Обновите файл объектной модели проекта (POM), чтобы включить зависимости Spark.
- Напишите свое приложение на JAVA
- Создайте файл JAR, который можно отправить в Spark Cluster.
- Отправляйте искровые приложения с помощью spark-submit.
Предпосылки:
- Apache Spark установлен на вашем компьютере.
- Oracle JAVA Development Kit. В этой статье использовалась openjdk версии 1.8.0_275.
- JAVA IDE. В этой статье используется Eclipse IDE.
Используйте Eclipse для создания нового приложения:
- Запустите Eclipse и выберите Новый проект.
- Выберите новый Проект Maven из списка и нажмите "Далее".
- Установите флажок «Создать простой проект (пропустить выбор архетипа)» и нажмите «Далее».
- Укажите соответствующие значения для GroupId и ArtifactId. Имя В этом руководстве используются следующие значения:
- Идентификатор группы: com.spark.example
- Идентификатор артефакта: SparkSimpleApp
5 . Нажмите «Готово»
6 . После импорта проекта на левой панели разверните проект и откройте файл pom.xml.
7 . Теперь мы обновляем файл pom.xml, чтобы определить зависимости для нашего приложения Spark Java.
8 . Внутри <project>\<properties>
добавьте следующие сегменты:
<maven.compiler.source>1.8</maven.compiler.source> <maven.compiler.target>1.8</maven.compiler.target>
9 . Внутри <project>\<dependencies>
добавьте следующие сегменты:
<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <version>2.4.0</version> </dependency> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.12</artifactId> <version>2.4.0</version> </dependency>
10 . Сохраните изменения в pom.xml, и он автоматически установит зависимости. (Обратите внимание, что установка может занять некоторое время)
11. После установки зависимостей на левой панели вы увидите Зависимости Maven, а развернув ее, вы сможете просмотреть все установленные зависимости.
12 . На левой панели перейдите к src/main/java, щелкните правой кнопкой мыши и выберите Новый класс Java. Укажите соответствующее имя класса и нажмите «Готово».
13. Замените существующий пример кода следующим кодом и сохраните изменения. Следующий код считывает данные из файла employee.json. Распечатывает схему и фактические данные и записывает данные в новый файл json.
import org.apache.spark.SparkConf; import org.apache.spark.sql.Dataset; import org.apache.spark.sql.Row; import org.apache.spark.sql.SparkSession; public class Main { public static void main(String[] args) { // TODO Auto-generated method stub SparkSession spark = SparkSession.builder().appName("json-demo").getOrCreate(); Dataset<Row> employees = spark.read().json("/home/rahul/Desktop/eclipse-ee/employees.json"); employees.printSchema(); employees.show(); employees.write().json("file:///home/rahul/Desktop/eclipse-ee/employees_spark.json"); } }
14. После сохранения файла щелкните правой кнопкой мыши файл pom.xml и выберите Запустить от имени Maven Build. Это создаст JAR-файл в целевой папке.
Запустите приложение в кластере Apache Spark.
- Скопируйте JAR-файл приложения в любое место в вашей системе. Нам нужен путь к месту, куда он скопирован.
- Запустите следующую команду из терминала
spark-submit --class "Main" --master local[2] "<path-to-your-jar-file>"
Вот и все для этого сообщения в блоге. В этой статье мы рассмотрели, как создать JAVA-приложение Apache Spark.