В этой записи блога вы узнаете, как создать приложение Apache Spark, написанное на языке JAVA, с использованием Apache Maven и Eclipse IDE. В этой статье в качестве системы сборки используется Apache Maven.

Создание приложения Java Spark в Eclipse включает в себя следующее:

  1. Используйте Maven в качестве системы сборки.
  2. Обновите файл объектной модели проекта (POM), чтобы включить зависимости Spark.
  3. Напишите свое приложение на JAVA
  4. Создайте файл JAR, который можно отправить в Spark Cluster.
  5. Отправляйте искровые приложения с помощью spark-submit.

Предпосылки:

  1. Apache Spark установлен на вашем компьютере.
  2. Oracle JAVA Development Kit. В этой статье использовалась openjdk версии 1.8.0_275.
  3. JAVA IDE. В этой статье используется Eclipse IDE.

Используйте Eclipse для создания нового приложения:

  1. Запустите Eclipse и выберите Новый проект.
  2. Выберите новый Проект Maven из списка и нажмите "Далее".
  3. Установите флажок «Создать простой проект (пропустить выбор архетипа)» и нажмите «Далее».
  4. Укажите соответствующие значения для GroupId и ArtifactId. Имя В этом руководстве используются следующие значения:
  • Идентификатор группы: com.spark.example
  • Идентификатор артефакта: SparkSimpleApp

5 . Нажмите «Готово»

6 . После импорта проекта на левой панели разверните проект и откройте файл pom.xml.

7 . Теперь мы обновляем файл pom.xml, чтобы определить зависимости для нашего приложения Spark Java.

8 . Внутри <project>\<properties> добавьте следующие сегменты:

<maven.compiler.source>1.8</maven.compiler.source>
<maven.compiler.target>1.8</maven.compiler.target>

9 . Внутри <project>\<dependencies> добавьте следующие сегменты:

<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.12</artifactId>
<version>2.4.0</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-sql_2.12</artifactId>
<version>2.4.0</version>
</dependency>

10 . Сохраните изменения в pom.xml, и он автоматически установит зависимости. (Обратите внимание, что установка может занять некоторое время)

11. После установки зависимостей на левой панели вы увидите Зависимости Maven, а развернув ее, вы сможете просмотреть все установленные зависимости.

12 . На левой панели перейдите к src/main/java, щелкните правой кнопкой мыши и выберите Новый класс Java. Укажите соответствующее имя класса и нажмите «Готово».

13. Замените существующий пример кода следующим кодом и сохраните изменения. Следующий код считывает данные из файла employee.json. Распечатывает схему и фактические данные и записывает данные в новый файл json.

import org.apache.spark.SparkConf;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;
public class Main {
public static void main(String[] args) {
// TODO Auto-generated method stub
SparkSession spark = SparkSession.builder().appName("json-demo").getOrCreate();
Dataset<Row> employees = spark.read().json("/home/rahul/Desktop/eclipse-ee/employees.json");
employees.printSchema();
employees.show();
employees.write().json("file:///home/rahul/Desktop/eclipse-ee/employees_spark.json");
}
}

14. После сохранения файла щелкните правой кнопкой мыши файл pom.xml и выберите Запустить от имени Maven Build. Это создаст JAR-файл в целевой папке.

Запустите приложение в кластере Apache Spark.

  1. Скопируйте JAR-файл приложения в любое место в вашей системе. Нам нужен путь к месту, куда он скопирован.
  2. Запустите следующую команду из терминала
spark-submit --class "Main" --master local[2] "<path-to-your-jar-file>"

Вот и все для этого сообщения в блоге. В этой статье мы рассмотрели, как создать JAVA-приложение Apache Spark.