Проблемы с чтением файлов avro в блокноте Jupyter с помощью pyspark

Я пытаюсь прочитать файл avro в записной книжке Jupyter с помощью pyspark. Когда я читаю файл, я получаю сообщение об ошибке.

Я загрузил spark-avro_2.11: 4.0.0.jar, я не уверен, где в моем коде я должен вставлять пакет avro. Любые предложения были бы замечательными.

Это пример кода, который я использую для чтения файла avro.

df_avro_example = sqlContext.read.format("com.databricks.spark.avro").load("example_file.avro")

Это ошибка, которую я получаю

AnalysisException: «Не удалось найти источник данных: com.databricks.spark.avro. Пожалуйста, найдите пакет Avro по адресу http://spark.apache.org/third-party-projects.html; '

jupyter-notebook pyspark spark-avro

Conz 16.06.2019 источник

Ответы (1)

arrow_upward
0
arrow_downward

загрузите банку в место и используйте следующий фрагмент кода в своем приложении pyspark

import os
os.environ['PYSPARK_SUBMIT_ARGS'] = '--jars /path/tojar/spark-avro_2.11:4.0.0.jar pyspark-shell'

Ranga Vure 17.06.2019

comment

Спасибо за помощь, ваши советы работают !! - Conz; 30.06.2019

comment

У меня возникли проблемы с датами, и мне было интересно, что мне нужно сделать, чтобы исправить эту проблему. Я использовал приведенный ниже пример, чтобы получить данные за последний день апреля, весь май и первый день июня. Но теперь я хочу получить данные за последний день декабря, весь январь и первый день февраля. Но поскольку декабрь - это 2018 год, я не уверен, как скорректировать свой код. Любые предложения @Ranga Vure example_file.avro / 20190 {430,5,601} * \) - Conz; 30.06.2019

Проблемы с чтением файлов avro в блокноте Jupyter с помощью pyspark

Ответы (1)

Вопросы по теме