Проблемы с чтением файлов avro в блокноте Jupyter с помощью pyspark

Я пытаюсь прочитать файл avro в записной книжке Jupyter с помощью pyspark. Когда я читаю файл, я получаю сообщение об ошибке.

Я загрузил spark-avro_2.11: 4.0.0.jar, я не уверен, где в моем коде я должен вставлять пакет avro. Любые предложения были бы замечательными.

Это пример кода, который я использую для чтения файла avro.

df_avro_example = sqlContext.read.format("com.databricks.spark.avro").load("example_file.avro")

Это ошибка, которую я получаю

AnalysisException: «Не удалось найти источник данных: com.databricks.spark.avro. Пожалуйста, найдите пакет Avro по адресу http://spark.apache.org/third-party-projects.html; '


person Conz    schedule 16.06.2019    source источник


Ответы (1)


загрузите банку в место и используйте следующий фрагмент кода в своем приложении pyspark

import os
os.environ['PYSPARK_SUBMIT_ARGS'] = '--jars /path/tojar/spark-avro_2.11:4.0.0.jar pyspark-shell' 
person Ranga Vure    schedule 17.06.2019
comment
Спасибо за помощь, ваши советы работают !! - person Conz; 30.06.2019
comment
У меня возникли проблемы с датами, и мне было интересно, что мне нужно сделать, чтобы исправить эту проблему. Я использовал приведенный ниже пример, чтобы получить данные за последний день апреля, весь май и первый день июня. Но теперь я хочу получить данные за последний день декабря, весь январь и первый день февраля. Но поскольку декабрь - это 2018 год, я не уверен, как скорректировать свой код. Любые предложения @Ranga Vure example_file.avro / 20190 {430,5,601} * \) - person Conz; 30.06.2019