Ужасно новичок в Spark, Hive, Big Data, Scala и всем остальном. Я пытаюсь написать простую функцию, которая принимает sqlContext, загружает файл csv из s3 и возвращает DataFrame. Проблема в том, что этот конкретный csv использует символ ^ A (т.е. \ 001) в качестве разделителя, а набор данных огромен, поэтому я не могу просто написать на нем "s / \ 001 /, / g". Кроме того, поля могут содержать запятые или другие символы, которые я мог бы использовать в качестве разделителя.
Я знаю, что в пакете spark-csv, который я использую, есть параметр разделителя, но я не знаю, как установить его, чтобы он читал \ 001 как один символ, а не что-то вроде экранированных 0, 0 и 1. Может, мне стоит использовать hiveContext или что-то в этом роде?