Мой файл усекается в Hive после его полной загрузки в Cloudera Hue

Я использую оттенок Cloudera. В файловом браузере я загружаю файл .csv, содержащий около 3000 строк (мой файл небольшой, ‹400k).

После загрузки файла я захожу в браузер данных, создаю таблицу и импортирую в нее данные.

Когда я иду в Hive и выполняю простой запрос (например, SELECT * FROM table), я вижу результаты только для 99 строк. В исходном CSV-файле больше этих строк.

Когда я делаю другие запросы, я замечаю, что несколько строк данных отсутствуют, хотя они отображаются в предварительном просмотре в браузере файлов Hue.

Я пробовал с другими файлами, и они также иногда усекались до 65 или 165 строк.

Я также удалил все "," из данных .csv перед загрузкой файла.

IUF 19.10.2015 источник

comment

Это версия Hue ‹ 3.7? Похоже на старый баг - Romain 19.10.2015

comment

Версия Hue — 3.7.0. - IUF 19.10.2015

Ответы (1)

arrow_upward
1
arrow_downward

Я наконец решил это. Было несколько проблем, которые, по-видимому, вызвали усечение.

Главное заключалось в том, что автоматически устанавливаемый после импорта данных тип переменной присваивался по первым строкам. Поэтому, когда тип данных изменился с TinyINT на INT, он усекся или изменился на «NULL». Чтобы решить эту проблему, выполните EDA и измените тип данных перед созданием таблицы.

Другие проблемы заключались в том, что память, которую я выделил виртуальной машине, замедляла процесс предварительного просмотра и что файл csv содержал запятые. Вы можете настроить виртуальную машину так, чтобы у нее было больше памяти, или изменить CSV на раздельные вкладки.

IUF 21.10.2015

comment

И к вашему сведению, крошечное обнаружение было изменено на нечто большее, чтобы избежать этой проблемы: github.com/cloudera/ оттенок/фиксация/f25fbd9 - Romain; 25.10.2015

comment

Спасибо, Роман, за ваши комментарии и продолжение. - IUF; 29.10.2015

Мой файл усекается в Hive после его полной загрузки в Cloudera Hue

Ответы (1)

Вопросы по теме