Мой файл усекается в Hive после его полной загрузки в Cloudera Hue

Я использую оттенок Cloudera. В файловом браузере я загружаю файл .csv, содержащий около 3000 строк (мой файл небольшой, ‹400k).

После загрузки файла я захожу в браузер данных, создаю таблицу и импортирую в нее данные.

Когда я иду в Hive и выполняю простой запрос (например, SELECT * FROM table), я вижу результаты только для 99 строк. В исходном CSV-файле больше этих строк.

Когда я делаю другие запросы, я замечаю, что несколько строк данных отсутствуют, хотя они отображаются в предварительном просмотре в браузере файлов Hue.

Я пробовал с другими файлами, и они также иногда усекались до 65 или 165 строк.

Я также удалил все "," из данных .csv перед загрузкой файла.


person IUF    schedule 19.10.2015    source источник
comment
Это версия Hue ‹ 3.7? Похоже на старый баг   -  person Romain    schedule 19.10.2015
comment
Версия Hue — 3.7.0.   -  person IUF    schedule 19.10.2015


Ответы (1)


Я наконец решил это. Было несколько проблем, которые, по-видимому, вызвали усечение.

Главное заключалось в том, что автоматически устанавливаемый после импорта данных тип переменной присваивался по первым строкам. Поэтому, когда тип данных изменился с TinyINT на INT, он усекся или изменился на «NULL». Чтобы решить эту проблему, выполните EDA и измените тип данных перед созданием таблицы.

Другие проблемы заключались в том, что память, которую я выделил виртуальной машине, замедляла процесс предварительного просмотра и что файл csv содержал запятые. Вы можете настроить виртуальную машину так, чтобы у нее было больше памяти, или изменить CSV на раздельные вкладки.

person IUF    schedule 21.10.2015
comment
И к вашему сведению, крошечное обнаружение было изменено на нечто большее, чтобы избежать этой проблемы: github.com/cloudera/ оттенок/фиксация/f25fbd9 - person Romain; 25.10.2015
comment
Спасибо, Роман, за ваши комментарии и продолжение. - person IUF; 29.10.2015