Когда я прошел первые шаги обучения с Kinesis, Firehose и Redshift сегодня, я был рад обнаружить, что у Amazon есть настройка «попробуйте наш производитель демонстрационных данных».
Я был разочарован, узнав, что на самом деле это не работает.
Итак, я пошел копать. И я обнаружил, что STL_LOAD_ERROR
содержал ошибки, предполагающие, что ожидался разделитель, и записи, которые выглядели как {field:val,field:val}{field:val,field:val}
.
...{"TICKER_SYMBOL": | 1214 | Delimiter not found
«Должно быть, где-то зачищает новые строки», — подумал я.
Покопавшись, я обнаружил, что в соответствующем сегменте S3 есть производственные записи в неожиданном формате:
{field:val,field:val}{field:val,field:val}...
То есть между кажущимися записями нет разделителей, которые представляют собой однострочные файлы по несколько десятков К каждый.
Другие сообщения SO, похоже, предполагают, что это ожидаемый формат данных.
Почему Redshift нужны данные в формате, который не используется в демонстрации данных? Что мне перенастроить?