Публикации по теме 'hive'


Что такое секционирование и группировка в Apache Hive? (Разделение против сегментирования)
Изучение секционирования и кластеризации в таблице Hive и понимание того, когда делать секционирование, а когда кластеризацию. Привет, ребята, Apache Hive — одно из популярных хранилищ данных в распределенных кластерных средах. Улей Apache используется для хранения огромных объемов данных, которые можно обрабатывать быстро, параллельно и эффективно в среде HDFS (распределенная файловая система Hadoop). Чтобы сократить время доступа к запросам Hive, таблицы Hive можно хранить..

Расширенные концепции Hive и разбиение файлов данных
Добро пожаловать на урок Расширенная концепция Hive и разбиение файлов данных , который является частью онлайн-тренинга по работе с большими данными с помощью hadoop », предлагаемого OnlineItGuru. В этом уроке представлен обзор функций секционирования HIVE, которые используются для повышения производительности SQL-запросов. Вы также узнаете о языке запросов Hive и о том, как его можно расширить для повышения производительности запросов. Давайте сначала посмотрим на цели. Цели По..

Неделя первая августовской Piscine Hive: блуждания пловца
Еще в феврале некоторые люди сообщили мне о новом типе школы кодирования, которая откроется позже в этом году, под названием Hive. Они открывали двери для абитуриентов из самых разных слоев общества: молодые люди, только что окончившие школу, студенты колледжей, заинтересованные в получении нового типа образования, или даже такие, как я; «старшая» толпа надеется изменить свое будущее. Миссия Hive проста: научить людей программировать, используя более новую и более эффективную..

Вопросы по теме 'hive'

Можно ли выполнять OLAP в BigTable?
Раньше я создавал WebAnalytics с использованием кубов OLAP, работающих на MySQL. Теперь OLAP-куб, как я его использовал, представляет собой просто большую таблицу (хорошо, она хранилась немного умнее), где каждая строка в основном представляет собой...
8067 просмотров
schedule 22.02.2022

Параметры веб-интерфейса Hadoop Hive
Я экспериментировал с Hive для некоторых операций по интеллектуальному анализу данных и хотел бы сделать его легко доступным для менее ориентированных на командную строку коллег. Hive теперь поставляется с веб-интерфейсом (...
7440 просмотров
schedule 09.12.2022

Реестр на базе Hive во Flash
Для начала скажу, что прочитал сообщение здесь и у меня все еще есть проблемы. Я пытаюсь создать образ CE6 с реестром на основе улья, который фактически сохраняет результаты после перезагрузки. Я отметил настройки улья в элементах каталога....
2891 просмотров

Использование улья со свиньей
Мой запрос куста имеет несколько внешних объединений и занимает очень много времени для выполнения. Мне было интересно, имеет ли смысл разбить его на несколько более мелких запросов и использовать свинью для выполнения преобразований. Есть ли...
3673 просмотров
schedule 14.09.2022

Есть ли в Hive функция разделения строк?
Я ищу встроенную функцию разделения строк в Hive? например если строка: A|B|C|D|E Затем я хочу иметь такую ​​​​функцию, как: array<string> split(string input, char delimiter) Чтобы я вернулся: [A,B,C,D,E] Существует...
138054 просмотров
schedule 10.10.2022

Как мне разбить данные в s3 для использования с ульем Hadoop?
У меня есть ведро s3, содержащее около 300 ГБ файлов журнала в произвольном порядке. Я хочу разделить эти данные для использования в hadoop-hive, используя отметку даты и времени, чтобы строки журнала, относящиеся к определенному дню, были...
2077 просмотров
schedule 23.04.2023

Возможность ограничить максимальное количество редукторов для работы с картами улья Hadoop?
Я попытался добавить свой запрос с помощью: set mapred.running.reduce.limit = 25; А также set hive.exec.reducers.max = 35; Последний из них заключил в тюрьму работу с 530 редукторами до 35 ... что заставляет меня думать, что он...
4984 просмотров
schedule 23.03.2023

Hive, hadoop и механика hive.exec.reducers.max
В контексте этого другого вопроса здесь Использование директивы hive.exec.reducers.max меня действительно озадачило. С моей точки зрения, я думал, что hive работает по какой-то логике, например, у меня есть N # блоков в желаемом запросе,...
2872 просмотров
schedule 26.03.2024

Как заставить улей загружать мета-хранилище с определенного пути вместо создания в текущем каталоге?
Я использую Hive для обработки данных. Но всякий раз, когда я запускаю Hive-Shell, он создает хранилище метаданных в текущем каталоге, и я не могу получить доступ к своим таблицам, которые я создал в другом каталоге. Меня немного раздражает то, что...
2122 просмотров
schedule 16.10.2023

Hadoop Hive — Разделить строку
Я новый куст. Мой запрос: В файле журнала у нас есть поле запроса, подобное этому GET /img/home/search-user-ico.jpg HTTP/1.1. Доступно более 10 000 записей. Пример: GET /img/home/search-user-ico.jpg HTTP/1.1 GET...
4153 просмотров
schedule 01.01.2024

Выражение куста не в группе по ключу
Я создаю таблицу в HIVE. Он имеет следующие столбцы: id bigint, rank bigint, date string Я хочу получить среднее (ранг) в месяц. Я могу использовать эту команду. Оно работает. select a.lens_id, avg(a.rank) from tableA a group by...
84224 просмотров
schedule 08.02.2023

Заменить разделитель при экспорте в файл из Hive
При выполнении INSERT OVERWRITE LOCAL DIRECTORY можно указать используемый разделитель? Для столбцов, коллекций, карт, массивов... Весь спектр использования разделителя. Документ или что-то подобное, показывающее, как реализовать, было бы...
4820 просмотров
schedule 26.07.2023

Пользовательская программа уменьшения карты в Hive, каково правило? Как насчет ввода и вывода?
Я застрял на несколько дней, потому что я хочу создать пользовательскую программу уменьшения карты на основе моего запроса в улье, я нашел не так много примеров после поиска в Google, и я все еще не понимаю правила. Каково правило для создания моей...
19888 просмотров
schedule 05.11.2022

Как лучше всего поддерживать типы столбцов массива с внешними таблицами в улье?
Итак, у меня есть внешние таблицы данных с разделителями табуляции. Простая таблица выглядит так: create external table if not exists categories (id string, tag string, legid string, image string, parent string, created_date string, time_stamp...
9163 просмотров
schedule 21.10.2022

Проблема с установкой Hive при пошаговом следовании вики Hive apache
После того, как шаг за шагом установил Hive по инструкции на вики Hive apache, я вызвал оболочку hive и набрал «CREATE TABLE pokes (foo INT, bar STRING);», после чего появляется следующая ошибка, журнал также включен. Я новичок в Hive, какие-либо...
3806 просмотров
schedule 24.06.2023

Hive не работает при установке
Я получаю следующую ошибку в Hive при выполнении любой команды. hive> show tables; FAILED: Error in metadata: javax.jdo.JDOFatalInternalException: Unexpected exception caught. NestedThrowables: java.lang.reflect.InvocationTargetException...
14938 просмотров
schedule 29.07.2022

Что не так с моим Hive-UDF? Как установить номер карты улья?
Я использую Hadoop-Hive для анализа журнала apache и доступа к статистике. Я пишу UDF с именем GetCity для преобразования remote_ip в название города, но когда я запускаю «select GetCity (remote_ip) from log_pre;», он работает очень медленно и даже...
1252 просмотров
schedule 25.03.2023

Отдельный для определенного столбца в Hive
Я запускаю Hive 071. У меня есть таблица с несколькими строками с одинаковым значением столбца, например. | x | y | | 1 | 2 | | 1 | 3 | | 1 | 4 | | 2 | 2 | | 3 | 2 | | 3 | 1 | Я хочу, чтобы столбец x был уникальным и удалял...
4027 просмотров
schedule 07.04.2022

Как Hive решает, когда использовать уменьшение карты, а когда нет?
В качестве простого примера select * from tablename; НЕ срабатывает при уменьшении карты, в то время как select count(*) from tablename; ДЕЛАЕТ. Какой общий принцип используется для принятия решения о том, когда использовать...
10176 просмотров
schedule 22.04.2023

NoSql или MySQL для анализа данных
У нас есть кластер (hadoop, pig), который крутит данные 350Gb (растет на пару ГБ в неделю). Все эти данные должны быть доступны для аналитики. У нас есть решение Msyql со звездообразной схемой (в него загружаются только части данных). Но...
7424 просмотров
schedule 17.01.2023