Публикации по теме 'hive'
Что такое секционирование и группировка в Apache Hive? (Разделение против сегментирования)
Изучение секционирования и кластеризации в таблице Hive и понимание того, когда делать секционирование, а когда кластеризацию.
Привет, ребята,
Apache Hive — одно из популярных хранилищ данных в распределенных кластерных средах. Улей Apache используется для хранения огромных объемов данных, которые можно обрабатывать быстро, параллельно и эффективно в среде HDFS (распределенная файловая система Hadoop). Чтобы сократить время доступа к запросам Hive, таблицы Hive можно хранить..
Расширенные концепции Hive и разбиение файлов данных
Добро пожаловать на урок Расширенная концепция Hive и разбиение файлов данных , который является частью онлайн-тренинга по работе с большими данными с помощью hadoop », предлагаемого OnlineItGuru.
В этом уроке представлен обзор функций секционирования HIVE, которые используются для повышения производительности SQL-запросов. Вы также узнаете о языке запросов Hive и о том, как его можно расширить для повышения производительности запросов.
Давайте сначала посмотрим на цели.
Цели
По..
Неделя первая августовской Piscine Hive: блуждания пловца
Еще в феврале некоторые люди сообщили мне о новом типе школы кодирования, которая откроется позже в этом году, под названием Hive. Они открывали двери для абитуриентов из самых разных слоев общества: молодые люди, только что окончившие школу, студенты колледжей, заинтересованные в получении нового типа образования, или даже такие, как я; «старшая» толпа надеется изменить свое будущее. Миссия Hive проста: научить людей программировать, используя более новую и более эффективную..
Вопросы по теме 'hive'
Можно ли выполнять OLAP в BigTable?
Раньше я создавал WebAnalytics с использованием кубов OLAP, работающих на MySQL. Теперь OLAP-куб, как я его использовал, представляет собой просто большую таблицу (хорошо, она хранилась немного умнее), где каждая строка в основном представляет собой...
8067 просмотров
schedule
22.02.2022
Параметры веб-интерфейса Hadoop Hive
Я экспериментировал с Hive для некоторых операций по интеллектуальному анализу данных и хотел бы сделать его легко доступным для менее ориентированных на командную строку коллег.
Hive теперь поставляется с веб-интерфейсом (...
7440 просмотров
schedule
09.12.2022
Реестр на базе Hive во Flash
Для начала скажу, что прочитал сообщение здесь и у меня все еще есть проблемы.
Я пытаюсь создать образ CE6 с реестром на основе улья, который фактически сохраняет результаты после перезагрузки.
Я отметил настройки улья в элементах каталога....
2891 просмотров
schedule
12.03.2024
Использование улья со свиньей
Мой запрос куста имеет несколько внешних объединений и занимает очень много времени для выполнения. Мне было интересно, имеет ли смысл разбить его на несколько более мелких запросов и использовать свинью для выполнения преобразований.
Есть ли...
3673 просмотров
schedule
14.09.2022
Есть ли в Hive функция разделения строк?
Я ищу встроенную функцию разделения строк в Hive? например если строка:
A|B|C|D|E
Затем я хочу иметь такую функцию, как:
array<string> split(string input, char delimiter)
Чтобы я вернулся:
[A,B,C,D,E]
Существует...
138054 просмотров
schedule
10.10.2022
Как мне разбить данные в s3 для использования с ульем Hadoop?
У меня есть ведро s3, содержащее около 300 ГБ файлов журнала в произвольном порядке.
Я хочу разделить эти данные для использования в hadoop-hive, используя отметку даты и времени, чтобы строки журнала, относящиеся к определенному дню, были...
2077 просмотров
schedule
23.04.2023
Возможность ограничить максимальное количество редукторов для работы с картами улья Hadoop?
Я попытался добавить свой запрос с помощью:
set mapred.running.reduce.limit = 25;
А также
set hive.exec.reducers.max = 35;
Последний из них заключил в тюрьму работу с 530 редукторами до 35 ... что заставляет меня думать, что он...
4984 просмотров
schedule
23.03.2023
Hive, hadoop и механика hive.exec.reducers.max
В контексте этого другого вопроса здесь
Использование директивы hive.exec.reducers.max меня действительно озадачило.
С моей точки зрения, я думал, что hive работает по какой-то логике, например, у меня есть N # блоков в желаемом запросе,...
2872 просмотров
schedule
26.03.2024
Как заставить улей загружать мета-хранилище с определенного пути вместо создания в текущем каталоге?
Я использую Hive для обработки данных. Но всякий раз, когда я запускаю Hive-Shell, он создает хранилище метаданных в текущем каталоге, и я не могу получить доступ к своим таблицам, которые я создал в другом каталоге. Меня немного раздражает то, что...
2122 просмотров
schedule
16.10.2023
Hadoop Hive — Разделить строку
Я новый куст.
Мой запрос: В файле журнала у нас есть поле запроса, подобное этому GET /img/home/search-user-ico.jpg HTTP/1.1. Доступно более 10 000 записей.
Пример:
GET /img/home/search-user-ico.jpg HTTP/1.1 GET...
4153 просмотров
schedule
01.01.2024
Выражение куста не в группе по ключу
Я создаю таблицу в HIVE. Он имеет следующие столбцы:
id bigint, rank bigint, date string
Я хочу получить среднее (ранг) в месяц. Я могу использовать эту команду. Оно работает.
select a.lens_id, avg(a.rank)
from tableA a
group by...
84224 просмотров
schedule
08.02.2023
Заменить разделитель при экспорте в файл из Hive
При выполнении INSERT OVERWRITE LOCAL DIRECTORY можно указать используемый разделитель?
Для столбцов, коллекций, карт, массивов... Весь спектр использования разделителя.
Документ или что-то подобное, показывающее, как реализовать, было бы...
4820 просмотров
schedule
26.07.2023
Пользовательская программа уменьшения карты в Hive, каково правило? Как насчет ввода и вывода?
Я застрял на несколько дней, потому что я хочу создать пользовательскую программу уменьшения карты на основе моего запроса в улье, я нашел не так много примеров после поиска в Google, и я все еще не понимаю правила.
Каково правило для создания моей...
19888 просмотров
schedule
05.11.2022
Как лучше всего поддерживать типы столбцов массива с внешними таблицами в улье?
Итак, у меня есть внешние таблицы данных с разделителями табуляции. Простая таблица выглядит так:
create external table if not exists categories
(id string, tag string, legid string, image string, parent string, created_date string, time_stamp...
9163 просмотров
schedule
21.10.2022
Проблема с установкой Hive при пошаговом следовании вики Hive apache
После того, как шаг за шагом установил Hive по инструкции на вики Hive apache, я вызвал оболочку hive и набрал «CREATE TABLE pokes (foo INT, bar STRING);», после чего появляется следующая ошибка, журнал также включен.
Я новичок в Hive, какие-либо...
3806 просмотров
schedule
24.06.2023
Hive не работает при установке
Я получаю следующую ошибку в Hive при выполнении любой команды.
hive> show tables;
FAILED: Error in metadata: javax.jdo.JDOFatalInternalException: Unexpected exception caught.
NestedThrowables:
java.lang.reflect.InvocationTargetException...
14938 просмотров
schedule
29.07.2022
Что не так с моим Hive-UDF? Как установить номер карты улья?
Я использую Hadoop-Hive для анализа журнала apache и доступа к статистике. Я пишу UDF с именем GetCity для преобразования remote_ip в название города, но когда я запускаю «select GetCity (remote_ip) from log_pre;», он работает очень медленно и даже...
1252 просмотров
schedule
25.03.2023
Отдельный для определенного столбца в Hive
Я запускаю Hive 071. У меня есть таблица с несколькими строками с одинаковым значением столбца, например.
| x | y |
| 1 | 2 |
| 1 | 3 |
| 1 | 4 |
| 2 | 2 |
| 3 | 2 |
| 3 | 1 |
Я хочу, чтобы столбец x был уникальным и удалял...
4027 просмотров
schedule
07.04.2022
Как Hive решает, когда использовать уменьшение карты, а когда нет?
В качестве простого примера
select * from tablename;
НЕ срабатывает при уменьшении карты, в то время как
select count(*) from tablename;
ДЕЛАЕТ. Какой общий принцип используется для принятия решения о том, когда использовать...
10176 просмотров
schedule
22.04.2023
NoSql или MySQL для анализа данных
У нас есть кластер (hadoop, pig), который крутит данные 350Gb (растет на пару ГБ в неделю).
Все эти данные должны быть доступны для аналитики.
У нас есть решение Msyql со звездообразной схемой (в него загружаются только части данных). Но...
7424 просмотров
schedule
17.01.2023