Вопросы по теме 'data-partitioning'

Синтаксис предиката при разбиении вектора указателей (C++)
У меня есть вектор указателей на объекты. Я хотел бы удалить объекты из этого вектора в соответствии с атрибутом, о котором сообщает функция-член. Я пытаюсь следовать хорошему примеру, который я нашел о том, как удалить определенные указатели (и...
362 просмотров
schedule 20.09.2022

python: создание целочисленных разделов
Мне нужно сгенерировать все разделы заданного целого числа. Я нашел этот алгоритм Джерома Келлехера, для которого он считается наиболее эффективным: def accelAsc(n): a = [0 for i in range(n + 1)] k = 1 a[0] = 0 y = n - 1...
3274 просмотров

Параллельная массовая загрузка с использованием переключения секций индексированной таблицы в SQL Server 2008
Это продолжение предыдущего вопроса мой после того, как я определенно выбрал переключение разделов как лучший способ быстро получить данные в сильно проиндексированную таблицу типов фактов, которая должна оставаться доступной для читателей....
1240 просмотров

Haskell — экземпляр типа соответствия
Я определил тип Haskell, подобный следующему: data TypeData = TypeA Int | TypeB String | TypeC Char deriving (Eq, Show) В какой-то момент мне нужен способ отфильтровать [TypeData] для всех экземпляров, отличных от TypeC. Подпись функции,...
211 просмотров

От раздела диапазона к интервалу диапазона
Я хотел бы перейти от Range Partition к Range-Interval, но моя текущая таблица имеет раздел на MAXVALUE , а столбец, используемый для разделения, допускает нулевые значения :( Например: Допустим, у нас есть: create table a (b number) partition...
2074 просмотров
schedule 13.10.2023

Как дождаться завершения потоков без блокировки графического интерфейса?
У меня есть массив из 2863 объектов. Я хочу, чтобы в двух «прогонах» на 1000 объектов читались данные массива 4 потоками (количество процессоров под управлением ПК). В настоящее время мой исходный код разбивает данные, чтобы исправить количество...
3621 просмотров
schedule 03.08.2023

Cassandra не балансирует данные по существующим узлам в кластере
Здравствуйте, я настроил кластер Cassandra 1.2.12 с 3 узлами, и я могу подключиться к мастеру и создать пространства ключей и таблицы на всех узлах. Однако я хочу запустить YCSB в своем кластере, поэтому, когда я запускаю YCSB и загружаю данные, все...
1559 просмотров
schedule 01.01.2023

Хранилище таблиц Azure: лучший способ настроить раздел и ключ строки для данных комментариев?
Я очень новичок в хранилище таблиц Azure, и концепция ключа секции по-прежнему является областью, в которой я еще не уверен, правильно ли я действую. Ниже предложено мое решение для хранения данных комментариев к сообщениям в блоге . Я все...
257 просмотров

Сгенерировать все разделы целочисленного массива
Числа Белла подсчитывают количество разделов набора. Я хочу сгенерировать все возможные разделы моего целочисленного массива. Например, у меня есть следующий целочисленный массив: {1, 2, 3, 4} . Тогда есть 15 разделов. Есть ли простой...
279 просмотров

Как получить наиболее однородные результаты разделения?
Я не знаю, есть ли какой-либо алгоритм для получения оптимального раздела для раздела данных на основе ключа (необходимо обеспечить одинаковые ключевые записи в одном и том же результирующем наборе данных). Например: у меня есть набор данных,...
87 просмотров

SQL для проверки, когда пары не совпадают
Я использую SQL Server 2012. У меня есть следующие образцы данных. Date Type Symbol Price 6/30/1995 gaus 313586U72 109.25 6/30/1995 gbus 313586U72 108.94 6/30/1995 csus NES 34.5 6/30/1995 lcus NES...
397 просмотров

awk Разделение огромного файла создает ошибку слишком много открытых файлов
У меня есть сценарий bash для разделения огромного входного файла — на данный момент он составляет 400 МБ, позже сценарий должен разделить файл размером 4 ГБ. Ядром этой обработки является следующий awk-скрипт: INPUTFILE="FA.txt" awk -F $'\t'...
277 просмотров

как написать запрос usql для вывода в несколько файлов
я хочу сгруппировать набор данных на основе уникальных значений в столбце и сохранить их в несколько файлов. Моя проблема такая же, как уже описана здесь по ссылке: U -Вывод SQL в Azure Data Lake Поскольку я новичок в языке USQL, я не могу...
473 просмотров
schedule 26.03.2023

Как проверить, для какого столбца создать индекс для оптимизации производительности
У меня есть запрос ниже, который требует слишком много времени, и мне нужно оптимизировать производительность запроса. Ни в одной из таблиц нет индекса. Но теперь для оптимизации производительности запросов я думаю создать index. Но не уверен, в...
85 просмотров

Раздел данных в пакете Caret и переобучение
Я читал пакет Caret и увидел этот код; createDataPartition(y, times = 1, p = 0.5, list = TRUE, groups = min(5, length(y))) Меня интересует выражение «times». Итак, если я использую этот код, inTrain2 <- createDataPartition(y =...
328 просмотров

Может ли улей метастор виртуально разделить данные на основе значения столбца без физического изменения структуры каталогов?
В качестве примера рассмотрим, что у меня есть данные обо всех произошедших крупных спортивных событиях. Схема приведена ниже. Имя события, Дата, Месяц, Год, Город Это данные, которые физически структурированы в HDFS по году, дате, месяцу....
84 просмотров

Выбор начальных медоидов в алгоритме PAM
Я прочитал несколько разных статей о том, как PAM выбирает начальные медоиды, но я получаю противоречивые мнения. Некоторые предполагают, что k первых медоидов выбираются случайным образом, в то время как другие предполагают, что алгоритм...
227 просмотров
schedule 14.06.2022

Проверить наличие X ошибок/проходов?
У меня есть быстрый вопрос, который я пытался выяснить на Прологе. Есть ли способ проверить хотя бы X ошибок (или прохождения) в предикате? Например, здесь я мог бы проверить, меньше или равно ли одно из значений 20, но я пытаюсь проверить их все...
41 просмотров
schedule 05.11.2022

Разбиение таблицы BigQuery на разделы на основе вложенного столбца
Я пытаюсь разделить таблицу BigQuery на основе метки времени, но столбец, который я хочу использовать для разделения, является вложенным столбцом и имеет родительскую запись. Например: transaction.timestamp . Я хотел бы передать имя столбца как...
318 просмотров
schedule 04.02.2023

R's caTools Sample.Split Результаты неверны
Я хотел бы предварить свой вопрос, заявив, что это распространенная проблема: Неправильное разделение данных использование sample.split в R и проблема с логистической регрессией Результаты SplitRatio с помощью sample.split (caTools) Тем...
56 просмотров
schedule 30.10.2022