Публикации по тегам bigdata

Вопросы по теме 'bigdata'

Генерация очень большой матрицы комбинаций строк с помощью combn() и пакета bigmemory

У меня есть вектор x из 1344 уникальных строк. Я хочу создать матрицу, которая дает мне все возможные группы из трех значений, независимо от порядка, и экспортировать ее в CSV. Я запускаю R на EC2 на экземпляре m1.large с 64-битной Ubuntu. При...

4283 просмотров

r bigdata combinatorics

06.07.2022

Какое приблизительное количество слабоструктурированных данных достаточно для настройки кластера Hadoop?

Я знаю, что Hadoop — это не только альтернатива для обработки полуструктурированных данных в целом — я могу делать много вещей с помощью простых данных, разделенных табуляцией, и множества инструментов unix (cut, grep, sed, ...) и написанных от руки...

194 просмотров

hadoop bigdata

23.04.2023

Советы по созданию очень большой базы данных хэшей

Вопрос: какое решение или какие советы вам придется иметь при работе с очень большой (многотерабайтной) базой данных, индексированной на сильных хэшах с высокой избыточностью? Какое-то перевернутое хранилище? Есть ли что-то, что можно сделать с...

1362 просмотров

database bigdata hash inverted-index

11.02.2023

Работа с большим файлом CSV в MATLAB

Мне приходится работать с большим файлом CSV, до 2 ГБ. В частности, я должен загрузить все эти данные в базу данных mySQL, но прежде чем мне нужно будет сделать несколько расчетов, поэтому мне нужно сделать все это в MATLAB (также мой руководитель...

4795 просмотров

mysql file-io csv matlab bigdata

15.12.2022

Балансировка нагрузки по модулю без мьютекса?

Возможно, я ошибаюсь, но вот моя проблема и предлагаемое решение: У вас есть файл размером 50+ гигабайт с сотнями миллионов независимых записей, которые необходимо обработать очень быстро. Мое текущее решение - 74 миллиона записей в час. Я...

444 просмотров

c++ multithreading pthreads large-files bigdata

14.10.2022

ML/Data Mining/Big Data: популярный язык для программирования и поддержки сообщества.

Я не уверен, что этот вопрос правильный, но я прошу развеять сомнения, которые у меня есть. Для Machine Learning/Data Mining нам нужно узнать о данных, а значит, вам нужно изучить Hadoop , у которого есть реализация в Java для MapReduce...

1369 просмотров

python java machine-learning hadoop bigdata

22.04.2022

Какой формат используют такие сайты, как Facebook, для хранения данных личных профилей?

Недавно я начал работать с большими наборами данных, хранящихся в XML-файлах. Меня всегда интересовало, как Facebook и другие сетевые сайты хранят всю информацию, связанную с отдельными профилями (имя, изображение профиля, сообщения на стене и т....

10469 просмотров

xml facebook database storage bigdata

03.12.2023

Преобразование больших данных в транзакции из пакета arules

Пакет arules в R использует класс «транзакции». Итак, чтобы использовать функцию apriori() , мне нужно преобразовать существующие данные. У меня есть матрица с 2 столбцами и строками примерно 1,6 мм, и я попытался преобразовать данные следующим...

2849 просмотров

r transactions bigdata apriori

08.08.2022

Обработка и анализ больших данных в R

Я знаю, что это не новая концепция в R, и я просмотрел представление задач высокой производительности и параллельных вычислений. С учетом сказанного, я задаю этот вопрос с точки зрения невежества, поскольку у меня нет формального образования в...

3572 просмотров

r bigdata

30.01.2023

Akka для моделирования

Я новичок в akka и шаблоне актера, поэтому не уверен, что он соответствует моим потребностям. Я хочу создать симуляцию с akka и миллионами сущностей (думаю, как объекты предметной области — позже действующие лица), которые могут влиять друг на...

1288 просмотров

bigdata akka simulation

08.11.2022

Какое решение NoSql выбрать?

У меня есть система, распределенная по десяткам серверов. Он должен выполнять около 10000 операций чтения и записи в секунду. Размер записи составляет несколько килобайт. Целостность данных не очень важна. Какое решение NoSql выбрать? Спасибо!...

555 просмотров

nosql database bigdata

08.05.2023

Haskell: Могу ли я выполнить несколько сверток одного и того же ленивого списка, не сохраняя список в памяти?

Мой контекст — биоинформатика, в частности секвенирование нового поколения, но проблема общая; поэтому я буду использовать файл журнала в качестве примера. Файл очень большой (гигабайты большие, сжатые, так что не поместится в памяти), но его...

831 просмотров

performance bigdata lazy-evaluation haskell

12.04.2022

OrientDB GraphED - возможен ли пользовательский идентификатор записи? поиск очень медленный для 1.5M записей

Версия Orient: Официальный дистрибутив OrientDB Graph Edition 1.0.1 Я пытаюсь построить график, совместимый с Blueprints, с вставками SQL OrientDB (быстрее, чем g.addVertex и без ошибок OutOfMemory). При создании 1,5 млн записей вставка...

1262 просмотров

console bigdata gremlin orientdb

16.04.2023

Полнотекстовый поиск CMS для больших данных

В настоящее время у меня есть приложение, в котором пользователи загружают документ (pdfs/excel/word, несколько изображений). Ищете решение для больших данных (Hadoop-MangoDB), где можно хранить тысячи файлов pdf, word, excel (поскольку размер...

467 просмотров

full-text-search bigdata content-management-system

08.06.2022

Лучшее решение для поиска пересечения 1 x 1 миллион наборов? Редис, Монго, другие

Привет всем и заранее спасибо. Я новичок в игре NoSQL, но мое нынешнее место работы поставило передо мной задачу сравнивать наборы некоторых больших данных. В нашей системе есть набор тегов клиентов и целевые наборы тегов. Тег — это 8-значное...

7561 просмотров

nosql mongodb redis bigdata

19.12.2022

Быстрое сохранение\загрузка больших данных

У меня есть следующий класс: public class HPChartGraphPoint { public int Keyword { get; set; } public List<long> Points { get; set; } public HPChartGraphPoint() { Points = new List<long>(); } public...

958 просмотров

.net c# bigdata

08.08.2022

нужно решение для архивирования журналов и наличия функции поиска в реальном времени

Я рассматривал следующие варианты. senseidb [http://www.senseidb.com] Для этого требуется фиксированная схема, а также шлюзы данных. Таким образом, нет простого способа передавать данные, кроме предоставления потоков данных. Мои данные...

1574 просмотров

riak archive full-text-search hadoop bigdata

20.05.2022

Google App Engine: параметры данных

Google App Engine предоставляет вам на выбор три решения для сохранения состояния: NoSQL Datastore - "предоставляет хранилище данных объектов NoSQL без схемы, с механизмом запросов и атомарными транзакциями" Cloud SQL - «предоставляет...

245 просмотров

java nosql cloud google-app-engine bigdata

01.06.2022

xml превышает возможности функции извлечения значения MySQL, как я могу это решить?

Я подхожу к концу здесь. Мой XML (данные) слишком велик для обработки функцией extractvalue. когда длина «данных» составляет около 10 КБ, он работает, но когда он превышает 30 КБ, он дает мне ноль EXTRACTVALUE(data,'/a/b') as var1 Может...

227 просмотров

mysql xml bigdata extract

29.11.2022

Добавить ‹каталог› в hive cli

я хочу что-то вроде $hive > ADD FILE <directory_path>; который добавляет каталог в рабочий каталог куста. Я использую hive 0.7. Это нужно для добавления пакетов Python, которые будут использоваться скриптами mapper/reducer. Какие...

1297 просмотров

hadoop hive bigdata hadoop-streaming

25.04.2023