Вопросы по теме 'bigdata'

Генерация очень большой матрицы комбинаций строк с помощью combn() и пакета bigmemory
У меня есть вектор x из 1344 уникальных строк. Я хочу создать матрицу, которая дает мне все возможные группы из трех значений, независимо от порядка, и экспортировать ее в CSV. Я запускаю R на EC2 на экземпляре m1.large с 64-битной Ubuntu. При...
4283 просмотров
schedule 06.07.2022

Какое приблизительное количество слабоструктурированных данных достаточно для настройки кластера Hadoop?
Я знаю, что Hadoop — это не только альтернатива для обработки полуструктурированных данных в целом — я могу делать много вещей с помощью простых данных, разделенных табуляцией, и множества инструментов unix (cut, grep, sed, ...) и написанных от руки...
194 просмотров
schedule 23.04.2023

Советы по созданию очень большой базы данных хэшей
Вопрос: какое решение или какие советы вам придется иметь при работе с очень большой (многотерабайтной) базой данных, индексированной на сильных хэшах с высокой избыточностью? Какое-то перевернутое хранилище? Есть ли что-то, что можно сделать с...
1362 просмотров
schedule 11.02.2023

Работа с большим файлом CSV в MATLAB
Мне приходится работать с большим файлом CSV, до 2 ГБ. В частности, я должен загрузить все эти данные в базу данных mySQL, но прежде чем мне нужно будет сделать несколько расчетов, поэтому мне нужно сделать все это в MATLAB (также мой руководитель...
4795 просмотров
schedule 15.12.2022

Балансировка нагрузки по модулю без мьютекса?
Возможно, я ошибаюсь, но вот моя проблема и предлагаемое решение: У вас есть файл размером 50+ гигабайт с сотнями миллионов независимых записей, которые необходимо обработать очень быстро. Мое текущее решение - 74 миллиона записей в час. Я...
444 просмотров

ML/Data Mining/Big Data: популярный язык для программирования и поддержки сообщества.
Я не уверен, что этот вопрос правильный, но я прошу развеять сомнения, которые у меня есть. Для Machine Learning/Data Mining нам нужно узнать о данных, а значит, вам нужно изучить Hadoop , у которого есть реализация в Java для MapReduce...
1369 просмотров
schedule 22.04.2022

Какой формат используют такие сайты, как Facebook, для хранения данных личных профилей?
Недавно я начал работать с большими наборами данных, хранящихся в XML-файлах. Меня всегда интересовало, как Facebook и другие сетевые сайты хранят всю информацию, связанную с отдельными профилями (имя, изображение профиля, сообщения на стене и т....
10469 просмотров
schedule 03.12.2023

Преобразование больших данных в транзакции из пакета arules
Пакет arules в R использует класс «транзакции». Итак, чтобы использовать функцию apriori() , мне нужно преобразовать существующие данные. У меня есть матрица с 2 столбцами и строками примерно 1,6 мм, и я попытался преобразовать данные следующим...
2849 просмотров
schedule 08.08.2022

Обработка и анализ больших данных в R
Я знаю, что это не новая концепция в R, и я просмотрел представление задач высокой производительности и параллельных вычислений. С учетом сказанного, я задаю этот вопрос с точки зрения невежества, поскольку у меня нет формального образования в...
3572 просмотров
schedule 30.01.2023

Akka для моделирования
Я новичок в akka и шаблоне актера, поэтому не уверен, что он соответствует моим потребностям. Я хочу создать симуляцию с akka и миллионами сущностей (думаю, как объекты предметной области — позже действующие лица), которые могут влиять друг на...
1288 просмотров
schedule 08.11.2022

Какое решение NoSql выбрать?
У меня есть система, распределенная по десяткам серверов. Он должен выполнять около 10000 операций чтения и записи в секунду. Размер записи составляет несколько килобайт. Целостность данных не очень важна. Какое решение NoSql выбрать? Спасибо!...
555 просмотров
schedule 08.05.2023

Haskell: Могу ли я выполнить несколько сверток одного и того же ленивого списка, не сохраняя список в памяти?
Мой контекст — биоинформатика, в частности секвенирование нового поколения, но проблема общая; поэтому я буду использовать файл журнала в качестве примера. Файл очень большой (гигабайты большие, сжатые, так что не поместится в памяти), но его...
831 просмотров

OrientDB GraphED - возможен ли пользовательский идентификатор записи? поиск очень медленный для 1.5M записей
Версия Orient: Официальный дистрибутив OrientDB Graph Edition 1.0.1 Я пытаюсь построить график, совместимый с Blueprints, с вставками SQL OrientDB (быстрее, чем g.addVertex и без ошибок OutOfMemory). При создании 1,5 млн записей вставка...
1262 просмотров
schedule 16.04.2023

Полнотекстовый поиск CMS для больших данных
В настоящее время у меня есть приложение, в котором пользователи загружают документ (pdfs/excel/word, несколько изображений). Ищете решение для больших данных (Hadoop-MangoDB), где можно хранить тысячи файлов pdf, word, excel (поскольку размер...
467 просмотров

Лучшее решение для поиска пересечения 1 x 1 миллион наборов? Редис, Монго, другие
Привет всем и заранее спасибо. Я новичок в игре NoSQL, но мое нынешнее место работы поставило передо мной задачу сравнивать наборы некоторых больших данных. В нашей системе есть набор тегов клиентов и целевые наборы тегов. Тег — это 8-значное...
7561 просмотров
schedule 19.12.2022

Быстрое сохранение\загрузка больших данных
У меня есть следующий класс: public class HPChartGraphPoint { public int Keyword { get; set; } public List<long> Points { get; set; } public HPChartGraphPoint() { Points = new List<long>(); } public...
958 просмотров
schedule 08.08.2022

нужно решение для архивирования журналов и наличия функции поиска в реальном времени
Я рассматривал следующие варианты. senseidb [http://www.senseidb.com] Для этого требуется фиксированная схема, а также шлюзы данных. Таким образом, нет простого способа передавать данные, кроме предоставления потоков данных. Мои данные...
1574 просмотров

Google App Engine: параметры данных
Google App Engine предоставляет вам на выбор три решения для сохранения состояния: NoSQL Datastore - "предоставляет хранилище данных объектов NoSQL без схемы, с механизмом запросов и атомарными транзакциями" Cloud SQL - «предоставляет...
245 просмотров
schedule 01.06.2022

xml превышает возможности функции извлечения значения MySQL, как я могу это решить?
Я подхожу к концу здесь. Мой XML (данные) слишком велик для обработки функцией extractvalue. когда длина «данных» составляет около 10 КБ, он работает, но когда он превышает 30 КБ, он дает мне ноль EXTRACTVALUE(data,'/a/b') as var1 Может...
227 просмотров
schedule 29.11.2022

Добавить ‹каталог› в hive cli
я хочу что-то вроде $hive > ADD FILE <directory_path>; который добавляет каталог в рабочий каталог куста. Я использую hive 0.7. Это нужно для добавления пакетов Python, которые будут использоваться скриптами mapper/reducer. Какие...
1297 просмотров
schedule 25.04.2023