Публикации по теме 'big-data'


Как сгенерировать паркетные файлы на Java
Parquet - это формат файла с открытым исходным кодом от Apache для инфраструктуры Hadoop. Ну, он начинался как формат файла для Hadoop, но с тех пор стал очень популярным, и даже поставщики облачных услуг, такие как AWS, начали поддерживать этот формат файла. Это могло означать только то, что Parquet должен что-то делать правильно. В этом посте мы увидим, что именно представляет собой формат файла Parquet, а затем мы увидим простой пример Java для создания или записи файлов Parquet...

10 главных грубых ошибок в работе с большими данными, часть 2
В первой части сериала Dr. Stonebraker обрисовал в общих чертах пять способов узнать наверняка, что компании делают ошибки в своих планах и внедрении больших данных . Он много внимания уделял тому, чтобы компании упустили возможность не нанимать лучших специалистов и не перейти в облако. Давайте рассмотрим следующие пять грубых ошибок в работе с большими данными, чтобы решить, следует ли вам оставаться в организации или уйти. [Статья по теме: 10 основных грубых ошибок в..

QCONSP2015 / Убер
Очень информативная презентация об архитектуре программного обеспечения и инфраструктуре программного обеспечения Uber с Дэнни Юаном и Амосом Баррето. В основном следующие предпосылки напоминают управляемую событиями и распределенную архитектуру программного обеспечения. Обнаружение неработающих хостов в кластерной среде с помощью протокола: SWIM — масштабируемый, слабо согласованный стиль заражения, протокол членства в группе процессов VS протокол Heartbeat. Ringpop для..

Богатые данными становятся богаче - современное состояние искусственного интеллекта (часть 1)
Вы, наверное, не упустили из виду, что в наши дни много обсуждают искусственный интеллект (ИИ) и машинное обучение. В этом блоге, состоящем из двух частей, мы рассмотрим, что такое ИИ и его эффекты, а затем исследуем состояние ИИ в Скандинавии. Искусственный интеллект окажет значительное влияние на экономику, компании и отдельных людей в ближайшие годы и создаст новый, увеличивающийся цифровой разрыв между «Имуществом» (данные, программное обеспечение, капитал, ресурсы, таланты) и..

Практическое руководство по созданию корпоративной сети знаний для анализа инвестиций
Как решить практические задачи при построении реального сервиса Enterprise Knowledge Graph Это прикладной документ о том, как решать проблемы при разработке службы Enterprise Knowledge Graph (EKG), которая включает информацию о 40 000 000 компаний. Я считаю, что этот документ весьма полезен с практической точки зрения, если кто-то хочет построить ЭКГ для реального бизнеса. Поэтому я пишу это резюме, чтобы сэкономить ваше время. Если вы хотите узнать подробности, я рекомендую..

Четвертая промышленная революция.
В настоящее время я вижу, что все пытаются сделать оговорку в 4-й промышленной революции, особенно в быстрорастущих технологических отраслях, разговоры об IoT, машинном обучении, искусственном интеллекте, робототехнике, глубоком обучении и всей идее Bigdata, но немалый процент персонала обладают этими навыками, но не могут получить доступ к необходимым ресурсам. как я могу защищать большие данные, если у меня нет даже доступа к электричеству, не говоря уже об Интернете? Как я должен..

Ускорение обработки больших данных с помощью оптимизации Spark
Самая большая комната в этом мире — это комната для совершенствования. С новыми технологиями и платформами, которые появляются быстрыми темпами, всегда появляются возможности для улучшения методов работы. В этой статье рассматривается одно из таких путешествий, которое началось с проникновения в неизвестное пространство миграции существующих устаревших проектов в пространство больших данных. Выполнение этого на уровне предприятия имело свой собственный набор проблем как в..