Публикации по теме 'big-data'


Технический директор NTENT доктор Рикардо Баеза-Йейтс выступает на гёдельской лекции в Вене, 2017 г. — NTENT
Технический директор NTENT, д-р Рикардо Баеза-Йейтс, прочитает выдающуюся ежегодную Лекцию Венского Гёделя в четверг, 8 июня. Его лекция под названием Предвзятость в Интернете посвящена множеству проблем, с которыми сталкиваются поисковые системы и другие веб-сайты, пытаясь оценить качество данных, генерируемых из всего контента в Интернете. «Интернет — это самое мощное средство связи и крупнейшее общедоступное хранилище данных, которое когда-либо создавало человечество», —..

Построение взаимоотношений в электронной коммерции - зачем нашим идентификаторам компаниям
Эта статья является частью серии Academic Alibaba и взята из статьи Изучение и передача представления идентификаторов в электронной коммерции Куй Чжао, Юэчуань Ли, Чжаоцянь Шуай и Cheng Yang, принято KDD 2018. Полную версию статьи можно прочитать здесь . В электронной коммерции было разработано множество методов машинного интеллекта, одна из самых важных из которых - представление идентификаторов. Здесь идентификаторы относятся к множеству различных субъектов и объектов в..

Chronon — Декларативное проектирование функций
Среда для разработки функций производственного уровня для моделей машинного обучения. Цель этого блога — предоставить обзор основных концепций Chronon. Нихил Симха Рапролу Фон Airbnb использует машинное обучение почти в каждом продукте, от ранжирования результатов поиска до интеллектуального ценообразования и перенаправления пользователей к нужным агентам службы поддержки клиентов. Мы заметили, что управление функциями было постоянной проблемой для инженеров машинного..

Лучшие практики MLOps
Что нужно помнить при разработке конвейера машинного обучения Фото Свена Брандсма на Unsplash Автор Трэвис Вульф - Трэвис Вольф Проблемы возникают по мере масштабирования производства моделей машинного обучения до уровня предприятия. MLOps играет роль в смягчении некоторых проблем, таких как обеспечение масштабируемости, автоматизация, сокращение зависимостей и упрощение принятия решений. Проще говоря, MLOps похож на кузена DevOps. Это набор практик, которые объединяют..

Как создать ETL с MongoDB и Postgres (часть 1)
Часть 1, Изучение земли Выход из зоны комфорта Приятно иметь зону комфорта . Зона комфорта дает вам место, куда можно укрыться во времена неприятностей и неопределенности. Это ваше убежище и место, куда вы можете пойти, когда вам нужно подумать, поразмыслить и спланировать. Но, как и большинство вещей, он также обладает не только солнечной стороной янь , но и более темным аспектом инь . Темная сторона вашей зоны комфорта вступает в игру, когда она используется как укрытие,..

Введение в Hadoop и его основные компоненты
Один человек не может выполнять все работы. Чтобы ускорить выполнение работы, распределяйте работы между разными людьми Прежде чем понять, что такое Hadoop , дайте мне знать ответ на этот вопрос. «Может ли ваш компьютер обрабатывать гигабайты или терабайты данных?» Бизнес-сценарий 1: Когда у нас будет 900 МБ данных, мы хотели бы использовать Data Analytics и Machine Learning. Способны ли традиционные аппаратные средства обрабатывать 900 МБ данных? Как инженер данных или..

Уравновешивание перекоса при езде на одноколесном велосипеде
Уравновешивание перекоса при езде на одноколесном велосипеде Руководство по устранению перекоса данных с помощью Apache Spark Перекос данных — распространенная проблема, которая может возникнуть при работе с реальными данными. Это происходит, когда определенные значения или группы значений появляются в наборе данных гораздо чаще, чем другие, что приводит к неравномерному распределению данных по разделам. Асимметрия — это мера асимметрии…