Публикации по теме 'analytics'


Эксперименты с Hive 2 LLAP
В последней версии Hortonworks Data Platform (HDP) 2.6.2 у нас появился новый механизм SQL для обработки данных через HDFS, то есть Hive 2 LLAP. Функциональность Live Long and Process (LLAP) была добавлена ​​в Hive 2.0. С течением времени в Hive были внесены существенные улучшения со стороны Tez и оптимизации затрат (CBO), а теперь с помощью LLAP он перешел на новый уровень. На следующей диаграмме показана его архитектура. В LLAP нам нужны демоны LLAP, работающие в кластере YARN...

Почему я должен нанимать программистов Python, а не выполнять работу самостоятельно?
По данным Python, 1,4% сайтов в Интернете используют Python. Хотя это может показаться не впечатляющим, подумайте вот о чем: 1,3% занимают место в списке 1 000 000 лучших сайтов, доступных в Интернете. Так что это значит? Это означает, что из доступных сайтов (а их много) сайты, использующие Python, входят в топ-миллион. Возможно, именно поэтому ваша компания в настоящее время рассматривает проект разработки приложений Python, или, возможно, вы рассматриваете Python, потому что вы..

Быстрый и простой анализ тональности фильмов с помощью SliceX AI™ Cloud API
Автор: Шамрин Ирам Введение В этом сообщении блога мы собираемся выполнить анализ настроений в обзорах фильмов, используя SliceX AI™ Cloud API . Мы знаем, когда кто-то говорит: Мне понравился этот фильм! они выражают положительные настроения. А если они скажут: Этот фильм был очень скучным, я его ненавидел! они настроены решительно негативно по этому поводу. Но как сделать это систематически? Как отзывы критиков соотносятся с отзывами пользователей и что вы о них..

Меняющаяся роль специалистов по данным
Герхард Пилчер Data Scientist - необычный термин. Если вы «погуглите» слова, данные означают «факты и статистические данные, собранные вместе для справки или анализа», а ученый означает «человек, который изучает или обладает экспертными знаниями в одной или нескольких естественных или физических науках». Д-р Майкл Раппа, основатель Института передовой аналитики при Университете штата Северная Каролина, предпочитает термин «специалист-аналитик», который, как мне кажется, лучше..

Поиск наиболее важных функций в наборе данных с использованием критериев взаимной информации
Выбор функций с использованием регрессии взаимной информации Цель. Определить важные функции в наборе данных, которые действуют как предикторы для целевой переменной, в данном случае математических оценок. Набор данных. Набор данных содержит математические оценки и множество возможных переменных-предикторов, таких как размер семьи, доступ в Интернет дома, работа отца и т. д. Всего имеется 31 переменная. Подход. Здесь мы будем использовать немного другой подход. Вместо того,..

Причинный вывод 101: изучение того, что стоит за почему
Наиболее заметным результатом цифровой революции является огромное количество собираемых и анализируемых данных. Однако идти в ногу с сегодняшним экспоненциальным темпом создания данных — непростая задача, поэтому мы сосредоточены на разработке интеллектуальных машин и моделей, которые сделают часть работы за нас. Эти модели машинного обучения могут хорошо обобщать будущие данные, но они предполагают предположения и требуют вдумчивого рассмотрения имеющихся данных. Специалисты по..

Если данные говорят вам прыгнуть со скалы, вы бы сделали это?
Дети во всем мире умоляют своих родителей позволить им делать то, что делают «все» их друзья. Конечно, первый родительский вопрос: «Все ли ваши друзья делают это?» В конце концов мы признаем, что это неправда. Следующую нашу просьбу встречает вопрос: «Если бы все твои друзья прыгнули со скалы, ты бы спрыгнул?» Я считаю, что это универсально; мои родители дали мне японский эквивалент, когда я рос. В детстве у нас никогда не было хороших рациональных аргументов в пользу того, почему..