Публикации по теме 'analytics'


Кластеризация - обучение без учителя
Машинное обучение Что такое кластеризация? «Кластеризация» - это процесс объединения похожих объектов в одну группу. Цель этого метода машинного обучения без учителя - найти сходства в точках данных и сгруппировать похожие точки данных вместе. Зачем нужна кластеризация? Группирование похожих объектов вместе помогает профилировать атрибуты разных групп. Другими словами, это позволит нам понять основные закономерности различных групп. Существует множество приложений для..

Какие клиенты с большей вероятностью отреагируют на маркетинговые кампании банка?
Быстрая демонстрация бизнес-консалтинга с помощью Data Science Аудитория Целевая аудитория этого сообщения в блоге - маркетологи, которые прочитали предыдущий пост о пятиэтапной структуре консалтинга в области науки о данных и хотят узнать больше о фактической реализации таких проектов. Мы будем использовать пакет caret в R в качестве быстрой демонстрации. Обзор Набор данных можно загрузить из UCI Machine Learning Repository . Он состоит из 41 188 данных..

Удивительные привычки фишеров
Хорошие новости: в новом отчете подтверждается, что фишинговые атаки гораздо менее изощренны (и их гораздо легче остановить), чем кажется Недавно Dark Reading опубликовала историю , в которой говорится, что фишинговые атаки гораздо менее агрессивны, чем кажутся. Заголовок: Ленивые привычки фишинговых атак . Согласно недавнему исследованию, в ходе которого исследователи из Израильского технологического института создали учетные записи приманки для наблюдения за поведением, в..

Развитие науки о данных
Анонс новой серии, посвященной тому, чтобы помочь вам сделать больше с помощью расширенной аналитики, науки о данных и обработки данных. За последний год я ответил на ряд запросов, чтобы помочь клиентам в совершенствовании их практики в области науки о данных, и провел ряд практических семинаров с гидом по различным темам в области науки о данных и обработки данных. В интересах сделать небольшой шаг, чтобы «расширить» эту модель семинара для более широкой аудитории, я начинаю серию..

Как разделить большие таблицы и файлы CSV
Объем данных, которые нам нужно анализировать, продолжает расти, но MS Excel по-прежнему имеет ограничение в 1 миллион записей. Точнее, 1048576 строк. Есть много способов работать с большими файлами с помощью кода, но самый простой способ - разбить файлы на более мелкие. После этого их можно будет легко открыть в Excel. Есть несколько способов сделать это Вариант 1 : используйте www.splitspreadsheets.com . Заявление об ограничении ответственности: мы создали этот инструмент..

Пингвины занимаются аналитикой?
Несколько лет назад я познакомился с практикой аналитики из командной строки Linux через викиучебники . Аналитика из командной строки может быть особенно полезна при работе с большими наборами данных, поэтому мне приходилось ранее использовать ее функции в таких разнообразных областях, как: используя wc -l , чтобы определить, была ли загрузка моих данных успешной использование head и tail для разделения больших файлов для загрузки в базу данных с помощью sed для..

Вниз по кроличьей норе: 7 июня 2021 г.
Начните свой день с последних достижений в области аналитики, обработки данных и автоматизации… Девять смертных грехов выбора набора данных машинного обучения Мы все знаем, что 80% науки о данных сводится к хорошим конвейерам данных, а это означает подготовку данных, смешивание и несколько лучших практик при изучении самих данных. Заранее инвестируя время в эти задачи, вы экономите бесконечные часы, когда модели готовятся к производству и развертыванию...