Публикации по теме 'data-mining'


Классификация в интеллектуальном анализе данных
Процесс интеллектуального анализа данных включает в себя извлечение знаний с использованием инструментов анализа данных для поиска ранее неизвестных закономерностей, тенденций, взаимосвязей и идей из огромных наборов данных. Эти инструменты могут использовать статистические модели, методы машинного обучения и математические алгоритмы, такие как нейронные сети или деревья решений. Таким образом, интеллектуальный анализ данных включает в себя анализ и прогнозирование. Классификация — это..

Как выбрать фреймворк на питоне
Достаточно ли хорош Flask для массовой обработки данных? Когда я пишу этот блог, мои знания о python или любом из его фреймворков очень ограничены. Это напоминание о Python и его микрофреймворках, которые можно использовать при разработке микросервисов для обработки массивных данных. Это может помочь вам, если вы находитесь в том же положении, что и я: хотите изучить, используйте микрофреймворки Python для своего микросервиса. Выбор фреймворка — это самоуверенная война разработчиков,..

Правильный объем моделирования
Некоторые специалисты увеличивают объем моделирования, чтобы произвести впечатление на клиентов, но, безусловно, качество тоже важно. Недавно я столкнулся с необычной презентацией науки о данных. Специалисты по обработке данных, представившие презентацию, испробовали более трехсот различных алгоритмов в поисках подходящей модели. Я ничего подобного не видел, поэтому спросил, почему. Их ответ также привлек мое внимание - если перефразировать его очень немного, потому что, поскольку..

Кластеризация и с чего начать
Важные шаги, которые следует учитывать Можно ли говорить о свойствах, достаточных (или одновременно необходимых и достаточных) для успеха естественных алгоритмов? Прежде чем углубляться в детали оптимизации кластеризации, давайте вернемся назад и подумаем о проблеме, которую нам нужно решить. «Кластеризация» связана с группировкой похожих или связанных объектов. Кластерная тенденция Прежде всего, еще до того, как вы начнете думать о кластеризации, возникает следующая проблема:..

Прогнозирование успеваемости учащихся: часть 2
2. ЦЕЛЕВАЯ ХАРАКТЕРИСТИКА Моя целевая функция - функция окончательной оценки. Он содержит числовые значения, которые необходимо было закодировать как категориальные значения для моего анализа. Диапазон этой характеристики был от нуля до двадцати. Я разделил его от нуля до подростка как провал и от 10 до двадцати как проход. У меня есть около 24% студентов, которые не прошли курс, и 77% студентов, которые проходят курс, и, как следствие, у меня дисбаланс в классе. 3. КОРРЕЛЯЦИЯ..

Добыча данных твитов из Твиттера
Твиттер — это хранилище данных. Это кладезь мнений и эмоций людей. Он содержит много данных о реальных людях, что очень полезно для наблюдения за тенденциями и построения моделей. Что делает Twitter действительно привлекательным, так это то, что у него есть действительно хорошая коллекция API. Этот API позволяет нам использовать его данные и создавать полезные системы, такие как анализ настроений в реальном времени и анализ репутации. мы углубимся в коллекции Twitter API. Как..

Недостаточная выборка: повышение производительности при несбалансированных данных
В некоторых случаях набор данных, который должен использоваться для разработки модели машинного обучения / глубокого обучения, часто бывает несбалансированным. Здесь под несбалансированным понимается крайне неравномерное или неравномерное распределение классов. Один из таких примеров несбалансированных данных приведен ниже (рис. 1): Здесь метка 0 содержит 24 720 экземпляров, а метка 1 - только 7841 экземпляр. Это пример двоичных (так как есть 2 метки, 0 и 1) несбалансированных..