Публикации по теме 'data-mining'
Классификация в интеллектуальном анализе данных
Процесс интеллектуального анализа данных включает в себя извлечение знаний с использованием инструментов анализа данных для поиска ранее неизвестных закономерностей, тенденций, взаимосвязей и идей из огромных наборов данных. Эти инструменты могут использовать статистические модели, методы машинного обучения и математические алгоритмы, такие как нейронные сети или деревья решений. Таким образом, интеллектуальный анализ данных включает в себя анализ и прогнозирование. Классификация — это..
Как выбрать фреймворк на питоне
Достаточно ли хорош Flask для массовой обработки данных?
Когда я пишу этот блог, мои знания о python или любом из его фреймворков очень ограничены. Это напоминание о Python и его микрофреймворках, которые можно использовать при разработке микросервисов для обработки массивных данных. Это может помочь вам, если вы находитесь в том же положении, что и я: хотите изучить, используйте микрофреймворки Python для своего микросервиса.
Выбор фреймворка — это самоуверенная война разработчиков,..
Правильный объем моделирования
Некоторые специалисты увеличивают объем моделирования, чтобы произвести впечатление на клиентов, но, безусловно, качество тоже важно.
Недавно я столкнулся с необычной презентацией науки о данных. Специалисты по обработке данных, представившие презентацию, испробовали более трехсот различных алгоритмов в поисках подходящей модели.
Я ничего подобного не видел, поэтому спросил, почему. Их ответ также привлек мое внимание - если перефразировать его очень немного, потому что, поскольку..
Кластеризация и с чего начать
Важные шаги, которые следует учитывать
Можно ли говорить о свойствах, достаточных (или одновременно необходимых и достаточных) для успеха естественных алгоритмов?
Прежде чем углубляться в детали оптимизации кластеризации, давайте вернемся назад и подумаем о проблеме, которую нам нужно решить. «Кластеризация» связана с группировкой похожих или связанных объектов.
Кластерная тенденция
Прежде всего, еще до того, как вы начнете думать о кластеризации, возникает следующая проблема:..
Прогнозирование успеваемости учащихся: часть 2
2. ЦЕЛЕВАЯ ХАРАКТЕРИСТИКА
Моя целевая функция - функция окончательной оценки. Он содержит числовые значения, которые необходимо было закодировать как категориальные значения для моего анализа. Диапазон этой характеристики был от нуля до двадцати. Я разделил его от нуля до подростка как провал и от 10 до двадцати как проход. У меня есть около 24% студентов, которые не прошли курс, и 77% студентов, которые проходят курс, и, как следствие, у меня дисбаланс в классе.
3. КОРРЕЛЯЦИЯ..
Добыча данных твитов из Твиттера
Твиттер — это хранилище данных. Это кладезь мнений и эмоций людей. Он содержит много данных о реальных людях, что очень полезно для наблюдения за тенденциями и построения моделей. Что делает Twitter действительно привлекательным, так это то, что у него есть действительно хорошая коллекция API. Этот API позволяет нам использовать его данные и создавать полезные системы, такие как анализ настроений в реальном времени и анализ репутации.
мы углубимся в коллекции Twitter API. Как..
Недостаточная выборка: повышение производительности при несбалансированных данных
В некоторых случаях набор данных, который должен использоваться для разработки модели машинного обучения / глубокого обучения, часто бывает несбалансированным. Здесь под несбалансированным понимается крайне неравномерное или неравномерное распределение классов. Один из таких примеров несбалансированных данных приведен ниже (рис. 1):
Здесь метка 0 содержит 24 720 экземпляров, а метка 1 - только 7841 экземпляр. Это пример двоичных (так как есть 2 метки, 0 и 1) несбалансированных..