Сколько данных может обрабатывать sklearn с оценкой плотности ядра

У меня есть набор данных с 40 миллионами строк (около 8 МБ), в то время как каждая строка имеет тип float. Я хочу использовать оценку плотности ядра sklearn, чтобы соответствовать этому набору данных с гауссовым ядром. Но это слишком медленно на моем компьютере (4 ГБ ОЗУ, 256 ГБ SSD). Итак, может ли sklearn kde обрабатывать набор данных с миллионом или более образцами?

formath 10.11.2014 источник

Ответы (1)

arrow_upward
1
arrow_downward

Да, научный набор может обрабатывать много данных. Но, как вы узнали, может быть, вашей машины недостаточно. В качестве альтернативы вам может потребоваться лучше использовать программное обеспечение. Прочитайте Стратегии вычислительного масштабирования: большие данные из документации научного набора.

Изменить: Оценка плотности для большого набора данных на перекрестной проверке весьма актуальна.

Hugues Fontenelle 10.11.2014

Сколько данных может обрабатывать sklearn с оценкой плотности ядра

Ответы (1)

Вопросы по теме