Сколько данных может обрабатывать sklearn с оценкой плотности ядра

У меня есть набор данных с 40 миллионами строк (около 8 МБ), в то время как каждая строка имеет тип float. Я хочу использовать оценку плотности ядра sklearn, чтобы соответствовать этому набору данных с гауссовым ядром. Но это слишком медленно на моем компьютере (4 ГБ ОЗУ, 256 ГБ SSD). Итак, может ли sklearn kde обрабатывать набор данных с миллионом или более образцами?


person formath    schedule 10.11.2014    source источник


Ответы (1)


Да, научный набор может обрабатывать много данных. Но, как вы узнали, может быть, вашей машины недостаточно. В качестве альтернативы вам может потребоваться лучше использовать программное обеспечение. Прочитайте Стратегии вычислительного масштабирования: большие данные из документации научного набора.

Изменить: Оценка плотности для большого набора данных на перекрестной проверке весьма актуальна.

person Hugues Fontenelle    schedule 10.11.2014