У меня большой набор данных (~ 188000 строк), я хочу рассчитать расстояние между своими строками, чтобы затем применить функцию hclust
для определения центров моего набора данных, а затем применить функцию kmeans
для классификации моих данных.
Моя проблема связана с первым шагом, который вычисляет расстояние моей матрицы: использование функции dist
из пакета stats
дало мне эту ошибку:
Error: cannot allocate vector of size 132.0 Gb
Понятно, что проблема с оперативной памятью.
Мне нужно найти другой способ вычислить мою матрицу расстояний.
Любой четкий ответ был бы очень полезен для меня.
dist
. - person zero323   schedule 19.02.2016Error in kmeans(data, centers = data[center_ids, ], iter.max = iter.max, : initial centers are not distinct
, которую я не понял. - person sarah   schedule 19.02.2016