Вопросы по теме 'apache-spark-mllib'

Apache Spark — MLlib — Формат ввода K-Means
Я хочу выполнить задачу K-Means и не пройти обучение модели, и меня выкинут из оболочки Sparks scala до того, как я получу результаты. Я не уверен, является ли формат ввода проблемой или что-то еще. Я использую Spark 1.0.0, и моя входная ткань (400...
2518 просмотров

Классификация с помощью Spark MLlib в Java
Я пытаюсь создать систему классификации с помощью Apache Spark MLlib. Для этого я включил алгоритм Naive Bayes в шорт-лист и буду использовать Java 8 для поддержки лямбда-выражений. Я новичок в лямбда-выражениях и, следовательно, сталкиваюсь с...
895 просмотров

Исключение нехватки памяти во время генерации TFIDF для использования в MLlib Spark
Я сталкивался с проблемами переполнения памяти при создании векторов TFIDF для использования в классификации документов с использованием реализации классификации MLlib Naive Baye....
569 просмотров

Установка Spark MLLib в Mac OS X
Я пытаюсь установить MLLib в Mac OS X. В Linux мне просто нужно было установить gfortran, следуя этому сообщению ( Apache Spark -- MlLib -- Совместная фильтрация ). У меня установлен gfortran на моем Mac. Однако, когда я запускаю: from...
1666 просмотров
schedule 22.07.2023

Apache Spark MLLib — запуск KMeans с векторами IDF-TF — пространство кучи Java
Я пытаюсь запустить KMeans на MLLib из (большой) коллекции текстовых документов (векторов TF-IDF). Документы отправляются через анализатор английского языка Lucene, а разреженные векторы создаются с помощью функции HashingTF.transform(). Какую бы...
1960 просмотров

Преобразование RDD вектора в LabeledPoint с помощью Scala - MLLib в Apache Spark
Я использую MLlib из Apache-Spark и Scala. Мне нужно преобразовать группу векторов import org.apache.spark.mllib.linalg.{Vector, Vectors} import org.apache.spark.mllib.regression.LabeledPoint в LabeledPoint для применения алгоритмов...
4132 просмотров

Линейная регрессия в Apache Spark
У нас есть ситуация, когда нам нужно запустить линейную регрессию для миллионов небольших наборов данных и сохранить веса и перехват для каждого из этих наборов данных. Для этого я написал приведенный ниже код scala, в котором я передал каждый из...
653 просмотров

Как использовать spark mllib в веб-проекте
Я пытаюсь использовать spark mllib.jar в веб-проекте. Я скачал spark-1.1.0-bin-hadoop2.4 и разархивировал. Есть несколько банок, найденных следующим образом: datanucleus-api-jdi-3.2.1.jar datanucleus-core-3.2.2.jar...
514 просмотров

Как преобразовать Array [(Double, Double)] в Array [Double] в Scala?
Я использую MLlib of Spark (v1.1.0) и Scala для кластеризации k-средних значений, применяемой к файлу с точками (долгота и широта). Мой файл содержит 4 поля, разделенных запятой (последние два - долгота и широта). Вот пример кластеризации...
4033 просмотров

Дополнительное обучение модели ALS
Я пытаюсь выяснить, возможно ли «дополнительное обучение» данным с использованием MLlib в Apache Spark. Моя платформа — Prediction IO, и это в основном оболочка для Spark (MLlib), HBase, ElasticSearch и некоторых других частей Restful. В моем...
4537 просмотров

Spark MLLIB TFIDF Текстовая кластеризация Python
Я новичок в Spark и пытаюсь объединить новостные статьи в кластеры, используя Spark API в Python. Новостные статьи были просканированы и сохранены в локальной папке /input/. Он содержит около 100 небольших текстовых файлов. В качестве первого...
1427 просмотров

Сохранение регрессионной модели в pySpark
В pySpark MLlib, похоже, нет способа сохранять и загружать модели регрессии, такие как LogisticRegressionModel, SVMModel, NaiveBayesModel и DecisionTreeModel. Существует загрузка и сохранение рекомендательной модели MatrixFactorizationModel с...
587 просмотров
schedule 01.04.2023

Как правильно сохранять \ загружать модели в Spark \ PySpark
Я работаю с Spark 1.3.0, используя PySpark и MLlib, и мне нужно сохранить и загрузить свои модели. Я использую такой код (взят из официальной документации ) from pyspark.mllib.recommendation import ALS, MatrixFactorizationModel, Rating data =...
15855 просмотров

Spark - перехват линейной регрессии MLlib и вес NaN
Я пытаюсь построить модель регрессии в Spark, используя некоторые пользовательские данные, а перехват и вес всегда равны nan . Это мои данные: data = [LabeledPoint(0.0, [27022.0]), LabeledPoint(1.0, [27077.0]), LabeledPoint(2.0, [27327.0]),...
2688 просмотров
schedule 06.06.2022

Spark MLlib — поездНеявное предупреждение
Я продолжаю видеть эти предупреждения при использовании trainImplicit : WARN TaskSetManager: Stage 246 contains a task of very large size (208 KB). The maximum recommended task size is 100 KB. И тогда размер задачи начинает увеличиваться....
1939 просмотров

Как объединить текстовые файлы, используя сопоставление и сокращение в Java Spark MLLib?
У меня есть очень большой набор данных, хранящийся в Hadoop (кластер YARN), на котором я хочу обучить классификатор машины опорных векторов. Функции извлекаются из каждой точки данных из набора данных и сохраняются в LibSVM . Spark MLLib может...
536 просмотров

Как создать RDD из входного каталога, содержащего текстовые файлы?
Я работаю с набором данных из 20 групп новостей. По сути, у меня есть папка и n текстовых файлов. Файлы в папке относятся к теме, в которой указана папка. У меня 20 таких папок. Как мне загрузить все эти данные в Spark и сделать из них RDD, чтобы...
313 просмотров

Что означает оценка вывода Spark MLLib SVM?
Я не понимаю вывод классификатора SVM из алгоритма Spark MLLib. Я хочу преобразовать оценку в вероятность, чтобы получить вероятность для точки данных, принадлежащей определенному классу (на котором обучается SVM, также известная как проблема с...
2642 просмотров

Использование подпрограмм spark MLLib с кадрами данных pandas
У меня есть довольно большой набор данных (~ 20 ГБ), хранящийся на диске как Pandas/PyTables HDFStore, и я хочу запускать на нем случайные леса и повышать деревья. Попытка сделать это в моей локальной системе занимает целую вечность, поэтому я...
1355 просмотров

Элемент поля не существует при использовании конвейера Spark MLlib для ALS
Я тренирую рекомендательную систему с ALS (версия Spark: 1.3.1). Теперь я хочу использовать Pipeline для выбора модели с помощью перекрестной проверки. В качестве первого шага я попытался адаптировать пример кода и придумал это: val conf =...
1081 просмотров
schedule 04.01.2024