Вопросы по теме 'apache-spark-mllib'
Apache Spark — MLlib — Формат ввода K-Means
Я хочу выполнить задачу K-Means и не пройти обучение модели, и меня выкинут из оболочки Sparks scala до того, как я получу результаты. Я не уверен, является ли формат ввода проблемой или что-то еще. Я использую Spark 1.0.0, и моя входная ткань (400...
2518 просмотров
schedule
29.06.2023
Классификация с помощью Spark MLlib в Java
Я пытаюсь создать систему классификации с помощью Apache Spark MLlib. Для этого я включил алгоритм Naive Bayes в шорт-лист и буду использовать Java 8 для поддержки лямбда-выражений. Я новичок в лямбда-выражениях и, следовательно, сталкиваюсь с...
895 просмотров
schedule
21.08.2022
Исключение нехватки памяти во время генерации TFIDF для использования в MLlib Spark
Я сталкивался с проблемами переполнения памяти при создании векторов TFIDF для использования в классификации документов с использованием реализации классификации MLlib Naive Baye....
569 просмотров
schedule
17.03.2023
Установка Spark MLLib в Mac OS X
Я пытаюсь установить MLLib в Mac OS X. В Linux мне просто нужно было установить gfortran, следуя этому сообщению ( Apache Spark -- MlLib -- Совместная фильтрация ). У меня установлен gfortran на моем Mac. Однако, когда я запускаю:
from...
1666 просмотров
schedule
22.07.2023
Apache Spark MLLib — запуск KMeans с векторами IDF-TF — пространство кучи Java
Я пытаюсь запустить KMeans на MLLib из (большой) коллекции текстовых документов (векторов TF-IDF). Документы отправляются через анализатор английского языка Lucene, а разреженные векторы создаются с помощью функции HashingTF.transform(). Какую бы...
1960 просмотров
schedule
16.08.2022
Преобразование RDD вектора в LabeledPoint с помощью Scala - MLLib в Apache Spark
Я использую MLlib из Apache-Spark и Scala. Мне нужно преобразовать группу векторов
import org.apache.spark.mllib.linalg.{Vector, Vectors}
import org.apache.spark.mllib.regression.LabeledPoint
в LabeledPoint для применения алгоритмов...
4132 просмотров
schedule
17.04.2022
Линейная регрессия в Apache Spark
У нас есть ситуация, когда нам нужно запустить линейную регрессию для миллионов небольших наборов данных и сохранить веса и перехват для каждого из этих наборов данных. Для этого я написал приведенный ниже код scala, в котором я передал каждый из...
653 просмотров
schedule
25.05.2024
Как использовать spark mllib в веб-проекте
Я пытаюсь использовать spark mllib.jar в веб-проекте. Я скачал spark-1.1.0-bin-hadoop2.4 и разархивировал. Есть несколько банок, найденных следующим образом:
datanucleus-api-jdi-3.2.1.jar
datanucleus-core-3.2.2.jar...
514 просмотров
schedule
25.12.2023
Как преобразовать Array [(Double, Double)] в Array [Double] в Scala?
Я использую MLlib of Spark (v1.1.0) и Scala для кластеризации k-средних значений, применяемой к файлу с точками (долгота и широта). Мой файл содержит 4 поля, разделенных запятой (последние два - долгота и широта).
Вот пример кластеризации...
4033 просмотров
schedule
22.04.2022
Дополнительное обучение модели ALS
Я пытаюсь выяснить, возможно ли «дополнительное обучение» данным с использованием MLlib в Apache Spark.
Моя платформа — Prediction IO, и это в основном оболочка для Spark (MLlib), HBase, ElasticSearch и некоторых других частей Restful.
В моем...
4537 просмотров
schedule
01.01.2023
Spark MLLIB TFIDF Текстовая кластеризация Python
Я новичок в Spark и пытаюсь объединить новостные статьи в кластеры, используя Spark API в Python. Новостные статьи были просканированы и сохранены в локальной папке /input/. Он содержит около 100 небольших текстовых файлов.
В качестве первого...
1427 просмотров
schedule
19.06.2022
Сохранение регрессионной модели в pySpark
В pySpark MLlib, похоже, нет способа сохранять и загружать модели регрессии, такие как LogisticRegressionModel, SVMModel, NaiveBayesModel и DecisionTreeModel. Существует загрузка и сохранение рекомендательной модели MatrixFactorizationModel с...
587 просмотров
schedule
01.04.2023
Как правильно сохранять \ загружать модели в Spark \ PySpark
Я работаю с Spark 1.3.0, используя PySpark и MLlib, и мне нужно сохранить и загрузить свои модели. Я использую такой код (взят из официальной документации )
from pyspark.mllib.recommendation import ALS, MatrixFactorizationModel, Rating
data =...
15855 просмотров
schedule
13.10.2022
Spark - перехват линейной регрессии MLlib и вес NaN
Я пытаюсь построить модель регрессии в Spark, используя некоторые пользовательские данные, а перехват и вес всегда равны nan . Это мои данные:
data = [LabeledPoint(0.0, [27022.0]), LabeledPoint(1.0, [27077.0]), LabeledPoint(2.0, [27327.0]),...
2688 просмотров
schedule
06.06.2022
Spark MLlib — поездНеявное предупреждение
Я продолжаю видеть эти предупреждения при использовании trainImplicit :
WARN TaskSetManager: Stage 246 contains a task of very large size (208 KB).
The maximum recommended task size is 100 KB.
И тогда размер задачи начинает увеличиваться....
1939 просмотров
schedule
26.12.2022
Как объединить текстовые файлы, используя сопоставление и сокращение в Java Spark MLLib?
У меня есть очень большой набор данных, хранящийся в Hadoop (кластер YARN), на котором я хочу обучить классификатор машины опорных векторов. Функции извлекаются из каждой точки данных из набора данных и сохраняются в LibSVM . Spark MLLib может...
536 просмотров
schedule
09.02.2023
Как создать RDD из входного каталога, содержащего текстовые файлы?
Я работаю с набором данных из 20 групп новостей. По сути, у меня есть папка и n текстовых файлов. Файлы в папке относятся к теме, в которой указана папка. У меня 20 таких папок. Как мне загрузить все эти данные в Spark и сделать из них RDD, чтобы...
313 просмотров
schedule
14.10.2023
Что означает оценка вывода Spark MLLib SVM?
Я не понимаю вывод классификатора SVM из алгоритма Spark MLLib. Я хочу преобразовать оценку в вероятность, чтобы получить вероятность для точки данных, принадлежащей определенному классу (на котором обучается SVM, также известная как проблема с...
2642 просмотров
schedule
19.12.2022
Использование подпрограмм spark MLLib с кадрами данных pandas
У меня есть довольно большой набор данных (~ 20 ГБ), хранящийся на диске как Pandas/PyTables HDFStore, и я хочу запускать на нем случайные леса и повышать деревья. Попытка сделать это в моей локальной системе занимает целую вечность, поэтому я...
1355 просмотров
schedule
17.03.2023
Элемент поля не существует при использовании конвейера Spark MLlib для ALS
Я тренирую рекомендательную систему с ALS (версия Spark: 1.3.1). Теперь я хочу использовать Pipeline для выбора модели с помощью перекрестной проверки. В качестве первого шага я попытался адаптировать пример кода и придумал это:
val conf =...
1081 просмотров
schedule
04.01.2024