Я пытаюсь создать систему классификации с помощью Apache Spark MLlib. Для этого я включил алгоритм Naive Bayes в шорт-лист и буду использовать Java 8 для поддержки лямбда-выражений. Я новичок в лямбда-выражениях и, следовательно, сталкиваюсь с трудностями при реализации того же на Java.
Я имею в виду следующую ссылку, в которой есть образец, написанный на Scala, но мне трудно преобразовать его в Java 8.
Я застрял на следующей операции и не могу понять это из-за моего незнания Scala,
val idfs = (termDocsRdd.flatMap(termDoc => termDoc.terms.map((termDoc.doc, _))).distinct().groupBy(_._2) collect {
// if term is present in less than 3 documents then remove it
case (term, docs) if docs.size > 3 =>
term -> (numDocs.toDouble / docs.size.toDouble)
}).collect.toMap
Может ли кто-нибудь указать мне правильное направление о том, как создавать векторы TfIdf для образцов текстовых документов при использовании операций RDD Sparks для распределенной обработки?