Публикации по теме 'sparklyr'


TensorFlow и Sparklyr: масштабирование глубокого обучения и R в экосистеме больших данных
15 мая в ICTeam состоялись доклады о Big Data. Оба выступления были посвящены использованию платформы Spark для масштабирования глубокого обучения и среды R для обработки больших данных. Apache Spark — это среда кластерных вычислений с открытым исходным кодом, способная предоставить унифицированный и распределенный программный интерфейс для различных приложений (Java, Python, Scala и R). В первом докладе речь шла об использовании глубокого обучения для генерации подписей к..

Вопросы по теме 'sparklyr'

Можно ли использовать sparklyr со spark, развернутой в кластере Hadoop, управляемом пряжей?
Может ли sparklyr R-пакет подключаться к кластерам Hadoop, управляемым YARN? Похоже, это не описано в документации по развертыванию кластера . Используя пакет SparkR , который поставляется со Spark, это возможно, выполнив следующие действия:...
7116 просмотров
schedule 04.07.2023

Функции обратного вызова R с использованием sparklyr
Я надеюсь использовать функцию mapPartitions и reduce Spark ( http://spark.apache.org/docs/latest/programming-guide.html ), используя sparklyr . В pyspark это легко сделать, единственное, что мне нужно, — это простой код на Python. Я могу...
337 просмотров
schedule 19.12.2022

sparklyr: пропускать первые строки текстовых файлов
Я хотел бы пропустить (исключить) первые две строки текстового файла: насколько мне известно, это невозможно с методом sparklyr spark_read_csv . Есть ли способ решения этой простой проблемы? Я знаю о существовании расширения sparklyr , но я ищу...
347 просмотров
schedule 20.03.2023

Прочтите файл .csv с помощью Sparklyr в R
У меня есть пара .csv файлов в C:\Users\USER_NAME\Documents , размер которых превышает 2 ГБ. Я хочу использовать Apache Spark для чтения данных из них в R. Я использую Microsoft R Open 3.3.1 с Spark 2.0.1. Я застрял в чтении .csv файлов с...
735 просмотров
schedule 16.03.2023

Конфигурация Sparklyr Hadoop
Я прошу прощения за то, что этот вопрос будет трудно воспроизвести полностью, потому что он включает в себя запущенный контекст искры (обозначенный ниже как sc), но я пытаюсь установить hadoopConfiguration в sparklyr, специально для доступа к объектам...
502 просмотров
schedule 23.02.2023

SparklyR удаляет таблицу из контекста Spark
Хотел бы удалить одну таблицу данных из контекста Spark ('sc'). Я знаю, что одна кешированная таблица может быть не кэшированной, но это не то же самое, что удаление объекта из sc - насколько я могу понять. library(sparklyr) library(dplyr)...
5505 просмотров
schedule 06.02.2023

Создание фиктивных переменных в Sparklyr?
Я пытаюсь расширить некоторые из моих конвейеров машинного обучения, и мне нравится комбинация rstudio, spark и h2o, открываемая sparklyr ( http://spark.rstudio.com/ ) Одна вещь, которую я пытаюсь понять, - это как использовать sparklyr для...
1146 просмотров
schedule 27.06.2022

Последние строки из фрейма данных Spark (с использованием sparklyr и dplyr)
Я хотел бы напечатать последние 50 строк нижеприведенного фрейма данных, используя что-то вроде tail function ниже по диапазону строк с помощью sparklyr, без arrange или collect - некоторые из моих кадров большие и не имеют последовательных...
2850 просмотров
schedule 20.05.2023

Превышен предел накладных расходов сборщика мусора в кеш-памяти большого набора данных в искровой памяти (через sparklyr и RStudio)
Я новичок в технологиях больших данных, с которыми пытаюсь работать, но пока мне удалось настроить sparklyr в RStudio для подключения к автономному кластеру Spark. Данные хранятся в Cassandra, и я могу успешно переносить большие наборы данных в...
1599 просмотров
schedule 19.10.2022

Каков наилучший способ подмножить кадр данных искры (в sparklyr) на основе типа данных столбца
Я конвертирую кучу столбцов в фиктивные переменные. Я хочу удалить исходную категориальную переменную из фрейма данных. Я изо всех сил пытаюсь понять, как это сделать в sparklyr. В dplyr это просто, но функциональность dplyr не работает в sparklyr....
1895 просмотров

Удалить столбцы NA в sparklyr
У меня есть кадр данных с 75 столбцами, из которых 12 столбцов имеют все NA, а некоторые - 70% NA. Я хочу удалить столбцы, имеющие> = 70% NA. Может ли кто-нибудь помочь мне в этом? Я попытался df[,! apply( df , 2 , function(x) all(is.na(x))...
1029 просмотров
schedule 13.11.2022

Sparklyr: как применить операцию между столбцом в таблице Spark и фреймом данных R?
У меня есть эта таблица Spark: xydata y: num 11.00 22.00 33.00 ... x0: num 1.00 2.00 3.00 ... x1: num 2.00 3.00 4.00 ... ... x788: num 2.00 3.00 4.00 ... И этот кадр данных в среде R: penalty p: num 1.23 2.34 3.45 ... с количеством...
416 просмотров
schedule 06.11.2022

Чтение таблицы SQL в SparklyR
Как можно подключить таблицу SQL к R с помощью SparklyR? шпаргалка показывает, что вы можете использовать DBI::dbWriteTable , но не упоминает DBI::dbReadTable . Допустим, моя таблица здесь: driver = "SQL Server Native Client 11.0" server =...
838 просмотров
schedule 07.07.2022

функции для сборки и объединения тидыра с помощью
У меня есть следующий фрейм данных: library(tidyverse) m <- matrix(rep(1:28,each = 10), ncol = 28) colnames(m) <- c("co1","col2", LETTERS) df <- as_tibble(m) df newdf<-df %>% unite("newcol", c(col1, col2), sep = " ", remove=F)...
692 просмотров
schedule 22.05.2024

Sparklyr: sdf_copy_to не работает с набором данных 350 МБ
Я столкнулся с проблемой при попытке написать 2 набора данных с помощью sparklyr::spark_write_csv(). Это моя конфигурация: # Configure cluster config <- spark_config() config$spark.yarn.keytab <- "mykeytab.keytab"...
756 просмотров
schedule 11.03.2023

Преобразование широкой таблицы в длинный формат в Cassandra
К сожалению, клиент дал мне очень грязную и очень большую таблицу (csv). Он в широком формате :'( Например, столбцы: Name, Date, Usage_Hr1, Usage_Hr2, ..., Usage_Hr24, ... lots more columns Обычно я просто загружаю .csv в R и использую...
245 просмотров
schedule 05.11.2022

Ошибка H2O при вызове as.factor для фрейма данных H2O
Когда я вызываю следующий воспроизводимый документ: install.packages("h2o", type = "source", repos = "http://h2o-release.s3.amazonaws.com/h2o/rel-ueno/8/R") library(rsparkling) library(h2o) library(sparklyr) library(dplyr) library(DBI)...
445 просмотров
schedule 21.03.2023

Подключение к Spark с помощью Sparklyr выдает ошибку Permission Denied Error
После установки пакета sparklyr я следовал инструкциям здесь ( http://spark.rstudio.com/ ) для подключения искрить. Но столкнулся с этой ошибкой. Я делаю что-то неправильно. Пожалуйста помогите. sc = spark_connect( master = 'local' )...
1219 просмотров
schedule 08.06.2022

получение количества узлов, количества кодов и доступной оперативной памяти для настройки
Я пытаюсь настроить свой кластер высокопроизводительных вычислений (я использую Sparklyr) и пытаюсь собрать некоторые важные спецификации, указанные в http://blog.cloudera.com/blog/2015/03 : Чтобы сделать все это немного более конкретным,...
323 просмотров
schedule 02.04.2023

spark: java.io.IOException: на устройстве не осталось места [снова!]
Я получаю java.io.IOException: No space left on device , который возникает после выполнения простого запроса в sparklyr . Я использую обе последние версии Spark (2.1.1) и Sparklyr df_new <-spark_read_parquet(sc, "/mypath/parquet_*", name...
5293 просмотров
schedule 30.05.2022