Публикации по тегам sparklyr

Публикации по теме 'sparklyr'

TensorFlow и Sparklyr: масштабирование глубокого обучения и R в экосистеме больших данных

15 мая в ICTeam состоялись доклады о Big Data. Оба выступления были посвящены использованию платформы Spark для масштабирования глубокого обучения и среды R для обработки больших данных. Apache Spark — это среда кластерных вычислений с открытым исходным кодом, способная предоставить унифицированный и распределенный программный интерфейс для различных приложений (Java, Python, Scala и R). В первом докладе речь шла об использовании глубокого обучения для генерации подписей к..

Вопросы по теме 'sparklyr'

Можно ли использовать sparklyr со spark, развернутой в кластере Hadoop, управляемом пряжей?

Может ли sparklyr R-пакет подключаться к кластерам Hadoop, управляемым YARN? Похоже, это не описано в документации по развертыванию кластера . Используя пакет SparkR , который поставляется со Spark, это возможно, выполнив следующие действия:...

7116 просмотров

04.07.2023

Функции обратного вызова R с использованием sparklyr

Я надеюсь использовать функцию mapPartitions и reduce Spark ( http://spark.apache.org/docs/latest/programming-guide.html ), используя sparklyr . В pyspark это легко сделать, единственное, что мне нужно, — это простой код на Python. Я могу...

337 просмотров

r apache-spark sparkr sparklyr

19.12.2022

sparklyr: пропускать первые строки текстовых файлов

Я хотел бы пропустить (исключить) первые две строки текстового файла: насколько мне известно, это невозможно с методом sparklyr spark_read_csv . Есть ли способ решения этой простой проблемы? Я знаю о существовании расширения sparklyr , но я ищу...

347 просмотров

r csv apache-spark sparklyr

20.03.2023

Прочтите файл .csv с помощью Sparklyr в R

У меня есть пара .csv файлов в C:\Users\USER_NAME\Documents , размер которых превышает 2 ГБ. Я хочу использовать Apache Spark для чтения данных из них в R. Я использую Microsoft R Open 3.3.1 с Spark 2.0.1. Я застрял в чтении .csv файлов с...

735 просмотров

r csv apache-spark sparklyr

16.03.2023

Конфигурация Sparklyr Hadoop

Я прошу прощения за то, что этот вопрос будет трудно воспроизвести полностью, потому что он включает в себя запущенный контекст искры (обозначенный ниже как sc), но я пытаюсь установить hadoopConfiguration в sparklyr, специально для доступа к объектам...

502 просмотров

r apache-spark scala sparklyr

23.02.2023

SparklyR удаляет таблицу из контекста Spark

Хотел бы удалить одну таблицу данных из контекста Spark ('sc'). Я знаю, что одна кешированная таблица может быть не кэшированной, но это не то же самое, что удаление объекта из sc - насколько я могу понять. library(sparklyr) library(dplyr)...

5505 просмотров

rstudio r apache-spark sparklyr

06.02.2023

Создание фиктивных переменных в Sparklyr?

Я пытаюсь расширить некоторые из моих конвейеров машинного обучения, и мне нравится комбинация rstudio, spark и h2o, открываемая sparklyr ( http://spark.rstudio.com/ ) Одна вещь, которую я пытаюсь понять, - это как использовать sparklyr для...

1146 просмотров

r apache-spark sparklyr dplyr plyr

27.06.2022

Последние строки из фрейма данных Spark (с использованием sparklyr и dplyr)

Я хотел бы напечатать последние 50 строк нижеприведенного фрейма данных, используя что-то вроде tail function ниже по диапазону строк с помощью sparklyr, без arrange или collect - некоторые из моих кадров большие и не имеют последовательных...

2850 просмотров

r apache-spark sparkr sparklyr dplyr

20.05.2023

Превышен предел накладных расходов сборщика мусора в кеш-памяти большого набора данных в искровой памяти (через sparklyr и RStudio)

Я новичок в технологиях больших данных, с которыми пытаюсь работать, но пока мне удалось настроить sparklyr в RStudio для подключения к автономному кластеру Spark. Данные хранятся в Cassandra, и я могу успешно переносить большие наборы данных в...

1599 просмотров

r cassandra apache-spark sparklyr

19.10.2022

Каков наилучший способ подмножить кадр данных искры (в sparklyr) на основе типа данных столбца

Я конвертирую кучу столбцов в фиктивные переменные. Я хочу удалить исходную категориальную переменную из фрейма данных. Я изо всех сил пытаюсь понять, как это сделать в sparklyr. В dplyr это просто, но функциональность dplyr не работает в sparklyr....

1895 просмотров

r machine-learning apache-spark sparklyr data-science

27.01.2024

Удалить столбцы NA в sparklyr

У меня есть кадр данных с 75 столбцами, из которых 12 столбцов имеют все NA, а некоторые - 70% NA. Я хочу удалить столбцы, имеющие> = 70% NA. Может ли кто-нибудь помочь мне в этом? Я попытался df[,! apply( df , 2 , function(x) all(is.na(x))...

1029 просмотров

r apache-spark sparklyr dplyr

13.11.2022

Sparklyr: как применить операцию между столбцом в таблице Spark и фреймом данных R?

У меня есть эта таблица Spark: xydata y: num 11.00 22.00 33.00 ... x0: num 1.00 2.00 3.00 ... x1: num 2.00 3.00 4.00 ... ... x788: num 2.00 3.00 4.00 ... И этот кадр данных в среде R: penalty p: num 1.23 2.34 3.45 ... с количеством...

416 просмотров

r apache-spark sparkr sparklyr dplyr

06.11.2022

Чтение таблицы SQL в SparklyR

Как можно подключить таблицу SQL к R с помощью SparklyR? шпаргалка показывает, что вы можете использовать DBI::dbWriteTable , но не упоминает DBI::dbReadTable . Допустим, моя таблица здесь: driver = "SQL Server Native Client 11.0" server =...

838 просмотров

r sql sql-server sparklyr

07.07.2022

функции для сборки и объединения тидыра с помощью

У меня есть следующий фрейм данных: library(tidyverse) m <- matrix(rep(1:28,each = 10), ncol = 28) colnames(m) <- c("co1","col2", LETTERS) df <- as_tibble(m) df newdf<-df %>% unite("newcol", c(col1, col2), sep = " ", remove=F)...

692 просмотров

r apache-spark sparklyr tidyr

22.05.2024

Sparklyr: sdf_copy_to не работает с набором данных 350 МБ

Я столкнулся с проблемой при попытке написать 2 набора данных с помощью sparklyr::spark_write_csv(). Это моя конфигурация: # Configure cluster config <- spark_config() config$spark.yarn.keytab <- "mykeytab.keytab"...

756 просмотров

r configuration hadoop sparklyr

11.03.2023

Преобразование широкой таблицы в длинный формат в Cassandra

К сожалению, клиент дал мне очень грязную и очень большую таблицу (csv). Он в широком формате :'( Например, столбцы: Name, Date, Usage_Hr1, Usage_Hr2, ..., Usage_Hr24, ... lots more columns Обычно я просто загружаю .csv в R и использую...

245 просмотров

r database cassandra apache-spark sparklyr

05.11.2022

Ошибка H2O при вызове as.factor для фрейма данных H2O

Когда я вызываю следующий воспроизводимый документ: install.packages("h2o", type = "source", repos = "http://h2o-release.s3.amazonaws.com/h2o/rel-ueno/8/R") library(rsparkling) library(h2o) library(sparklyr) library(dplyr) library(DBI)...

445 просмотров

r h2o sparklyr sparkling-water

21.03.2023

Подключение к Spark с помощью Sparklyr выдает ошибку Permission Denied Error

После установки пакета sparklyr я следовал инструкциям здесь ( http://spark.rstudio.com/ ) для подключения искрить. Но столкнулся с этой ошибкой. Я делаю что-то неправильно. Пожалуйста помогите. sc = spark_connect( master = 'local' )...

1219 просмотров

r apache-spark sparklyr

08.06.2022

получение количества узлов, количества кодов и доступной оперативной памяти для настройки

Я пытаюсь настроить свой кластер высокопроизводительных вычислений (я использую Sparklyr) и пытаюсь собрать некоторые важные спецификации, указанные в http://blog.cloudera.com/blog/2015/03 : Чтобы сделать все это немного более конкретным,...

323 просмотров

apache-spark sparklyr slurm

02.04.2023

spark: java.io.IOException: на устройстве не осталось места [снова!]

Я получаю java.io.IOException: No space left on device , который возникает после выполнения простого запроса в sparklyr . Я использую обе последние версии Spark (2.1.1) и Sparklyr df_new <-spark_read_parquet(sc, "/mypath/parquet_*", name...

5293 просмотров

r apache-spark pyspark sparklyr

30.05.2022