Я знаю, что это не новая концепция в R, и я просмотрел представление задач высокой производительности и параллельных вычислений. С учетом сказанного, я задаю этот вопрос с точки зрения невежества, поскольку у меня нет формального образования в области компьютерных наук, и я полностью самоучка.
Недавно я собрал данные из Twitter Streaming API, и в настоящее время необработанный JSON находится в текстовом файле размером 10 ГБ. Я знаю, что были достигнуты большие успехи в адаптации R для обработки больших данных, так как бы вы решили эту проблему? Вот лишь несколько задач, которые я хочу выполнить:
- Чтение и обработка данных во фрейме данных
- Базовый описательный анализ, включая анализ текста (часто встречающиеся термины и т. д.)
- Заговор
Можно ли для этого полностью использовать R, или мне придется написать какой-нибудь Python для разбора данных и добавления их в базу данных, чтобы брать случайные выборки, достаточно маленькие, чтобы поместиться в R.
Проще говоря, любые советы или указатели, которые вы можете предоставить, будут очень признательны. Опять же, я не обижусь, если вы будете описывать решения на уровне 3-го класса.
Заранее спасибо.