Набор данных Json-Opening Yelp Data Challenge

Меня интересует интеллектуальный анализ данных, и я пишу свою диссертацию об этом. Для своей диссертации я хочу использовать набор данных yelp data challenge, однако я не могу его открыть, так как он в формате json и весит почти 2 ГБ. На его веб-сайте было сказано, что набор данных можно открыть в phyton с помощью mrjob, но я также не очень хорошо разбираюсь в программировании. Я искал в Интернете и просмотрел некоторые коды, представленные в github, однако я не смог найти статью или что-то, что ясно объясняет, как открыть набор данных. Подскажите пожалуйста пошагово как открыть этот файл и может как конвертировать в csv?

https://www.yelp.com.tr/dataset_challenge

https://github.com/Yelp/dataset-examples


person Bengi Koseoglu    schedule 23.02.2016    source источник
comment
Добро пожаловать в Stack Overflow. Для справки в будущем, такого рода вопросы не являются темой этого сайта. SO — это место, где можно задать конкретные вопросы о конкретных проблемах программирования. Я приглашаю вас просмотреть сайт, чтобы лучше понять, о чем мы здесь. А пока я рекомендую закрыть этот вопрос.   -  person McMath    schedule 24.02.2016
comment
Я бы исследовал язык R.   -  person Matt    schedule 24.02.2016
comment
Я бы избегал языка R, потому что он ужасен для работы с 2 ГБ данных. Python является лучшим выбором.   -  person Has QUIT--Anony-Mousse    schedule 24.02.2016
comment
@Bengi Koseoglu, вы можете извлечь набор данных или экспортировать его в CSV-файл?   -  person goofyui    schedule 10.11.2016


Ответы (3)


данные находятся в формате .tar, когда вы извлекаете их снова, у них есть другой файл, переименовывайте его в .tar, а затем извлекайте его. вы получите все файлы json

person KS HARSHA    schedule 07.09.2017

да, вы можете использовать панд. Взглянем:

import pandas as pd

# read the entire file into a python array
with open('yelp_academic_dataset_review.json', 'rb') as f:
    data = f.readlines()

# remove the trailing "\n" from each line
data = map(lambda x: x.rstrip(), data)


data_json_str = "[" + ','.join(data) + "]"

# now, load it into pandas
data_df = pd.read_json(data_json_str)

Теперь 'data_df' содержит данные yelp ;) Случай, вы хотите преобразовать его непосредственно в csv, вы можете использовать этот скрипт

https://github.com/Yelp/dataset-examples/blob/master/json_to_csv_converter.py

Я надеюсь, что это может помочь вам

person Vinicius Woloszyn    schedule 17.12.2016

Для обработки больших JSON-файлов используйте парсер потоковой передачи.

Многие из этих файлов представляют собой не один json, а поток json (известный как «формат jsons»). Тогда обычный синтаксический анализатор json будет считать все, кроме первой записи, мусором.

С помощью потокового синтаксического анализатора вы можете начать чтение файла, обработать части и записать их в нужный вывод; затем продолжайте писать.

Единого преобразования json в csv не существует.

Таким образом, вы не найдете универсальной утилиты преобразования, вы должны настроить преобразование под свои нужды.

Причина в том, что JSON — это дерево, а CSV — нет. Не существует окончательного и эффективного преобразования деревьев в строки таблицы. Я бы придерживался JSON, если только вы не всегда извлекаете из дерева только одни и те же атрибуты x.

Начните программировать, чтобы стать лучшим программистом. Чтобы добиться успеха с такими объемами данных, вам нужно стать лучшим программистом.

person Has QUIT--Anony-Mousse    schedule 24.02.2016