СРЕДНИЙ API

289 000 статей среднего размера в одном месте

Представляем наш массивный набор данных из 289 000 статей Medium

В век информации данные — это валюта, которая стимулирует инновации и способствует исследовательским прорывам.

Мы рады объявить о революционном достижении в области сбора данных: создании колоссального набора данных, включающего 289 тыс. статей на Medium. Эта обширная коллекция представляет собой сокровищницу знаний, тщательно отобранных из 35 различных публикаций, начиная с момента их создания до 26 мая 2023 года.

Присоединяйтесь к нам, чтобы раскрыть возможности этого набора данных для исследователей, разработчиков и энтузиастов данных.

Открытие набора данных

Содержащийся в компактном ZIP-файле размером 1,7 ГБ (всего ~13,5 ГБ) набор данных состоит из 35 папок, каждая из которых представляет определенную публикацию на Medium.

Некоторые из основных публикаций включены:

Вот разбивка -

В этих папках вы обнаружите тысячи файлов JSON, тщательно организованных для обеспечения беспрепятственного доступа к ценной информации, связанной со статьями.

От заголовков и авторов до количества слов, времени чтения, аплодисментов, комментариев и многого другого — набор данных предлагает исчерпывающее представление метаданных каждой статьи.

Примечание. Все точки данных общедоступны, конфиденциальная информация не включена.

Наше внимание к деталям не ограничивается информацией на уровне статьи. Мы понимаем, что истинные идеи заключаются в нюансах содержания. Поэтому набор данных копается еще глубже, представляя обширный массив метаданных для каждой статьи.

Будь то сам текст, разметка, встраивание, ссылки или другая контекстная информация, наш набор данных гарантирует, что вы получите полное представление о составе статьи.

(См. структуру content в конце статьи)

Стимулирование инноваций и исследований

Последствия этого набора данных имеют далеко идущие последствия. Он служит мощным ресурсом для исследователей, специалистов по данным и новаторов в различных областях.

Энтузиасты обработки естественного языка могут изучать лингвистические модели и анализ настроений, а контент-аналитики могут изучать тенденции, темы и показатели вовлеченности пользователей.

Кроме того, исследователи, стремящиеся понять поведение пользователей, могут использовать этот набор данных для получения информации, которая способствует осмысленному взаимодействию и созданию увлекательного контента.

Этическое использование данных и ответственная практика

Как хранители данных, мы понимаем важность соблюдения этических норм и необходимость соблюдения прав интеллектуальной собственности. Поэтому мы подчеркиваем, что этот набор данных предназначен только для исследовательских целей и должен использоваться ответственно, в соответствии с положениями и условиями Medium.

Давайте развивать сообщество, которое ценит ответственное использование данных, целостность и уважение к создателям контента.

Доступ к набору данных

Мы рады предложить доступ к этому бесценному ресурсу увлеченным людям, стремящимся открыть новые горизонты знаний.

Чтобы получить набор данных, просто свяжитесь с нами по адресу [email protected], и наша преданная команда поможет вам в этом процессе.

Или просто скачайте отсюда: https://mediumapi.gumroad.com/l/289k-MediumArticles-26-05-2023

Знание — сила, и мы твердо верим в демократизацию информации. Создание нашего огромного набора данных из 289 тысяч статей на Medium является свидетельством нашей приверженности обмену знаниями и продвижению исследований.

Присоединяйтесь к нам в этом захватывающем путешествии, где мы расширяем границы возможного, используя силу данных для стимулирования инноваций, раскрытия идей и прокладывания пути к светлому будущему.

Давайте приступим к этому преобразующему начинанию вместе, вооружившись знаниями и инструментами, чтобы оказать глубокое влияние.

Хорошего дня!

Структура контента средней статьи в формате JSON —

Подпишитесь на DDIntel Здесь.

Посетите наш сайт здесь: https://www.datadriveninvestor.com

Присоединяйтесь к нашей сети здесь: https://datadriveninvestor.com/collaborate