Весь открытый исходный код в GitHub теперь доступен в BigQuery. Давай, проанализируй все это. В этом посте вы найдете ресурсы, о которых я знаю на данный момент:

Обновление: я знаю, что сказал все, но это еще не все. Я обновляю ответы на эти и другие вопросы на странице github.com/fhoffa/analyzing_github.

Конвейер отражает код из:

Официальные источники:

Углубленный анализ

Жду ваших отзывов - добавлю сюда:

Серия постов Роберта Козиковски:

подсказки

  • Не анализируйте основную таблицу [bigquery-public-data: github_repos.contents] - при 1,5 ТБ она мгновенно израсходует ваш ежемесячный бесплатный терабайт. Вместо этого используйте официальный извлечение [bigquery-public-data: github_repos.sample_contents] (~ 23 ГБ) или одну из полных языковых таблиц, которые я оставил в [fh-bigquery: github_extracts.contents_ *].
  • Как насчет того, чтобы выполнить СОЕДИНЕНИЕ между этим новым набором данных и архивом GitHub, чтобы найти файлы с наибольшим количеством звезд и их шаблоны? Пример кода скоро, но посмотрите, как я раньше играл с звездами GitHub и Hacker News.
  • Я очень рад получить часовые пояса автора и коммиттера. Здесь мы сможем провести региональный анализ.

Визуализации

Дополнительные ресурсы

  • Подкаст: Я, Уилл Карран и Арфон Смит рассказывают о деталях этого объявления и многом другом в Журнале изменений №209.
  • GitHub Archive, мониторинг GitHub с 2011 года.

Нажмите

Социальные медиа

Оставайтесь любопытными! И найдите меня в Твиттере по адресу @felipehoffa.