Поздравляем, вы завершили проект! Теперь пришло время, чтобы мир узнал, какую большую работу вы проделали. Ознакомьтесь с нашей структурой для документирования проекта по науке о данных.

Публикуя свою работу, вы вносите свой вклад в создание своей онлайн-персоны как великого специалиста по данным — вы можете думать об этом как о создании собственного личного бренда в области науки о данных. После публикации; люди могут читать, комментировать и аплодировать вашей работе. Наличие опубликованного портфолио выступает в качестве пассивной инвестиции для улучшения вашей сети — вы никогда не знаете, кто будет читать ваши статьи.

Основной целью публикации статьи будет демонстрация вашего мыслительного процесса:

  • Выявление проблемы
  • Утверждая важность решения этой проблемы
  • Документирование методологии
  • Курирование релевантных результатов
  • Создание практических идей

Наша структура предназначена для того, чтобы отформатировать ваш проект в захватывающей и эффективной форме для читателей. Документ должен начинаться широким и заканчиваться узким, думайте о повествовании как о воронке…

Введение

Ваше введение посвящено настройке сцены со знанием предметной области. Ученые и аналитики данных должны преуспеть в рассказывании историй, и мы делаем это, адаптируясь к нашей аудитории. Основные моменты, которые необходимо осветить во время секции, следующие:

  1. Какова мотивация этого проекта?
  2. Огласите постановку проблемы
  • Какую проблему вы будете решать?
  • Кого или что затрагивает эта проблема?
  • Почему важно решить?

3. Каковы преимущества решения этой проблемы?

4. Разбейте свою проблему на основные концепции

Решение

Здесь вы дадите общий обзор того, как вы будете решать поставленную выше задачу. Независимо от того, используете ли вы анализ данных, чтобы рассказать историю, или строите модель машинного обучения для прогнозов, краткое изложение подхода в двух предложениях заложит основу для последующего технического решения.

Техническое решение

Техническое решение можно разбить на 3 составляющие:

  1. Обзор набора данных
  • Что описывают данные?
  • Почему именно этот/эти наборы данных?
  • Где вы нашли ресурсы?

2. Укажите процесс очистки и ваше обоснование этих шагов?

3. Какие столбцы/характеристики набора данных наиболее интересны и почему?

Если у вас есть проект, основанный на анализе, начните с широкого исследовательского анализа и постройте повествование на основе информации, полученной из данных. Вы должны думать о том, чтобы детализировать каждый аналитический шаг до тех пор, пока не будут найдены четкие и действенные выводы.

  • Всегда включайте таблицы, диаграммы и ключевую статистику при детализации каждого шага.
  • Что данные говорят вам на каждом этапе? Есть ли какие-то базовые закономерности? Используйте эти шаблоны, чтобы перейти к следующему аналитическому вопросу.
  • В качестве подсказки для «клея» повествования используйте образ мышления «каков ответ» и «почему это ответ?»

Если ваш проект основан на машинном обучении:

  • Опишите свою методологию и обоснование: разработка функций, выбор модели и т. д.
  • Какие показатели вы используете? Это очень важно, почему вы используете именно эти метрики, есть ли какие-либо потенциальные риски при использовании этой метрики?

Полученные результаты

Даже если вы не достигли желаемого результата, важно задокументировать общие результаты. Наука о данных продемонстрировала быструю эволюцию за последние пять лет, это можно сделать из документирования не только историй успеха, но и тупиков.

  • Объяснил ли ваш анализ проблему?
  • Как ваш анализ помог решить проблему?
  • Как выглядит хорошо работающая модель?
  • Ваша модель достигла этого?
  • Существуют ли общедоступные сопоставимые оценки или эталоны?
  • Взгляните на свою эффективность под другим углом — попробуйте использовать различные показатели или матрицу путаницы.

Ограничения

Воспринимайте этот раздел как место, где можно выделить области для оптимизации. Как бы вы отнеслись к своему собственному подходу критически?

  • У вас было достаточно данных?
  • Эти данные лучше всего отражают проблему?
  • Вы вводили шум при уборке?
  • Была ли систематическая ошибка в наборе данных?
  • Имеет ли значение скорость? Вывод слишком медленный?
  • Анализ ошибок - были ли какие-либо темы в ошибках, допущенных во время прогнозирования?

Следующие шаги

Улучшения

Как бы вы улучшили или исправили ограничения? Попробуйте сформулировать этот подраздел так, как если бы вы давали совет себе или кому-то другому, решившему подобную проблему.

  • Что вы узнали о процессе проекта?
  • Как бы вы улучшили проект, если бы вам пришлось повторить его снова?
  • Если бы у вас было больше времени, что бы вы сделали?

Мысли о будущем

Этот подраздел демонстрирует, что вы смотрите вперед и можете видеть общую картину.

  • Куда этот проект может пойти дальше?
  • Есть ли другие области, в которых может быть применено ваше решение?

Краткое содержание

Перенесите весь проект в один абзац.

  • В чем была проблема?
  • Почему вы пытались решить проблему?
  • Каково было решение?
  • Каков был результат?

Гид по стилю

Аудитория

Думать о своей аудитории крайне важно при передаче информации, будь то статья, презентация или ежедневный стендап. Каждая аудитория будет иметь разное техническое понимание и разные точки зрения, которые необходимо учитывать. Для целей этих статей вы будете писать для аудитории, состоящей из одного коллеги по науке о данных и одного заинтересованного лица.

Заголовок

Заголовок должен быть броским и лаконичным. Подумайте о заголовке в конце, как только вы написали историю, это обычно вдохновляет.

Форматирование

Включите заголовки для основных компонентов — «Введение», «Решение», «Результаты» и т. д., а также подзаголовки для разделов в основных компонентах, например. Улучшения, мысли о будущем и т. д.

Изображений

Используйте изображения и диаграммы для обобщения мыслей и представления концепций и рабочих процессов.

  • Используйте unsplash для бесплатных стоковых изображений и убедитесь, что вы ссылаетесь на автора в своей статье.
  • miro и draw.io могут быть эффективными инструментами для рисования диаграмм

Видео или гифки

Видео и гифки могут быть отличным способом объяснить или помочь в описании концепций или даже показать результаты, например. Этот пост демонстрирует прогнозы машинного обучения в реальном времени.

Графики и визуализации

Проверьте эти ссылки, чтобы узнать, что делает хорошую визуализацию

Ссылки

Точно так же, как мы показали выше, если уже существует источник по определенной теме, которая помогает вашему повествованию, используйте его и отдайте должное.

Код

Medium предлагает возможность встраивать код прямо в статью. Это отличный способ внести разнообразие в ваше повествование и продемонстрировать любой интересный код, который вы написали. Ссылки на код вашего проекта должны быть размещены как часть вашего портфолио, обязательно ознакомьтесь с репозиториями github.

Заключительные слова

Заключительные строки вашей статьи должны быть благодарностью вашим читателям и ссылкой на код вашего проекта, Linkedin, Twitter и веб-сайт.

Спасибо за ваше время

Спасибо, что прочитали наш пост о том, как по-настоящему проявить себя при документировании проекта. Каждый тратит так много времени и усилий на решение проблем, важно, чтобы работа была не только признана, но и доступна для других, чтобы на нее можно было опереться.

В Digital Futures мы считаем, что таланты распределяются поровну, а возможности — нет. Мы открыты для всех — ознакомьтесь со всем нашим бесплатным контентом здесь и присоединяйтесь к обсуждению.

И если вы думаете, что это хорошо, представьте, что из себя представляет наша Академия! Узнайте больше обо всех наших программах здесь и начните свое цифровое будущее.