Любопытный ум, блуждающий по миру данных

Мир данных - это не только алгоритмы и технологии. Люди также участвуют в цепочке создания стоимости данных. Мой последний концерт дал мне некоторое представление о том, как люди ведут себя на рабочем месте и как формируются привычки. Но самое главное, это заставило меня заинтересоваться этими темами в связи с данными.

Список на этой неделе охватывает множество тем. Итак, я надеюсь, что каждый найдет что-нибудь для себя.

  1. Повысьте грамотность своей команды в работе с данными. Компаниям не хватает навыков решения проблем на основе данных, таких как: задавать правильные вопросы; проверка гипотез с помощью A / B-тестов; понимание того, какие данные актуальны; правильно интерпретировать данные, чтобы делать полезные и содержательные выводы; рассказывать историю, чтобы помочь лицам, принимающим решения, увидеть общую картину и действовать в соответствии с результатами анализа. Эти мягкие навыки имеют значение. Предложения в статье: (1) убедиться, что люди знают, как использовать инструменты; (2) создать академию навыков работы с данными; (3) использовать примеры и истории в информационных кампаниях; и (4) учитывать данные во всех важных процессах принятия решений. (HBR)
  2. Переосмысление подхода к талантам построение и покупка: Наем новых сотрудников, чтобы идти в ногу с быстрыми темпами развития технологий, цифровых технологий и данных, очень дорого, если не невозможно. Все больше организаций применяют гибридный подход и совмещают прием на работу с обучением. Но программы L&D, направленные на развитие новых технических навыков или информационной грамотности, должны отличаться от стандартных решений L&D. Им должны руководить действующие специалисты-практики, и они должны быть сосредоточены на проектах и ​​задачах, адаптированных к данным, инструментам и технологиям компании; Обучение работе с данными "на рабочем месте". Все это, вместе с личным примером высшего руководства, важно для того, чтобы сделать компанию действительно управляемой данными. (Джош Берсин)
  3. Модели для интеграции групп специалистов по анализу данных в организации. Развернуть работу специалистов по анализу данных в организациях непросто. Существует множество моделей, каждая из которых имеет свои преимущества и недостатки, например: центр передового опыта, специалисты по обработке данных в качестве консультантов, специалисты по обработке данных, нанятые непосредственно группами разработчиков продукта, модели науки о данных о продуктах с специалистом по данным в каждой группе продукта, но отчитывающиеся в центральном центре обработки данных. команда. Все организации разные, но, по моему опыту, модель науки о данных о продукте работает хорошо. При увеличении количества продуктов и увеличивающейся численности персонала CDO необходимо найти способ масштабирования, который подходит для организации. (Pardis Noorzad @ Medium)
  4. Безопасное развертывание моделей машинного обучения в производственной среде: лучшие практики для CI / CD систем машинного обучения. На этапе CI необходимо выполнить не только проверку данных и модели, но также проверить допущения в отношении производственных данных и провести стресс-тест эксплуатационных характеристик модели. Для фазы CD обсуждаются теневые оценки, A / B-тесты и многорукие бандиты. Круто, круто, круто. Но это было конфетой в статье: В то время как парадигмы CI / CD касаются« что и как развертывания новых моделей, когда покрывается CT (Continuous Обучение) парадигма ». ( Орен Разон @ к науке о данных )
  5. Персонализированный поиск в Etsy: Etsy использует исторические и контекстные функции для персонализации результатов поиска пользователей. Исторические особенности описывают покупательские привычки и поведение пользователей. Контекстные функции используют текстовое описание (заголовок, теги) и фиксируют какие элементы, с которыми пользователь взаимодействовал, в контексте всех элементов (например, с использованием Tf-Idf). Когда пользователь вводит поисковый запрос, алгоритм выбирает 1000 наиболее релевантных элементов (игнорируя функции персонализации) и, следовательно, ранжирует их, используя персонализированные исторические и контекстные функции. Это хороший пример подхода '80 –20 ', где вы используете грубый алгоритм, чтобы быстро сузить список возможных решений, а затем принять штраф - более изощренный - подход, позволяющий точно выбрать лучшее решение из заранее выбранного списка. И напоминание о том, что каждый шаг к улучшению требует все больше усилий. (Etsy)

Я считаю, что тема информационной грамотности очень важна. К сожалению, большинство материалов похоже на визуализацию данных (см., Например, thedataliteracyproject.org). Учитывая прогресс передовой аналитики, люди должны принять вероятностный характер этих решений и не предполагать, что они должны работать на 100% (и игнорировать их, когда они этого не делают).

Я также наткнулся на Datawrapper; Это не только кажется отличным инструментом для создания диаграмм (как тот, что выше), карт и таблиц, но они также ведут отличный блог о визуализации данных.

Спасибо за внимание!

Не стесняйтесь делиться своими мыслями или советами к прочтению в комментариях.

Подписывайтесь на меня в Medium и LinkedIn.