В центре внимания сообщества

Адаптация инструментов науки о данных для социального воздействия в благотворительности

Наука о данных в Фонде Рокфеллера

В серии В центре внимания сообщества редакторы TDS обсуждают с членами сообщества специалистов по науке о данных интересные инициативы, которые помогают продвинуть эту область вперед. Сегодня мы рады поделиться беседой Эллиота Ганна с Мэдлин Лисайус, ведущим специалистом по данным, и специалистом по статистике и машинному обучению команда The Rockefeller Foundation, благотворительной организации, основанной в 1913 году, которая работает над решением глобальных проблем, связанных со здоровьем, питанием, властью и мобильностью экономики.

Как выглядит наука о данных в Фонде Рокфеллера? Как выглядит обычный рабочий день команды?

Фактически данные лежат в основе подхода Фонда Рокфеллера к реализации воздействия с момента его основания в 1913 году. В то время подход, основанный на гипотезах и данных, назывался «научной филантропией». Изначально предполагалось, что команда Фонда Рокфеллера по статистике и машинному обучению воспользуется преимуществами новейших аналитических методов для улучшения нашего подхода, основанного на данных, к нашей существующей благотворительной деятельности, добавив при этом науку о данных в качестве консультационной услуги или инструмента, который мы могли бы предложить наряду с денежными ресурсами.

Опираясь на это видение, команда теперь находится под широким кругом команды инноваций, и ей всего около двух лет. Хотя это может показаться недолгим, реальность такова, что мы все еще пытаемся понять, как мы хотим, чтобы наука о данных в филантропии выглядела для Фонда - наличие стабильного источника финансирования и миссия по улучшению благосостояния человечества создают невероятно привилегированное пространство для тестирования, неудач и воображения в нашей работе.

Сегодня команда состоит из трех специалистов по обработке данных, работающих на полную ставку, а также группы консультантов, которые нас поддерживают; мы делаем все: от поддержки запросов, связанных с данными в Фонде, до ведения независимых проектов, связанных с работой наших инициатив.

Поскольку наша работа может очень сильно варьироваться, у меня нет обычного дня - у меня были дни, когда я работал с консультантами, чтобы подготовить материалы для запуска проекта Инициативы, но также были дни без единой встречи, на которой я отлаживал свою модель. В настоящее время наш технический стек включает Domino, а также специальные платформы для нишевой работы - например, я использую Google Earth Engine в основном для работы с дистанционным зондированием.

Как команда выбирает проекты для работы и приступает к ним?

Есть два основных пути, с помощью которых мы идентифицируем проекты: через предложение или запрос от внутренней инициативы или через идею внутри нашей собственной команды. После обсуждения потенциального проекта внутри компании и с доверенными партнерами, и если проект будет одобрен, мы продвигаемся вперед с запланированными сроками и бюджетом. Оттуда каждый проект очень отличается.

Для проектов, которые нам предлагают или просят помочь, мы обычно переходим к этапу, когда мы знаем, что работа является достаточно хорошей идеей, и сразу же передаем результаты - эти проекты могут занять меньше дня.

Для проектов, которые мы представляем и разрабатываем сами, питчинг, разработка и повторная разработка может занять от нескольких месяцев до года. Поскольку каждый, кто связан с командой, выполняет множество ролей, будучи такой маленькой командой, обслуживающей такую ​​большую организацию, эти рабочие процессы и временные рамки включают в себя много несвязанной работы, а также ее выяснения.

Не могли бы вы рассказать нам о различных инициативах и проектах в области науки о данных в Фонде Рокфеллера?

Я очень горжусь проектом составления карт собранных вручную культур, о котором я недавно опубликовал в« На пути к науке о данных . Прошлой весной, когда Covid-19 достиг США, стало ясно, что для сельскохозяйственных рабочих возникают все более серьезные препятствия и, соответственно, обостряется нехватка рабочей силы. Я запустил проект по картированию собранных вручную культур, чтобы попытаться обнаружить на уровне участка 10 м на 10 м каждую отдельную собранную вручную культуру в Центральной долине Калифорнии, чтобы попытаться отследить, как и где производители могут изменить свои решения по выращиванию из-за нехватка рабочей силы и другие факторы стресса.

Фонд Рокфеллера много думает о доступе к защитным продуктам питания - продуктам, которые помогают предотвратить болезни, связанные с питанием, - и понимание изменений в производстве продуктов имеет важное значение для этого разговора. Самым большим препятствием и пространством возможностей было еще отсутствие платформы или политики Фонда в отношении дистанционного зондирования - у меня была возможность сформировать наш подход к дистанционному зондированию, наши ценности, приоритеты и цели в работе по дистанционному зондированию, а также возглавить разработку нашего технологического стека. Помимо проблем и радостей всей этой работы по организационному развитию, было невероятно видеть, как новые, более простые методы оказались успешными для недостаточно решаемой задачи. Очень мало организаций, которые могли бы создать среду для такого количества экспериментов, которые потребовались для создания модели картографирования собранных вручную культур, и это была огромная привилегия реализовать наше первоначальное видение и надежду на реализацию.

Другие проекты нашей команды включают в себя картографирование областей экономических возможностей в Нью-Йорке с использованием спутниковых снимков, создание индексов для отражения различных проблем благополучия в городах США (в виде отдельного блога для TDS) и поддержку модели для прогнозирования. расположение свинцовых труб в городах ».

С какими проблемами столкнулась команда?

Одна из самых серьезных проблем, с которыми сталкивается команда по статистике и машинному обучению, заключается в том, что у нас нет моделей прикладной статистики или групп по обработке данных, которые мы могли бы использовать при создании наших структур и подходов к работе. Очень интересно использовать лучшие стороны общественной, частной и академической сфер, чтобы создать новый способ мышления и ведения науки о данных, но это требует времени и целенаправленности.

Во-вторых, мы много думаем и много работаем над вопросом науки о данных для социального воздействия - большинство структур науки о данных ориентированы на прибыль, но «социальное благо» не так четко определяется или измеряется, кроме как косвенным путем. Связанная с этим проблема (и возможность) заключается в том, что не все подходы, разработанные в науке о данных, применимы к социальным вопросам, которые мы заинтересованы в изучении, и нам остается исследовать возможности прокси-наборов данных и новые способы представления прикладной статистики. Таким образом, наши проблемы часто сводятся не столько к техническим, сколько в философскую сферу.

Что побудило вас написать о проекте Спутниковое картографирование ? Что вы надеетесь, что читатели извлекут из этого пользу?

Один из способов, которыми команда по статистике и машинному обучению думает о влиянии нашей технической работы, - это охват как можно большего числа соответствующих людей. В отличие от академических кругов, мы не обязаны публиковать исключительно (или вообще) через журналы, что означает, что мы можем выполнять работу быстрее и более неформально, что позволяет активно обсуждать наши проекты по мере их реализации, а не годы спустя, и, надеюсь, получить полезные инструменты. в руки людей, которые могут использовать их сейчас.

Публикуя блог на сайте Towards Data Science, мы видим путь к привлечению технических коллег и началу разговоров - поскольку мы исследуем роль науки о данных в филантропии, двустороннее общение о нашем подходе и работе имеет важное значение. По этой причине написание и обсуждение нашей работы является ключевым компонентом того, как и почему мы делаем то, что делаем. В работе по картированию собранных вручную культур всегда было ясно, что увлекательной работу делают не только возможные приложения для решения вопросов труда, сельского хозяйства, землепользования и т. Д., Но и конкретные используемые технические подходы - к науке о данных было естественным домом для этого обсуждения.

Одним из соображений, с которым я столкнулся в своей работе и при подготовке статьи для «На пути к науке о данных», было то, как обеспечить, чтобы работа была усердной и неформально рецензировалась без рамок академического журнала - построение подхода к прозрачности и строгости - это то, что я будет иметь важное значение для будущего науки о данных в филантропии. В целом, я надеюсь, что читатели будут вдохновлены моей работой, учатся на ней и бросают ей вызов.

Какие виды работ по науке о данных вам нравятся и что бы вы хотели видеть больше?

Нашей команде нравится работать со всевозможными письменными и неписательными источниками для наших целей в области науки о данных и машинного обучения. Наша команда широко заинтересована и вкладывается в способы усиления ранее недопредставленных и замалчиваемых голосов в области науки о данных и машинного обучения, и мы всегда хотим видеть больше этих точек зрения и мнений. Мы ценим чтение о том, что не сработало, и желаем, чтобы на пути к успеху было больше разговоров о неудачах и разочарованиях. Наконец, в нашей команде мы верим, что красивее не всегда лучше, и нам нравится узнавать, как «простые» подходы умело и элегантно используются для решения проблем.

Каковы ваши надежды на сообщество специалистов по науке о данных в ближайшие пару лет? Какую роль (роли) вы видите в Фонде Рокфеллера в качестве лидера в некоммерческой сфере науки о данных?

Я возлагаю большие надежды на сообщества специалистов по науке о данных и машинному обучению по всему миру.

Первая и самая большая надежда связана с новизной «науки о данных» как области и призывает к работе «на основе данных»: я вижу много возможностей для людей, работающих в DS + ML, для объединения вокруг общей идентичности и набора принципов. . В разных отраслях термин «наука о данных» используется для обозначения визуализации данных, прикладной статистики, некоторой разработки программного обеспечения и многого другого - я надеюсь, что в будущем мы сможем помочь определить, а затем открыто поделиться тем, что есть, а что нет. часть науки о данных.

Вдобавок благонамеренные коллеги иногда просят людей на местах «доказать» или «показать» отношения, которых нет в имеющихся данных - я надеюсь, что со временем появятся стандарты сообщества для того, какие типы сценарии, на которые мы должны и не должны реагировать.

Более того, я надеюсь на то, что достижения, продвигаемые коммерческими компаниями в области ИИ, могут быть адаптированы и перенаправлены для решения социальных вопросов. Что касается роли Фонда Рокфеллера в этом будущем, то сейчас трудно сказать. Мы воодушевлены некоторыми проектами, которые оказывают значимое влияние, но все еще находятся в режиме обучения и слушания, и много (все еще) думаем о том, как возглавить науку о данных и машинное обучение в филантропии, не говоря уже о мире.

Следует также отметить, что наш магазин прикладной науки о данных находится в ведении большой группы инноваций, которая предоставила финансирование для использования науки о данных для социального воздействия. Некоторые из наших финансируемых партнерств включают Атлас ИИ, который продвигает методы ИИ для разработки оценок характеристик населения, экономических условий, производительности сельского хозяйства и доступа к инфраструктуре на развивающихся рынках, а также data.org, платформу, которая использует возможности данных для решения самых серьезных проблем общества.

Хотите узнать больше о науке о данных в Фонде Рокфеллера? Следите за ними в LinkedIn и Twitter. Вот другие статьи, в которых рассказывается о проектах, в которых машинное обучение используется на благо общества.