Преодоление разрыва между теоретическими и практическими применениями машинного обучения с помощью Kaggle

Прошло пять лет с тех пор, как мы запустили Perspective API, бесплатный сервис Jigsaw, который помогает модераторам управлять пользовательским контентом онлайн. Оглядываясь назад на то, как мы смогли развить и улучшить этот инструмент, нам посчастливилось получить важные и продуктивные отзывы от сообщества машинного обучения. Когда люди напрямую взаимодействуют с любой моделью, они часто обнаруживают непредвиденные результаты. Это проблемы, знакомые практикующим специалистам, и они являются основным направлением наших постоянных усилий по улучшению и поддержке функциональности Perspective.

Это одна из причин, по которой мы неоднократно обращались к Google Kaggle, сайту для проведения соревнований по машинному обучению, чтобы проверить наши предположения и пообщаться с сообществом машинного обучения. В течение последних пяти лет мы использовали соревнования Kaggle в качестве существенного шага в процессе разработки продукта Jigsaw, помогая преодолеть разрыв между технической гипотезой и практическим применением. Попутно мы проверяли наши теории, пересматривали наши предположения и коренным образом улучшали наши результаты.

Больше данных для победы

Расширение данных — это способ, позволяющий практикам значительно увеличить разнообразие данных, доступных для моделей обучения, без фактического сбора новых данных. При использовании Kaggle мы видели, как участники используют наборы данных новыми способами, включая такие методы, как обратный перевод, который включает в себя алгоритмический перевод фраз с одного языка на другой, а затем обратно на исходный язык. Совместное использование переведенных предложений туда и обратно может ввести новые фразы и эквивалентные термины, отсутствующие в обучающих данных, улучшая покрытие и обобщение модели.

Мы стремимся улучшить результаты Perspective API, и если есть способы сделать этот инструмент более эффективным, мы хотим знать. То, как другие инженеры и ученые подходят к решению этих задач, часто влияет на то, как мы строим модели. И хотя стратегии, используемые для решения проблем в Kaggle, могут быть непрактичными в производственной среде, они часто открывают новые перспективы, которые помогают нам решать проблемы по-новому.

Устранение предвзятости

Мы писали о проблемах непреднамеренного смещения в моделях и выбрали эту тему в качестве основы для одного из наших предыдущих соревнований Kaggle. В этом конкурсе была представлена недавно введенная система оценки, которая требовала, чтобы модели участников хорошо работали на многих фрагментах тестовых данных, связанных с определенными группами, такими как пол или этническая принадлежность. Тенденция моделей машинного обучения несправедливо маркировать комментарии маргинализированных сообществ и о них является открытой исследовательской задачей, и наша команда продолжает исследовать эту область, создавая алгоритмы для смягчения предубеждений.

В этом конкурсе участвовало более трех тысяч команд, и победительница изучила метрику смещения и использовала несколько уникальных для своего решения техник, в том числе специальную пользовательскую метрику проигрыша. Более значительное и продолжительное влияние этой конкуренции можно увидеть, проследив тенденции исследований. Победный результат принес сотни цитирований в публикациях, статьях и нескольких уроках YouTube.

Содействие прозрачности

В Jigsaw у нас есть возможность работать с рядом академических учреждений, и одно из преимуществ, которое мы увидели в этом секторе, — это открытость для обмена информацией, знаниями и гипотезами. Этот коллегиальный дух мы стремимся всегда поощрять в нашей работе, и он неоднократно проявлялся в наших соревнованиях Kaggle. Сообщество Kaggle находится на пересечении академического сообщества специалистов по данным, промышленности и эклектичной группы любителей и предпринимателей, которые почти не поддаются категоризации. Победителями часто становятся члены сообщества, которые делятся блокнотами и советами на форумах, помогая другим продвигать свою работу вперед, даже если это не приносит немедленной выгоды лично им.

Мы часто использовали наши соревнования Kaggle как способ поделиться своими мыслями и проблемами, которые мы стремимся решить. Компания Jigsaw работала над созданием коллекции аннотированных ресурсов, которыми можно поделиться и использовать в коммерческих исследованиях. И даже когда мы не можем поделиться конкретными данными, мы стараемся обсудить, какие методы работают, а какие нет, что может помочь другим решить аналогичные проблемы.

Все наши конкурсы Kaggle включают требования о раскрытии информации, и участники должны публично делиться информацией о своих победных работах, чтобы получить свои денежные призы. Многие из наших конкурсов на Kaggle, такие как Multilingual Toxic Comment Challenge, имеют — по техническим причинам — еще более жесткие требования к раскрытию информации. В этом соревновании участники должны были поделиться всеми данными с другими участниками, прежде чем они смогут обучить свои модели. Это было связано с ограничениями аппаратного ускорителя Google TPU, который еще не поддерживал частные данные. Но, как всегда, Kagglers спокойно отнеслись к этим техническим проблемам. Jigsaw отметил двух участников специальными денежными призами за решение и распространение популярных моделей и инструментов. Возможность открыть доступ к новейшему оборудованию для машинного обучения еще до того, как оно станет коммерчески доступным, является частью волнения, которое Kaggle приносит участникам.

Что дальше

Мы рассматриваем наши соревнования Kaggle как возможность публиковать данные, взаимодействовать с сообществом таким образом, чтобы способствовать прозрачности и предоставлять базовые показатели производительности, которые могут помочь в обсуждении алгоритмов и политик. Не каждый исследовательский вопрос или цель продукта создают хорошую конкуренцию. И даже при наличии отличной идеи найти правильный источник данных и аннотировать его могут возникнуть серьезные проблемы. Мы надеемся и дальше проводить конкурсы, которые вовлекут сообщество Kaggle и привлекут новых людей в эту область, и мы активно рассматриваем темы для предстоящих конкурсов, в том числе обнаружение недопустимых интервалов, включение идентичности аннотатора в оценки моделей или разработка новых модели, которые лучше взаимодействуют с модераторами-людьми.

Соавторы: Джеффри Соренсен, Ян Кивличан, Нитум Тейн, Тин Акоста, Люси Вассерман

Преодоление разрыва между теоретическими и практическими применениями машинного обучения с помощью Kaggle

Вопросы по теме