Мы часто говорим о нейронных сетях, векторном поиске, MLOps, масштабируемости поиска и стоимости. Но одна тема, заслуживающая большего внимания, — это то, с чего начинается это путешествие: данные.

🎙 В этом выпуске (записанном прямо перед Рождеством) с Евгенией Суходольской (Дженни), Data Advocate в Толоке, вы погрузитесь в тему разметки данных для Поиска и машинного обучения: от настройки проекта до оценки навыка уровень аннотатора и как интерпретировать и использовать результаты в ваших алгоритмах. Мы также говорили об очень важной теме предвзятости данных. Я многое узнал о маркировке данных, общаясь с Дженни! 🤩

Обязательно ознакомьтесь со ссылками для получения грантовой поддержки, если вы преподаватель или вообще работаете в академических кругах!

Исследовательские гранты и партнерские отношения с преподавателями:

https://lnkd.in/dg3vKrvi
https://lnkd.in/dEkvFrkk

На них ведут страницы:
https://lnkd.in/dejZ9a5z
https://toloka.ai/grants

💡 Темы:

00:00 Вступление
01:25 Путь Дженни от получения диплома по машинному обучению до роли Data Advocate
07:50 Что входит в процесс маркировки в Толоке
11:27 Как подготовить данные для маркировки и задачи по дизайну
16:01 Взгляд Дженни на то, почему релевантности нужно больше данных в дополнение к кликам в поиске
18:23 Дмитрий на мгновение играет в адвоката дьявола
22:41 Неявные сигналы против пользователя поведение и оффлайн A/B-тестирование
26:54 Дмитрий возвращается к пропаганде хороших методов поиска
27:42 Цветочный поиск как конкретный пример маркировки релевантности
39:12 NDCG, ERR в качестве метрик качества ранжирования
44:27 Согласование кросс-аннотаторов, идеальный список для NDCG и агрегатов
47:17 Об измерении и обеспечении качества аннотаторов с помощью приманок
54:48 Глубокое погружение в агрегации
59:55 Предвзятость данных, поисковая выдача, маркировка и A/B-тесты
1:16:10 Достижимы ли объективные данные?
1:23:20 Объявления