Первый семинар по сопоставлению: введение, тематика и основные моменты

Сопоставление является важной задачей для широкого спектра приложений, включая поиск, рекомендации и интеграцию данных, среди прочего. С распространением социальных сетей и платформ электронной коммерции сопоставление структурированных и неструктурированных источников становится все более важной задачей. По своей сути задача сопоставления направлена на поиск всех пар записей в двух коллекциях, обладающих общими свойствами. Например, HR-платформы/услуги сопоставляют резюме с описанием работы. В платформах/сервисах онлайн-бронирования основная цель состоит в том, чтобы сопоставить предпочтения клиентов с предприятиями (например, отелями, ресторанами и компаниями, занимающимися недвижимостью). Помимо этих примеров сопоставления сущностей, существуют и другие варианты использования, в которых часто используются методы сопоставления. Примеры включают сопоставление выдержек из отзывов клиентов о продукте с запросами клиентов, фрагментов веб-документов с поисковыми запросами и ответов пользователей на платформах вопросов и ответов на новые вопросы. Поэтому, как показано на рисунке 1, могут быть разные формулировки задач сопоставления в зависимости от типа источника входных данных (структурированный или неструктурированный), последующего применения (например, поиск, обсуждение, рекомендация) и этических соображений (таких как предвзятость и прозрачность). )

Интересующие темы

На этом семинаре нас интересуют (но не ограничиваются ими) параметры сопоставления (см. рис. 1), а также их результирующие комбинации. Недавние достижения в различных сообществах, от искусственного интеллекта и баз данных до компьютерной лингвистики и взаимодействия человека с компьютером, продемонстрировали многообещающие результаты в различных задачах сопоставления, связанных с ранее упомянутыми (и многими другими) областями. Мы считаем, что объединение сообществ для обсуждения достижений в различных областях, таких как обработка естественного языка, генерация языков, глубокое обучение, диалоговый ИИ, извлечение информации, интеграция данных, графы знаний и ориентированные на человека вычисления, открывает огромные возможности.

Таким образом, цель этого семинара состоит в том, чтобы объединить исследовательские сообщества из научных кругов и отраслей, связанных с этими областями. Эти заинтересованные стороны уже заинтересованы в разработке и применении новых подходов/моделей/систем для решения проблем, связанных с различными задачами согласования. Хотя семинар предназначен для того, чтобы внести вклад в широкий круг тем, сейчас мы обсудим несколько примеров исследовательских проблем, которые могут представлять интерес для аудитории семинара.

Пространство проектирования соответствующих моделей. В то время как потенциальные материалы семинара могут исследовать пространство проектирования ЛЮБОЙ соответствующей модели, далее мы обсудим один типичный класс: большие языковые модели. В последние годы большое внимание уделяется моделям больших языков (LLM). Поэтому возникает естественный вопрос, как мы можем использовать эти LLM для различных задач сопоставления. Фактически, недавняя работа показала, как можно использовать предварительно обученные языковые модели на основе преобразователя для сопоставления сущностей. Однако остаются пробелы с точки зрения эффективности, управляемости, универсальности, удобства использования и прозрачности. Потенциальные заявки на семинар могут исследовать любой из этих аспектов, помимо новых методов сопоставления. Например, хотя эти LLM демонстрируют расширенные возможности понимания языка, использовать их для сопоставления не всегда просто. Необходимо учитывать множество различных аспектов, например:

Прозрачность.Как мы можем гарантировать, что эти подходы не будут предвзятыми? На рис. 2 показано, как ChatGPT, диалоговый агент, созданный на основе семейства больших языковых моделей OpenAI GPT-3, может демонстрировать предвзятость. Использование подхода сопоставления на основе такой модели без учета ранее упомянутых аспектов может иметь катастрофические последствия. Мы уже видели реальные примеры таких случаев.

Контролируемость.Как мы можем предоставить знание предметной области (или мира) (в дополнение к знанию языка) для соответствующих моделей/подходов? Существующие работы, такие как Roberts et al. и Shuyang et al., показывают нам, что нынешним LLM не хватает специальных знаний в предметной области. Были предложены различные подходы к внедрению знаний в LLM. Но наилучшего подхода пока не существует. Новые подходы, исследования существующих подходов или исследования, связанные с интеграцией знаний предметной области в соответствующие подходы, — все это очень важные темы для семинара.
Постоянство.Как мы поддерживаем правильность и актуальность подходов к сопоставлению (на основе LLM или нет), чтобы эти модели постоянно отражали самые точные и свежие знания/информацию? Большинство современных подходов, ориентированных на обновление контента/знаний, представленных в LLM, в конечном итоге сталкиваются с трудностями, связанными с масштабируемостью, катастрофическим забыванием, насыщением емкости и другими препятствиями. Крайне необходимы исследования, анализ и предложение согласованных подходов, которые способствуют лучшей масштабируемости, постоянному обновлению и повышению производительности.

Что есть в мастерской

Помимо исследовательских работ, на соответствующем семинаре будут представлены приглашенные доклады и панельные дискуссии, в ходе которых участники будут взаимодействовать с ведущими исследователями как из научных кругов, так и из ключевых отраслей.

Основные докладчики. Мы уже утвердили трех приглашенных докладчиков: Уильям В. Коэн (ведущий научный сотрудник Google), Ндапа Накашоле (доцент кафедры компьютерных наук Калифорнийского университета в Сан-Диего). и Алан Риттер (доцент Школы интерактивных вычислений Технологического института Джорджии). Следите за аккаунтом семинара в социальных сетях, чтобы быть в курсе последних новостей о переговорах.

Панельная дискуссия. В последние годы модели больших языков стали одним из наиболее заметных факторов, стимулирующих как исследования, так и разработки. Однако влияние этих моделей на последующие задачи неизвестно и недостаточно изучено. Как показано на примере использования ChatGPT для поиска подходящих кандидатов в специалисты по данным на рис. 2, предвзятость, заложенная в этих моделях, может привести к катастрофическим последствиям. Поэтому мы стремимся способствовать здоровому обсуждению этой темы, приглашая исследователей из научных кругов и смежных отраслей. Темой панельной дискуссии станет «Сопоставление в эпоху больших языковых моделей: разобраться в хорошем, плохом и уродливом».

Мы очень рады организовать первый выпуск семинара и с нетерпением ждем интересных материалов по широкому кругу тем, связанных с заданием на сопоставление. Дополнительную информацию вы можете найти на нашем веб-сайте мастерской подбора. Пожалуйста, обращайтесь к организаторам по адресу [email protected] с любыми вопросами или проблемами.

Авторы: Эстевам Хрушка, Саджадур Рахман и Мегагон Лабс.

Подпишитесь на нас в LinkedIn и Twitter, чтобы быть в курсе последних событий.

Первый семинар по сопоставлению: введение, тематика и основные моменты

Интересующие темы

Что есть в мастерской

Вопросы по теме