Текущие современные модели видения и видения и языка обычно являются либо кросс-модальными (контрастными), либо мультимодальными (с более ранним слиянием) и, как правило, ориентированы на конкретные модальности или задачи. Многообещающим направлением, которое видят многие в исследовательском сообществе машинного обучения, является разработка…