Часть 1

Когда мы восхищаемся будущим технологий и искусственного интеллекта, очень здорово думать о том, насколько лучше станут технологии. То или иное улучшит качество нашей жизни. Но что именно является лучшим качеством жизни? Технологии улучшились, но улучшились ли мы вместе с ними или просто стали полагаться на них? Чтобы разобрать эту идею, я расскажу о генерации изображений и интерактивном машинном обучении.

Когда NVIDIA выпустила GauGAN в 2019 году, это был удивительный прорыв в создании фотореалистичных изображений. Используя этот инструмент, пользователь сможет нарисовать с помощью мыши грубый набросок цветов, а GauGAN превратит этот набросок в фотореалистичный пейзаж. Можно было создать удивительные пейзажи и водопады простыми мазками синей и зеленой кисти. Хотя инструмент в то время не был идеальным, изображения имели артефакты и невозможные функции, он давал любому возможность рисовать фотореалистично без специального обучения (для человека).

Перенесемся к последним разработкам за последний год: при создании изображений полностью доминировали текстовые подсказки и Dalle2. С помощью всего нескольких простых слов Dalle2 может вернуть изображение сверхвысокого разрешения, которое может сочетать в себе самые разные техники. Человек может рисовать в любом стиле. Технология генерации изображений, безусловно, улучшилась. Но улучшаются ли люди вместе с этим?

Если рисование вручную для создания изображения является традиционным человеческим навыком, который можно улучшить, мы уступаем все больше и больше усилий и творчества машине. Dalle2 требует не мастерства, а авторитета. Человеку в цикле просто нужно авторизовать текстовое приглашение. Этот авторитет исходит не от художественной уверенности или опыта в предметной области, а от желаемого за действительное. С помощью таких «инструментов», как Dalle2, мы сообщаем то, что «хотим», с помощью обработки естественного языка. Более четко выраженное желание приводит к «лучшему» имиджу. В отличие от GauGan от NVIDIA, где производительность и творчество могут быть выражены с помощью кисти пользователя, создание желаемого в визуальной области смешивается с текстовой коммуникацией. В этом случае агенты ИИ становятся желаемыми джиннами, а не инструментами, облегчающими расширенное взаимодействие.

В более технологически продвинутом будущем, когда агенты ИИ становятся все более способными, люди также должны становиться все более способными. Вместо того, чтобы просто позволять людям легко желать с властью, агенты ИИ должны расширять возможности людей таким образом, чтобы расширять возможности и предлагать новые задачи. Чтобы говорить на одном языке с людьми в четком цикле обратной связи, бремя будущего прогресса лежит как на человеке, так и на машине.

Часть 2

Десять вещей, которые могут выиграть от интерактивного мышления ИИ
1. Изучение тем в образовании, которые традиционно трудны для понимания (математика/естественные науки), более персонализированным/интуитивным способом
2 , Музыкальное сопровождение для человека-исполнителя. Возможность учиться и реагировать на игрока, его привычки, стиль, произведение
3. Рекомендательные системы, которые не являются только одним направлением (Netflix -> человек, наблюдающий), но, возможно, пользователь сможет попросить предложение. , выберите предложение путем проб и ошибок
4. Преобразование речи в текст, при котором система способна учитывать исправления пользователя в режиме реального времени, в большей степени речь передает идею в текст, чем просто речь в аудио
5. Инструменты и агенты для обработки изображений в медицинской сфере, помогающие врачам проводить тщательный анализ и диагностику
6. Более точное удаление фона на изображениях
7. Кулинарный ИИ, обратная связь в режиме реального времени при приготовлении пищи производительность, улучшение кулинарных способностей за счет параметризации и помощи ИИ
8. MusicLM, итеративное создание музыки, обратная связь и контроль над выходными, технологическими и корректирующими параметрами
9. Генеративные агенты ИИ, генеративная композиция, chatGPT , а изображения будут полезны или потребуют интерактивного машинного обучения для более быстрого обучения и получения большего количества человеческих результатов
10. Самоуправляемые автомобили и то, как они обучаются, не только с точки зрения данных и CV, но и с помощью человеческой интуиции в сложных сценариях. Также будут ли беспилотные автомобили выразительными в стиле вождения? Некоторые ездят быстро/медленно, ускоряются/поворачивают быстрее/медленнее. Будут ли беспилотные автомобили ездить так же, как их водители, в своем стиле, а не просто безопасно?