Публикации по теме 'ai-alignment-and-safety'


Руководство для начинающих о том, что ИИ пошел не так, как надо: что делает плохой ИИ плохим.
Раскройте тайну данных, дизайна и выравнивания ИИ Введение Искусственный интеллект (ИИ) или машинное обучение (МО) — одна из определяющих новых технологий 21 века. ИИ встречается во всех аспектах современной жизни — от развлечений до здравоохранения, транспорта и так далее. Однако по мере того, как ИИ получает все большее распространение и значение в обществе, все больше внимания уделяется этическим вопросам и вопросам безопасности в ИИ. Что делает ИИ «плохим»? Какие этические..

Раскрытие теней зарождающегося ИИ: обман и оптимизация
Введение ИИ развивается с поразительной скоростью, создавая новые и непредвиденные проблемы. В наводящей на размышления записи блога под названием «Эмерджентный обман и эмерджентная оптимизация» автор углубляется в интригующую концепцию эмерджентных возможностей в системах машинного обучения. Анализируя принципы снижения потерь при обучении и конкурирующие эвристики, автор предвидит появление двух конкретных возможностей, которые могут иметь важные последствия для развития ИИ: обман и..

Проблема внутреннего выравнивания
ПОДКАСТ Проблема внутреннего выравнивания Эван Хубингер о создании безопасных и честных ИИ Примечание редактора. Этот выпуск является частью нашей серии подкастов о новых проблемах в области науки о данных и машинного обучения , которую ведет Джереми Харрис. Помимо размещения подкаста, Джереми помогает запустить стартап по наставничеству в области науки о данных под названием SharpestMinds . Как вы можете узнать, что сверхразумный ИИ пытается сделать то, что вы его просили?..

Выявление недобросовестного или небезопасного ИИ с помощью графических критериев
Как использовать диаграммы причинно-следственных связей, чтобы распознать скрытые стимулы, формирующие поведение агента ИИ Справедливость и безопасность продвинутых систем машинного обучения вызывают законные опасения. Чтобы устранить корень проблемы, исследователи могут проанализировать стимулы, создаваемые алгоритмом обучения, с помощью диаграмм причинно-следственных связей (CID). Среди прочего, компания DeepMind Safety Research написала о своем исследовании CID , и я уже писал ранее о..

Беспилотные автомобили: прошлое, настоящее и будущее
ПОДКАСТ Самоходные автомобили: прошлое, настоящее и будущее Питер Гао о проблемах и инновациях, лежащих в основе автономного вождения Примечание редактора. Этот выпуск является частью нашей серии подкастов о новых проблемах в области науки о данных и машинного обучения , которую ведет Джереми Харрис. Помимо размещения подкаста, Джереми помогает запустить стартап по наставничеству в области науки о данных под названием SharpestMinds . Cruise - стартап по производству..