Когда я ехал по автостраде Хьюстона, я заглянул в этот подкаст об искусственном интеллекте (ИИ), безусловно, одной из моих любимых тем, о которой подробно рассказывают эксперты в данной области.
Доктор Томазо Поджио обладает огромными знаниями об искусственном интеллекте, и сегодня мы рассмотрим один лакомый кусочек информации, который он обсуждал с доктором Лексом Фридманом. Это идея больших данных по сравнению с небольшими данными.
Все мы слышали термин «большие данные», и если вы еще не слышали, быстрый поиск в Google должен помочь вам быстро освоиться. На протяжении многих лет компании, по сути, выяснили, что они сидят на ценности, когда люди начали открывать реальные, действенные идеи в пределах своих цифр.
Это могут быть данные о пользователях, трафике и взаимодействиях между людьми. Или даже отраслевые данные, такие как видеонаблюдение, движения фондового рынка и данные сигналов нефтяных вышек.
Сообщество ИИ добилось значительных успехов в моделировании и прогнозировании будущих результатов на основе этого огромного хранилища ретроспективных данных, и мы продолжаем это делать (опять же, Google - ваш лучший друг).
Однако иногда (может быть, даже в большинстве случаев) люди и компании имеют только несколько сотен или тысяч строк / примеров данных. Эта проблема пронизывает такие крупные отрасли, как здравоохранение, где количество здоровых людей намного превышает количество больных. Это проблема «малых данных», и возникает вопрос:
Разрешено ли им играть с этими сложными нелинейными моделями?
Конечно, ответ должен быть ДА!
И доктор Поджио сослался на этот феномен, идущий от того, как мы думали ранее - где данные приближаются к n = бесконечности, к тому, где данные приближаются к n = 1.
Это один из новых рубежей в области данных и искусственного интеллекта. Идея о том, что нам нужно создавать лучшие алгоритмы, которые учатся на меньших объемах данных, но имеют те же возможности обобщения.
Если мы действительно хотим создать общий интеллект с моделью человеческого мозга, нам нужно двигаться к этой цели - изучать большой объем информации на нескольких примерах. Так учатся младенцы. Так учатся взрослые.
Нам не нужно видеть тысячи изображений яблок, чтобы понять, как выглядит яблоко.
Конечно, существуют алгоритмы и методы, которые могут использовать информацию в небольших количествах точек данных, но мы далеки от алгоритма, основанного на принципе «победитель получает все». Это захватывающие времена.
Спасибо за прочтение.