Большие данные против малых данных

Когда я ехал по автостраде Хьюстона, я заглянул в этот подкаст об искусственном интеллекте (ИИ), безусловно, одной из моих любимых тем, о которой подробно рассказывают эксперты в данной области.

Доктор Томазо Поджио обладает огромными знаниями об искусственном интеллекте, и сегодня мы рассмотрим один лакомый кусочек информации, который он обсуждал с доктором Лексом Фридманом. Это идея больших данных по сравнению с небольшими данными.

Все мы слышали термин «большие данные», и если вы еще не слышали, быстрый поиск в Google должен помочь вам быстро освоиться. На протяжении многих лет компании, по сути, выяснили, что они сидят на ценности, когда люди начали открывать реальные, действенные идеи в пределах своих цифр.

Это могут быть данные о пользователях, трафике и взаимодействиях между людьми. Или даже отраслевые данные, такие как видеонаблюдение, движения фондового рынка и данные сигналов нефтяных вышек.

Сообщество ИИ добилось значительных успехов в моделировании и прогнозировании будущих результатов на основе этого огромного хранилища ретроспективных данных, и мы продолжаем это делать (опять же, Google - ваш лучший друг).

Однако иногда (может быть, даже в большинстве случаев) люди и компании имеют только несколько сотен или тысяч строк / примеров данных. Эта проблема пронизывает такие крупные отрасли, как здравоохранение, где количество здоровых людей намного превышает количество больных. Это проблема «малых данных», и возникает вопрос:

Разрешено ли им играть с этими сложными нелинейными моделями?

Конечно, ответ должен быть ДА!

И доктор Поджио сослался на этот феномен, идущий от того, как мы думали ранее - где данные приближаются к n = бесконечности, к тому, где данные приближаются к n = 1.

Это один из новых рубежей в области данных и искусственного интеллекта. Идея о том, что нам нужно создавать лучшие алгоритмы, которые учатся на меньших объемах данных, но имеют те же возможности обобщения.

Если мы действительно хотим создать общий интеллект с моделью человеческого мозга, нам нужно двигаться к этой цели - изучать большой объем информации на нескольких примерах. Так учатся младенцы. Так учатся взрослые.

Нам не нужно видеть тысячи изображений яблок, чтобы понять, как выглядит яблоко.

Конечно, существуют алгоритмы и методы, которые могут использовать информацию в небольших количествах точек данных, но мы далеки от алгоритма, основанного на принципе «победитель получает все». Это захватывающие времена.

Спасибо за прочтение.

Большие данные против малых данных

Вопросы по теме