Человеческое видение - Как мы эволюционировали, чтобы видеть мир?

Читайте часть 1 здесь

Чтобы понять компьютерное зрение, мы должны сначала понять, как мы эволюционировали, чтобы видеть мир. Важно не только выяснить, как мы видим, но и почему наше зрение развилось таким образом.

Какие преимущества должны быть встроены в наши системы компьютерного зрения?

Мы используем компьютерное зрение в некоторых наших решениях в Wallscope, поэтому было важно начать с самого начала и убедиться, что у меня есть твердое понимание.

Если вы пропустили введение в эту серию, Джозеф Редмон выпустил серию из 20 лекций по компьютерному зрению в сентябре 2018 года. Поскольку он является экспертом в этой области, я написал много заметок, читая его лекции. Я собираю свои заметки для использования в будущем, но также размещаю их на Medium, если они будут полезны другим.

Я настоятельно рекомендую посмотреть эту лекцию на канале Джозефа на YouTube здесь.

СОДЕРЖАНИЕ

Эволюция глаз

Для начала нам нужно понять, почему у нас вообще есть глаза. Очевидный ответ - это, конечно, видеть мир, но для того, чтобы полностью понять это, мы должны начать с исследования самой простой формы, которую принимали наши глаза.

Пятна для глаз

Простые глаза, называемые глазными пятнами, представляют собой светочувствительные белки, не имеющие другой окружающей структуры. У улиток, например, они есть на кончиках или основаниях щупалец.

Наше зрение развилось из глазных пятен, которые могут действительно обнаруживать свет и очень приблизительное чувство направления. Никаких нервов или обработки мозга не требуется, так как результат настолько прост. Но улитки могут использовать их, чтобы обнаруживать и избегать яркого света, чтобы они не высыхали на солнце.

Важно отметить, что у глазных пятен очень низкая острота зрения, так как свет с любого направления попадает в одну и ту же область белков.

Острота зрения: относительная способность органа зрения распознавать детали.

Пит Глаза

Чуть более сложными являются ямки глаз. По сути, это пятна в неглубокой чашеобразной ямке. Они имеют немного большую остроту, поскольку свет с одного направления блокируется краем ямы, увеличивая направленность. Если только одна сторона ячеек улавливает свет, то источник должен быть с одной стороны.

Эти глаза по-прежнему имеют низкую остроту, поскольку они относительно простые, но они очень распространены у животных. У большинства типов животных (28 из 33) ямки глаза развились независимо. Это связано с тем, что утопленные датчики - это простая мутация, а повышенная направленность - такое огромное преимущество.

Тип (единственное число от типа): в биологии уровень таксономического ранга ниже Царства и выше Класса.

Сложные глаза

Сейчас существует множество различных сложных структур глаза, поскольку разные животные эволюционировали с разными потребностями в разных средах.

Пинхол-глаза - это дальнейшее развитие ямочного глаза, поскольку «ямка» углубилась намного дальше, позволяя свету проникать только через крошечное отверстие (как в некоторых камерах). Это крошечное отверстие пропускает свет, который затем проецируется на заднюю поверхность глаза или камеры.

Как вы можете видеть на диаграмме выше, проецируемое изображение инвертировано, но мозг обрабатывает это (постобработка), и преимущества намного важнее. Если отверстие достаточно маленькое, свет попадает в очень небольшое количество рецепторов, поэтому мы можем точно определить, откуда исходит свет.

Как уже упоминалось, глазные пятна в основном не имеют остроты, а ямки имеют очень низкую остроту, так как некоторый свет блокируется краями «ямки». Однако сложные глаза обладают очень высокой остротой. Это поднимает другой вопрос: каковы преимущества, которые позволили нашим глазам развиться даже дальше, чем глаза-точечки?

У людей есть преломляющие глаза роговицы, которые похожи на глаза-точечки, но, как ни странно, в эволюции появились отверстия большего размера. Чтобы избежать потери остроты зрения, вызванной этой разницей, внутрь отверстия помещают роговицу и хрусталик.

Высокая острота зрения глаза-обскуры является результатом того факта, что только крошечное количество света может проходить через отверстие, и поэтому только несколько рецепторов в сетчатке активируются. Как вы можете видеть на диаграмме выше, объектив также достигает этого, фокусируя падающий свет в одной точке на сетчатке.

Преимущество этой структуры заключается в том, что сохраняется высокая острота зрения для обеспечения точного направления, но также допускается проникновение гораздо большего количества света. Больше света, попадающего на сетчатку, позволяет обрабатывать больше информации, что особенно полезно при слабом освещении (отсюда почему виды, как правило, имеют по крайней мере хрусталик или роговицу). Кроме того, эта структура дает нам возможность сосредоточиться.

Фокусировка падающего света на сетчатке в основном осуществляется роговицей, но ее фокус фиксирован. Повторная фокусировка возможна благодаря нашей способности изменять показатель преломления каждой линзы. По сути, мы можем изменить форму линзы, чтобы точно преломлять свет от разных источников на отдельные точки сетчатки.

Эта способность изменять форму наших линз - это то, как мы можем сосредоточиться на чем-то близком к нам или на расстоянии. Если вы представите, что вы сидите в поезде и смотрите на дома вдалеке, вы не заметите расплывчатых волос на окне. И наоборот, если бы вы сфокусировались на волосах (изменив показатель преломления линз), домики на расстоянии были бы размытыми.

Следовательно, фокусировка на одной глубине резкости приносит в жертву резкости на другой глубине.

Как вы могли заметить, сложные глаза развивались с одной и той же целью - улучшением остроты зрения. Только 6 из 33 типов животных имеют сложные глаза, но у 96% всех известных видов они есть, поэтому они явно очень полезны. Это, конечно, связано с тем, что более высокая острота зрения увеличивает способность воспринимать пищу, хищников и партнеров.

Подпишитесь на Deep Learning Weekly и присоединяйтесь к более чем 14 000 ваших коллег. Еженедельный доступ к последним новостям индустрии глубокого обучения, исследованиям, библиотекам кода, руководствам и многому другому.

Как работают наши глаза?

Теперь мы знаем, что свет проходит через нашу роговицу, жидкости и хрусталик, преломляя свет и фокусируясь на нашей сетчатке. Мы также знаем, что все это привело к увеличению остроты зрения благодаря большому количеству света для информации - но что дальше?

Как только свет попадает на сетчатку, он поглощается светочувствительными клетками, которые излучают нейропередатчики через оптический нерв, которые обрабатываются нашей зрительной корой.

В отличие от фотоаппаратов, наши светочувствительные клетки (так называемые стержни и колбочки) не распределены равномерно и даже не совпадают друг с другом.

Жезлы и конусы

В сетчатке имеется около 126 миллионов светочувствительных клеток, которые находятся в разных областях и используются для самых разных целей.

Колбочки преимущественно находятся в центре сетчатки, называемой ямкой, а палочки - в периферийных отделах. На сетчатке есть одно пятно, которое не содержит ни того, ни другого, так как именно здесь зрительный нерв соединяется с сетчаткой - обычно это слепое пятно.

Интересно, что у осьминогов очень похожие глаза, но нет слепого пятна. Это связано с тем, что наш зрительный нерв выходит из сетчатки в глаз, а затем выходит обратно, тогда как зрительные нервы у осьминога выходят в противоположном направлении. Свет не может проходить по нервам; следовательно, у нас есть слепое пятно.

Стержни, которые, как уже упоминалось, в основном встречаются в наших периферийных устройствах, составляют значительную часть наших светочувствительных клеток, поскольку в каждом глазу их примерно 120 миллионов!

Мы используем стержни преимущественно в условиях низкой освещенности, и по этой причине они не видят цвета. Они реагируют даже на одиночный фотон, поэтому они очень чувствительны, но реагируют медленнее. Палочкам требуется относительно долгое время, чтобы поглотить свет, прежде чем дать ответ нашему мозгу, поэтому они работают вместе. Информация объединяется несколькими стержнями в пакеты информации, которые передаются.

Палочки настолько приспособлены для зрения при слабом освещении, что, к сожалению, они очень плохо работают при ярком свете, потому что они очень быстро насыщаются. Вот почему нашим глазам требуется так много времени, чтобы приспособиться от яркого к слабому освещению.

Например, если вы когда-нибудь наблюдали за звездами, а затем взглянули на экран телефона, вы заметите, что для восстановления «ночного видения» требуется от 10 до 15 минут. Это связано с тем, что свет телефона насыщает ваши стержни, и они должны пройти химический процесс, чтобы обесцветить белки, чтобы они снова поглотили свет.

Колбочки, с другой стороны, встречаются в ямке и встречаются гораздо реже, поскольку в каждом глазу их всего около 6 миллионов. Это намного меньше, чем количество палочек, но наши колбочки гораздо больше сконцентрированы в центре нашей сетчатки для конкретной цели мелкозернистого, детального цветового зрения (большая часть нашей яркой и красочной повседневной жизни) .

Наши колбочки могут видеть быстрое движение и иметь очень быстрое время отклика (в отличие от стержней), поэтому они прекрасно работают в быстро меняющейся среде, в которой мы живем.

Ямка - это место, где сосредоточены все колбочки, но она имеет ширину всего 1,5 мм и поэтому очень плотно набита до 200 000 конусов / мм².

Эта концентрация колбочек делает ямку сетчаткой с наивысшей остротой зрения, поэтому мы двигаем глазами, чтобы читать. Для обработки текста изображение должно быть резким и, следовательно, проецироваться на ямку.

Наше периферическое зрение содержит несколько колбочек, снижающих остроту зрения, но большинство наших палочек. Вот почему мы видим движущиеся формы в наших периферийных устройствах, но не видим много цвета или деталей. Попробуйте прочитать это, например, периферийными устройствами, он расплывчатый и явно не имеет такой же остроты зрения.

Как упоминалось выше, преимуществом является «ночное зрение», и это очевидно при наблюдении за звездами, поскольку звезды кажутся яркими, если смотреть на них периферическим зрением, но тусклыми, когда вы смотрите прямо на них. Пилотов учат не смотреть прямо на другие самолеты именно по этой причине - они лучше видят огни самолетов периферийными устройствами.

Есть и другие различия между периферическим и фовеальным зрением. Посмотрите на эту иллюзию, а затем посмотрите на крест в центре:

Если вы посмотрите прямо на изменение фиолетовых точек, вы можете ясно увидеть, что фиолетовые точки просто исчезают на короткое время круговым движением.

Если, однако, вы смотрите на крест, кажется, что все фиолетовые точки исчезают, а зеленая точка движется по кругу… почему?

Используя фовеальное зрение, вы следите за движением глазами. Однако, зацикливаясь на кресте, вы используете периферийное зрение. Важное различие заключается в том, на чем вы в первую очередь сосредотачиваетесь.

Фиолетовый свет попадает в те же самые точки на сетчатке, поскольку вы не двигаете глазами. Таким образом, ваши стержни в этих точках адаптируются к фиолетовому цвету, поэтому вы их не видите (поэтому кажется, что они исчезают), а настройка делает серый цвет зеленым.

Наши глаза приспосабливаются и теряют чувствительность со временем, когда вы смотрите прямо на что-то, что может вызвать серьезные проблемы - так как же нам с этим бороться?

Фиксационное движение глаз

Есть много способов, которыми мы компенсируем эту потерю чувствительности с течением времени, но все они, по сути, делают одно и то же - выставляют свету разные части сетчатки.

Есть пара больших сдвигов (большой здесь термин относительный) и гораздо меньшее движение.

Микросаккады (одно из больших движений) - это спорадические и случайные маленькие версии саккад.

Saccade: (по-французски "рывок") быстрое одновременное движение обоих глаз между двумя или более фазами фиксации в одном направлении.

Вы не замечаете этого, но эти крошечные короткие движения открывают свету новые части сетчатки.

Дрейф глаз - это гораздо более медленное движение, чем микросаккады - это скорее блуждающее движение в сочетании с тем, на чем вы зацикливаетесь. Это случайное, но постоянное движение.

Это изображение иллюстрирует постоянный дрейф глаз в сочетании со спорадическими микросаккадами.

Наконец, микротреморы - это крошечные колебания, которые настолько малы, что свет не всегда меняет рецептор, на который он попадает, а только угол, под которым он попадает на него. Удивительно, но эти микротреморы синхронизируются между глазами и вибрируют с одинаковой скоростью.

Эти три фиксирующих движения глаз позволяют нам видеть очень мелкие детали!

На самом деле разрешение нашей ямки не такое высокое, как можно было бы ожидать. Микросаккады, дрейф глаз и микротреморы помогают нашему мозгу строить более точные мысленные модели того, что происходит в мире.

Мозг - наш визуальный процессор

Вся информация, которую мы обсуждали до сих пор, передается через наши зрительные нервы - но что дальше?

Наш мозг принимает все эти сигналы и обрабатывает их, чтобы дать нам зрение!

Преимущественно считается, что наш мозг развился вслед за глазами. Например, у медуз очень сложные глаза, которые напрямую соединяются с их мышечной тканью для быстрой реакции.

В мозгу без сенсорной информации очень мало смысла, поэтому вполне вероятно, что мы развили мозг потому, что у нас были глаза, поскольку это позволяет получить сложные ответы, выходящие за рамки простых реакций избегания.

Ганглии

В каждом глазу примерно 1 миллион ганглиев, которые передают информацию в мозг. Мы знаем, что стержней намного больше, чем ганглиев, поэтому на этом этапе должно произойти сжатие, а наши фоторецепторы должны пройти некоторую предварительную обработку.

Ганглиозная клетка сетчатки: тип нейрона, который получает визуальную информацию от фоторецепторов.

Есть два типа ганглиев: М-клетки и Р-клетки.

М-клетки:
Магноклеточные клетки передают информацию, которая помогает нам воспринимать глубину, движение, ориентацию и положение объектов.

P-клетки:
Парвоцеллюлярные клетки передают информацию, которая помогает нам воспринимать цвет, форму и очень мелкие детали.

Эти разные типы ганглиев связаны с разными типами фоторецепторов в зависимости от того, за что они отвечают. Но все они связаны со зрительной корой.

Зрительная кора

Зрительная кора содержит не менее 30 различных субструктур, но мы недостаточно знаем, чтобы построить целостную модель. Однако мы знаем, что информация от ганглиев передается в первичную зрительную кору, а затем во вторичную зрительную кору.

V1 - Первичная зрительная кора:
Эта область зрительной коры выполняет низкоуровневую обработку изображений (обсуждается в части 1) - например, обнаружение краев.

V2 - Вторичная зрительная кора
После V1 эта область зрительной коры помогает нам распознавать размеры, цвета и формы объектов. Часто утверждают, что зрительная память хранится в V2.

Из V2 сигналы отправляются в V3, V4 и V5, но также возвращаются в V1 для дальнейшей обработки.

Теоретически (и общепринято), что информация проходит через V1, через V2, а затем разделяется и передается как в вентральную, так и в дорсальную системы для двух очень разных целей.

Вентрально-дорсальная гипотеза

Вместо того, чтобы перечислять различия между двумя системами, я вырезал слайд из лекции Джозефа Редмона:

Вентральная система
По сути, это наше сознательное зрение с мелкими деталями, которое мы используем для распознавания и идентификации. Эта система принимает высокодетализированные фовеальные сигналы, поскольку нам это нужно, чтобы сознательно видеть максимально возможные детали. Поскольку нам нужна такая высокая детализация (а большая часть этих деталей поступает от визуальной обработки мозга), скорость обработки относительно медленная по сравнению со спинной системой.

Спинная система
Зачем нам бессознательное зрение? Если бы кто-то бросил в вас мяч прямо сейчас, вы бы очень быстро повернули голову, чтобы увернуться от него, но вентральная система имеет медленную скорость обработки.

Мы можем увернуться от чего-то, а потом искать брошенный объект, потому что мы не знаем, что было брошено! Следовательно, мы не видели объект сознательно. Вместо этого мы быстро отреагировали благодаря нашему очень быстрому и бессознательному зрению нашей спинной системы.

Мы также используем это «бессознательное видение» при ходьбе и переписке. Ваше внимание сосредоточено на экране вашего телефона, но вы можете избежать мусорных баков и т. Д. На улице.

Мы используем обе системы вместе, чтобы подбирать предметы, скажем, стакан. Брюшная система позволяет нам видеть и определять местонахождение стекла; затем спинной мозг направляет нашу двигательную систему, чтобы поднять ее.

Это расщепление действительно наблюдается при повреждении участков мозга!

Повреждения спины
Если люди повреждают спинную систему, они могут без проблем распознавать предметы, но с трудом подбирают предметы. Им действительно трудно использовать зрение для решения физических задач.

Повреждение брюшной полости
Большая часть информации в спинной системе недоступна сознательно, поэтому вентральные повреждения делают человека слепым. Интересно, однако, что даже если они не могут сознательно видеть или распознавать объекты, они все же могут делать такие вещи, как обход препятствий.

Этот человек обходит препятствия в коридоре, хотя он не может видеть, а позже, когда его спрашивают, не осознает, что было на его пути:

Человеческий мозг и зрение эволюционировали совместно и тесно связаны. Зрительная кора - самая большая система в головном мозге, на которую приходится 30% коры головного мозга и две трети ее электрической активности. Эта тесно связанная и сложная система до сих пор полностью не изучена, поэтому она тщательно изучается, и постоянно делаются новые открытия.

3D видение

Мы подробно рассмотрели каждый глаз, но у нас их два. Нужны ли нам два глаза, чтобы видеть в трех измерениях?

Краткий ответ: Нет.

На самом деле существует множество элементов, которые помогают нашему мозгу моделировать в трех измерениях с информацией, полученной всего одним глазом.

Одним глазом

Фокусировка дает много информации о глубине, например о том, насколько нужно изменить объектив и насколько размыты части изображения.

Кроме того, движение также помогает в этом, поскольку ближайший автомобиль движется в нашем поле зрения намного быстрее, чем самолет (который на самом деле летит намного быстрее) на расстоянии. Наконец, если вы двигаетесь (например, в поезде), этот эффект параллакса различных объектов, движущихся с разной скоростью, все еще существует. Мы видели, как это использовалось для создания 3D-изображений в части 1.

Все это помогает нам оценивать глубину, используя каждый глаз индивидуально. Конечно, широко известно, что нашей способности видеть в трех измерениях в значительной степени помогает объединение информации от обоих глаз.

Два глаза

То, что мы все в основном считаем восприятием глубины, называется стереопсисом. Для оценки глубины используются различия в изображениях обоих глаз. Чем ближе что-то к вам, тем больше разница в визуальной информации для каждого глаза. Например, если вы поднесете палец вверх и измените расстояние от глаз, закрывая каждый глаз по отдельности, вы увидите это в действии.

Если вы поднесете палец очень близко к лицу, у вас косится глаза. Степень, в которой ваши глаза должны сойтись, чтобы что-то увидеть, также помогает с восприятием глубины.

Вся эта информация прекрасна, но мозг должен связать все это воедино, добавить свои соображения и построить эту модель мира.

Головной мозг

Подобно стереопсису и параллаксному зрению, наш мозг воспринимает кинетическую глубину. По сути, ваш мозг определяет трехмерные формы движущихся объектов. Это видео прекрасно иллюстрирует это:

Наш мозг также может обнаруживать окклюзию, например: «Я могу видеть только половину человека, потому что они находятся за машиной». Мы знаем, что объект, которому мешают, находится дальше, чем объект, который создает препятствие. Кроме того, наш мозг запоминает общий размер вещей, с которыми мы знакомы, поэтому мы можем судить о том, находится ли машина близко или далеко, исходя из того, насколько она велика.

Это известная иллюзия, которая играет на понимании нашим мозгом окклюзии.

Наконец, наш мозг также использует свет и тени для построения нашей трехмерной модели мира. Это лицо - хороший тому пример:

Мы можем судить о трехмерной форме носа и желобка этого человека (между носом и верхней губой) исключительно на основе бликов и теней, создаваемых светом.

Связывая все это вместе, мы очень хорошо умеем воспринимать глубину.

Как я упоминал ранее, мы не полностью понимаем нашу визуальную обработку - мы только недавно обнаружили, что наши глаза меняют ориентацию, когда мы моргаем. (Наши глаза немного вращаются, если смотреть на вращающийся объект, и мигание сбрасывает это).

У нас такие сложные глаза, которые используют огромное количество наших ресурсов - вероятно, поэтому зрение так полезно для нас. Без зрения мы не существовали бы так, как в мире, а без света у нас не было бы зрения (в том виде, в каком мы его знаем).

Свет

Весь свет - это электромагнитное излучение, состоящее из фотонов, которые ведут себя как частицы и волны.

Источники света

Длина волны «видимого света» (то, что воспринимают наши глаза и, следовательно, то, что мы видим) составляет от 400 до 700 нанометров. К счастью, это также диапазон длин волн солнечного света. Конечно, мы эволюционировали, чтобы видеть солнечный свет, так что это не просто совпадение.

Мы не видим рентгеновские лучи, поскольку солнце не испускает рентгеновские лучи в нас - оно излучает «видимый свет».

Мы видим комбинацию волн разной длины, и в современную эпоху (теперь, когда у нас есть лампочки, а не только солнце), они весьма разнообразны.

Как видите, солнечный свет содержит все длины волн, в то время как лампы накаливания имеют большое количество более определенных длин волн.

Мы видим объекты как цвета, в зависимости от того, какие длины волн отражаются от них. Красная бутылка поглощает большинство длин волн, но отражает красный цвет, поэтому мы видим его красным.

Поэтому цвет объекта зависит от источника света. Объект не может отражать длины волн, которые изначально не попадали в него, поэтому его цвет будет отличаться от солнечного света. Наш мозг оценивает источник света и компенсирует это - что является частью того, что сделало это платье таким знаменитым!

Погрузитесь на эту страницу (ссылка на источник изображения) и ознакомьтесь с научным объяснением, в котором обсуждается хроматическая адаптация.

Различия в цвете особенно странны, когда объекты освещаются флуоресцентным светом, поскольку он кажется нам белым. Солнечный свет кажется белым и содержит все длины волн, тогда как флуоресцентный свет кажется белым, но ему не хватает многих длин волн, которые, следовательно, не могут быть отражены.

Восприятие цвета (палочки и колбочки)

Фоторецепторы в наших глазах имеют разные кривые отклика, а колбочки имеют гораздо более сложные кривые отклика (поэтому палочки плохо воспринимают цвет).

Существует три типа колбочек: короткие, средние и длинные, которые соответствуют короткой (синий), средней (зеленый) и длинной (красный) длинам волн.

Длинные колбочки реагируют в основном на волны, очень близкие к зеленым, но простирающиеся до красных. Вот почему мы можем видеть больше оттенков зеленого, чем любой другой цвет. Мы развили эту способность обнаруживать охотничьи цели и опасности в лесах и лугах.

Наше восприятие цвета происходит от этих колбочек. Каждый конус имеет выходной сигнал, который приблизительно рассчитывается путем умножения входной волны на кривую отклика и интегрирования для получения площади под результирующей кривой. Цвет, который мы видим, является относительной активацией этих трех типов колбочек.

У нас гораздо больше красных и зеленых колбочек, чем синих (еще одна причина, по которой мы видим гораздо больше оттенков зеленого, чем любой другой цвет), и поэтому зеленый также кажется ярче, чем другие цвета. Вы также можете видеть на изображении выше, что в фовеа (центр изображения) очень мало синих конусов.

Об этом важно помнить при разработке пользовательских интерфейсов, поскольку иногда это может иметь существенное значение. Например, зеленый текст на черном фоне читать намного проще, чем синий.

У большинства людей есть эти три колбочки, но природа очень разнообразна. У некоторых животных их больше, и поэтому они могут воспринимать даже больше цветов, чем мы!

Каждый дополнительный конус позволяет глазу воспринимать в 100 раз больше цветов, чем раньше.

Как уже упоминалось, стержни на самом деле не влияют на наше восприятие цвета. Они полностью насыщены в течение дня, поэтому никак не влияют на наше дневное видение. Это не значит, что они никоим образом не бесполезны - они просто служат совершенно разным целям.

Цветовая слепота - это, как правило, отсутствующий тип конуса или вариант чувствительности к длине волны конуса. Например, если красный и зеленый колбочки даже больше похожи, чем обычно, человеку становится очень трудно различать красный и зеленый (очень распространенная форма дальтонизма).

Воссоздание цвета на экране

Если бы принтеры и телевизоры должны были точно дублировать отражающие длины волн цвета, их было бы чрезвычайно сложно сделать! Вместо этого они находят метамеры, которые легче производить.

Метамерия: воспринимаемое совпадение цветов с различным спектральным распределением мощности. Соответствующие таким образом цвета называются метамерами.

Обнаружение простых в изготовлении метамеров позволяет нам воссоздавать цвета путем выборочной стимуляции колбочек.

Чтобы показать, что метамеры могут быть созданы, группа испытуемых была собрана и получила первичный контроль света. Эти элементы управления состояли из трех дисков, которые изменяли количество красного, зеленого и синего света (RGB), и испытуемым давали целевой цвет.

Задача заключалась в том, чтобы увидеть, могут ли испытуемые точно восстановить целевой цвет, управляя только тремя основными цветами. Для многих цветов это было несложно, но для других было немного сложнее, так как для воссоздания некоторых цветов пришлось добавить негативный красный свет.

Был сделан вывод, что при трех основных элементах управления светом люди могут соответствовать любому цвету, и, кроме того, люди выбирают похожие распределения, чтобы соответствовать целевому цвету. Это означает, что свет можно легко воспроизвести, используя комбинации отдельных длин волн.

Используя эту информацию, была составлена ​​цветовая карта всех видимых человеком цветов. Однако для представления цветов на экране ваши изображения должны быть представлены цветовым пространством (которого много). Чаще всего используется sRGB, разработанный Microsoft в 1996 году. Но с тех пор были разработаны более широкие цветовые пространства.

Adobe RGB был разработан двумя годами позже и используется в таких инструментах, как Photoshop. ProPhoto RGB была создана Kodak и представляет собой крупнейшее цветовое пространство на данный момент, выходящее за пределы того, что могут видеть наши глаза. Так почему бы нам всем этим не воспользоваться?

Если вы хотите сохранить изображение в формате jpeg, просмотреть изображение в браузере или распечатать изображение на неспециализированном принтере, вам придется использовать sRGB. ProPhoto RGB слишком специализирован для повседневного использования, поэтому стандартное оборудование и инструменты рабочего процесса не поддерживают его. Даже изображения Adobe RGB в браузере часто сначала преобразуются в sRGB, поэтому sRGB все еще используется наиболее часто.

Изображения представлены пикселями, а цвет представлен RGB, поэтому есть цвета, которые мы можем видеть, но не могут быть воссозданы на экране.

Принтеры используют больше основных цветов, но даже в этом случае некоторые цвета не могут быть воспроизведены, если только в иллюзии:

Наконец, люди отобразили цветовые пространства в кубы:

и (более человеческие, как оттенок, значение, насыщенность) цилиндры:

Заключение

Надеюсь, вы убедились, что зрение невероятно, а компьютерное зрение - непростая задача!

В следующем посте этой серии я расскажу о лекции Джозефа о основных манипуляциях с изображениями.

Примечание редактора. Heartbeat - это онлайн-публикация и сообщество, созданное авторами и посвященное предоставлению первоклассных образовательных ресурсов для специалистов по науке о данных, машинному обучению и глубокому обучению. Мы стремимся поддерживать и вдохновлять разработчиков и инженеров из всех слоев общества.

Независимая редакция, Heartbeat спонсируется и публикуется Comet, платформой MLOps, которая позволяет специалистам по данным и группам машинного обучения отслеживать, сравнивать, объяснять и оптимизировать свои эксперименты. Мы платим участникам и не продаем рекламу.

Если вы хотите внести свой вклад, отправляйтесь на наш призыв к участникам. Вы также можете подписаться на наши еженедельные информационные бюллетени (Deep Learning Weekly и Comet Newsletter), присоединиться к нам в » «Slack и подписаться на Comet в Twitter и LinkedIn для получения ресурсов, событий и гораздо больше, что поможет вам быстрее и лучше строить лучшие модели машинного обучения.