Меня выбрали для получения стипендии по машинному обучению для Microsoft Azure. Зная цену фантастическому сообществу и материалам курса Udacity, я сразу же погрузился в курс. Я столкнулся с первым препятствием, когда познакомился с Image Data.

Я знаю о пикселях, RBG, изображениях в градациях серого, но концепция кодирования данных в числовые значения была для меня новой. Поскольку теперь я был частью впечатляющего и очень знающего сообщества, я решил попросить их о помощи. Наконец, после долгих обсуждений и рекомендаций я выяснил взаимосвязь между цветными изображениями, пикселями, RBG и каналами. Это заставило меня подумать, что я должен поделиться своими только что обретенными знаниями. Итак, приступим.

Что такое пиксели?

Пиксели - это мельчайшие элементы, образующие изображение - чем больше пикселей в изображении, тем лучше качество изображения. Пиксели являются частью системы сетки, и расположение каждого пикселя может быть указано его значением по оси x и оси y.

Количество пикселей = разрешение изображения = высота * ширина

Изображение RBG

Изображение RBG - это массив данных M * N * 3, который включает информацию о компонентах красного, синего и зеленого цвета для каждого пикселя. Он состоит из трех независимых каналов изображения, по одному в каждом из основных цветов. У каждого цвета своя интенсивность. Количество каналов, необходимых для представления цвета, называется глубиной цвета или битами на пиксель. Для цветных изображений он имеет минимальное значение 3.

Изображения в оттенках серого

Изображения, закодированные с помощью одного компонента, то есть они имеют глубину цвета 1, называются оттенками серого, где 0 - черный, а 255 - белый. Изображения в градациях серого содержат только оттенки серого, черного и белого, и их представляет одно число.

Как закодировать изображение?

Мы можем кодировать изображение численно, используя вектор, имеющий три измерения: высоту, ширину и глубину. Изображения состоят из нескольких строк и столбцов пикселей, и каждый пиксель хранит три значения цвета и имеет три канала. Значение цвета в каждом пикселе говорит нам, насколько ярким является этот цвет в этом пикселе.

Чтобы кодировать изображение, нам нужно знать положение по горизонтали, вертикали и цвет каждого пикселя.

При кодировании изображения помните, что оно должно иметь одинаковое соотношение сторон и нормализовано.

Вывод:

Одно из наиболее распространенных сомнений, которое испытывало сообщество, заключалось в том, имеет ли изображение высотой 4 единицы и шириной 4 единицы 16 пикселей или 16 * 3 пикселя, где 3 - это количество каналов / глубина цвета. Ответ будет 16 пикселей, потому что каждый пиксель имеет 3 канала, которые дают информацию об интенсивности цветов в этом пикселе.