Распознавание рукописного текста — это проблема, которая восходит к первым автоматическим машинам, которым нужно было распознавать отдельные символы в рукописных документах. Классификация рукописного текста или чисел важна для многих реальных сценариев. Например, почтовая служба может сканировать почтовые индексы на конвертах, чтобы автоматизировать группировку конвертов, которые должны быть отправлены в одно и то же место. В этой статье рассказывается о распознавании рукописных цифр (от 0 до 9) с использованием известного набора данных из Scikit-Learn. , используя классификатор под названием Логистическая регрессия.

Давайте начнем с импорта наших библиотек

Мы загружаем набор данных, как показано ниже:

Ниже приведен пример цифры в нашем наборе данных. Он состоит из 64 пикселей (8X8).

Цели содержатся в цифре. массив целей.

1792-й элемент в нашем наборе данных

Разделение нашего набора данных на наборы для обучения и тестирования

Теперь давайте разделим наш набор данных на обучающий и тестовый наборы, чтобы убедиться, что после обучения нашей модели она может хорошо обобщаться на новые данные.

Импорт модели, которую мы хотим использовать.

Здесь мы будем использовать логистическую регрессию. Логистическая регрессия является линейным классификатором и поэтому используется, когда между данными существует какая-то линейная связь.

Создание экземпляра модели

Обучение модели

Здесь Модель изучает взаимосвязь между цифрами (x_train) и метками (y_train).

Прогнозирование меток новых данных

Использование информации, полученной Моделью в процессе обучения.

Измерение производительности нашей модели

Чтобы проверить точность наших прогнозов, мы можем использовать precision_score.

Вывод

Из этой статьи мы видим, как легко импортировать набор данных, построить модель с помощью Scikit-Learn, обучить модель, сделать с ее помощью прогнозы и определить точность нашего прогноза (в нашем случае это 96,67%). Надеюсь, эта статья поможет вам в ваших будущих начинаниях!

Спасибо, что прочитали мою статью!