Распознавание рукописного текста — это проблема, которая восходит к первым автоматическим машинам, которым нужно было распознавать отдельные символы в рукописных документах. Подумайте, например, о почтовых индексах на письмах в почтовом отделении и об автоматизации, необходимой для распознавания этих пяти цифр. Безупречное распознавание этих кодов необходимо для автоматической и эффективной сортировки почты. В число других приложений, которые могут прийти на ум, входит программное обеспечение OCR (оптическое распознавание символов). Программное обеспечение OCR должно читать рукописный текст или страницы печатных книг для обычных электронных документов, в которых каждый символ четко определен.

Но проблема распознавания почерка восходит еще дальше, а точнее к началу 20 века (1920-е годы), когда Эмануэль Гольдберг (1881–1970) начал свои исследования по этому вопросу и предположил, что статистический подход был бы оптимальным выбором.

Библиотека scikit-learn (http://scikit-learn.org/) позволяет вам подойти к этому типу анализа данных способом, который немного отличается от того, что вы использовали в Проекте 1. Анализируемые данные тесно связаны между собой. связаны с числовыми значениями или строками, но могут также включать изображения и звуки

Одна из самых замечательных особенностей библиотеки Scikit-Learn заключается в том, что в ней есть четырехэтапный шаблон моделирования. это упрощает кодирование классификатора машинного обучения:

1.Импортируйте модель, которую хотите использовать.

В Scikit-Learn все модели машинного обучения реализованы в виде классов Python.

2. Создайте экземпляр модели.

3. Обучение модели на данных и сохранение информации, полученной из данных.

4. Прогнозирование меток новых данных
с использованием информации, полученной моделью в процессе обучения.

1. Загрузка набора данных.

Библиотека Scikit-learn предоставляет множество наборов данных, среди которых мы будем использовать набор данных изображений под названием Digits. Этот набор данных состоит из 1797 изображений размером 8x8 пикселей. . Каждое изображение представляет собой рукописную цифру в оттенках серого.

  1. Загрузка нашего набора данных

2. Показать форму набора данных

3.Визуализация первых 5 изображений в наборе данных

4. Разделение набора данных на наборы для обучения и тестирования.

Четырехэтапный шаблон моделирования Scikit-Learn

Шаг 1. Импорт нашей модели

Здесь мы будем использовать логистическую регрессию.

Шаг 2. Создание экземпляра модели

Шаг 3. Обучение модели

Шаг 4.Прогнозирование меток новых данных

Измерение производительности нашей модели

Чтобы проверить точность наших прогнозов, мы можем использовать precision_score.

Матрица путаницы

Матрица путаницы — это таблица, которая часто используется для оценки точности модели классификации. Мы можем использовать Seaborn или Matplotlib для построения матрицы путаницы. Мы будем использовать Seaborn для нашей матрицы путаницы.

Точность нашего прогноза: 95,11 %