Распознавание рукописных цифр с помощью логистической регрессии

В этом блоге мы собираемся обсудить, как создать модель машинного обучения, которая будет распознавать рукописные цифры.

Распознавание рукописного текста — это проблема, которая восходит к первым автоматическим машинам, которым нужно было распознавать отдельные символы в рукописных документах. Подумайте, например, о почтовых индексах на письмах в почтовом отделении и об автоматизации, необходимой для распознавания этих пяти цифр. Безупречное распознавание этих кодов необходимо для автоматической и эффективной сортировки почты. В число других приложений, которые могут прийти на ум, входит программное обеспечение OCR (оптическое распознавание символов). Программное обеспечение OCR должно читать рукописный текст или страницы печатных книг для обычных электронных документов, в которых каждый символ четко определен. Но проблема распознавания почерка восходит еще дальше, а точнее к началу 20 века (1920-е годы), когда Эмануэль Гольдберг (1881–1970) начал свои исследования по этому вопросу и предположил, что статистический подход был бы оптимальным выбором. Чтобы решить эту проблему в Python, библиотека scikit-learn предоставляет хороший пример, чтобы лучше понять эту технику, связанные с ней проблемы и возможность делать прогнозы.

Здесь я использую Jupyter Notebook для создания этой модели. Здесь мы будем использовать две основные библиотеки Python, а именно scikit-learn и matplotlib.

  1. Импортируйте библиотеки Python и из библиотеки scikit-learn импортируйте набор цифр (мы будем использовать этот набор данных для обучения нашей модели).

2. Построенные данные модуля цифр с использованием matplotlib.pyplot и с помощью целевой функции найдите ее вывод.

3. Теперь у нас есть готовый набор данных. Мы разделили этот набор данных на две части: данные обучения и данные тестирования, используя метод train_test_split(), доступный в sklearn.model_selection. Затем мы создали модель логистической регрессии, используя sklearn.linear_model, и обучили эту модель с помощью метода fit().

4. Проверил точность модели методом score(). Наша модель точна на 95,55%.

5. Затем мы нанесли цифры на позиции 90–93 и предсказали их значения, и результаты оказались точными.

Следовательно, мы распознали рукописные цифры, используя логистическую регрессию.

Я благодарен наставникам на https://internship.suvenconsultants.com за отличные формулировки задач и предоставление многим из нас опыта стажировки по программированию. Спасибо www.suvenconsultants.com.