Представьте, что вы открываете утреннюю газету и смотрите на набор символов и символов. И ты понятия не имеешь, что все это может означать.
К счастью, это не так. Мы все были обучены преобразовывать последовательность символов в значение. Нас учили читать. Это неявно предполагает, что а) существуют известные правила преобразования текста в понятные сообщения и б) мы знаем об этих правилах.
В более аналитическом смысле мы изучили эти правила в прошлом и используем их в механизме интерпретации текста в нашем мозгу в качестве логики оценки свежих образцов текста и получения значений и ассоциаций.
Во время командировки в Лондон в 2019 году я посетил Британский музей, чтобы своими глазами увидеть, на мой взгляд, самый важный образец текста в истории — Розеттский камень.
Обнаружен в 1799 году французами в Египте, захвачен англичанами в 1801 году и экспонируется в Британском музее с 1802 года.
Это единственный известный артефакт, на котором один и тот же текст написан на 3-х языках: иероглифическом, демотическом, древнегреческом. На протяжении веков письмо древних египтян было чудом для исследователей. Они не смогли расшифровать их тексты. Розетта Стоун построила мост между этими сценариями и позволила нам переводить.
Чтобы выразить это языком науки о данных: на протяжении веков была доступна очень большая коллекция текстов иероглифов. Однако отсутствовала логика подсчета очков для оценки содержания и понимания смысла.
Данные, которые позволили нам изучить основную логику
Небольшая выборка данных из Розеттского камня позволила нам изучить правила и логику иероглифического письма. Следовательно, у человечества появилась логика, которую можно было применять к большим коллекциям текстов иероглифов, интерпретировать и читать их. Мы извлекаем пользу из этого обучающего образца текста (документов) и можем применять методы обучения для понимания и интерпретации многих других текстовых коллекций, которые были найдены во дворцах и пирамидах древних египтян.
На выставке в Британском музее утверждается, что изначально иероглифы считались «языком изображений». На основе Розеттского камня исследователи установили, что это сочетание символов с изображением знака.
Без Розеттского камня мы могли бы десятилетиями и веками догадываться о потенциальном значении иероглифов.
Возможно, в наши дни мы бы применили методы машинного обучения, такие как распознавание образов в сочетании с методами компьютерного зрения. И после тысяч часов обработки ЦП с помощью передовых методов глубокого обучения мы могли бы получить аналогичные результаты.
Однако это потребовало бы огромных усилий и очень сложных расчетов, тогда как это решалось наличием камня, содержащего соответствующее содержимое, соответствующие «метки».
Размеченные данные важны
Похожий, но не идентичный процесс используется в контролируемом машинном обучении.
- В компьютерном зрении/классификации изображений у нас обычно есть большие коллекции немаркированных изображений, и нам нужно определенное количество помеченных изображений, чтобы узнать, следует ли отнести изображение из этой коллекции к категории A или B.
- При расследовании мошенничества модели машинного обучения извлекают выгоду из выборки помеченных транзакций, которые представляют собой результат расследования. Эти случаи можно использовать в контролируемой модели машинного обучения для обучения модели, чтобы она могла автоматически оценивать будущие транзакции в режиме реального времени.
Текстовые аналитические приложения
За последние годы обработка текстовой аналитики и естественного языка сделала огромный шаг вперед.
- Мы должны классифицировать текст, извлекать содержимое текстовых коллекций, чтобы обогатить наши прогностические модели.
- Логика может быть автоматически получена для маршрутизации электронных писем и документов, а также может выполняться явный и неявный поиск соответствующих текстовых элементов.
- Текстовая аналитика применяется в распознавании речи, интерпретации естественного языка и генерации текста, например. путем обучения моделей автоматически генерировать заголовки для обзора на веб-сайте.
- В SAS Model Studio генерация естественного языка используется для объяснения и интерпретации содержания и взаимосвязей моделей машинного обучения.
Быть впечатленным
Стоять у Розеттского камня в Британском музее Лондона было для меня впечатляющим опытом. В тот момент я смог связать многие проблемы и вехи своей карьеры в науке о данных с выставленным артефактом за стеклянной витриной. Это было все равно, что прикоснуться к базе и ощутить важность доступности данных в реальности.
Ссылки
https://en.wikipedia.org/wiki/Rosetta_Stone
В главах 3 и 9 раздела Качество данных для аналитики с использованием SAS обсуждается важность доступности данных для науки о данных.
Две фотографии в этой статье были сфотографированы в Британском музее в 2019 году.