Представьте, что вы открываете утреннюю газету и смотрите на набор символов и символов. И ты понятия не имеешь, что все это может означать.

К счастью, это не так. Мы все были обучены преобразовывать последовательность символов в значение. Нас учили читать. Это неявно предполагает, что а) существуют известные правила преобразования текста в понятные сообщения и б) мы знаем об этих правилах.

В более аналитическом смысле мы изучили эти правила в прошлом и используем их в механизме интерпретации текста в нашем мозгу в качестве логики оценки свежих образцов текста и получения значений и ассоциаций.

Во время командировки в Лондон в 2019 году я посетил Британский музей, чтобы своими глазами увидеть, на мой взгляд, самый важный образец текста в истории — Розеттский камень.

Обнаружен в 1799 году французами в Египте, захвачен англичанами в 1801 году и экспонируется в Британском музее с 1802 года.

Это единственный известный артефакт, на котором один и тот же текст написан на 3-х языках: иероглифическом, демотическом, древнегреческом. На протяжении веков письмо древних египтян было чудом для исследователей. Они не смогли расшифровать их тексты. Розетта Стоун построила мост между этими сценариями и позволила нам переводить.

Чтобы выразить это языком науки о данных: на протяжении веков была доступна очень большая коллекция текстов иероглифов. Однако отсутствовала логика подсчета очков для оценки содержания и понимания смысла.

Данные, которые позволили нам изучить основную логику

Небольшая выборка данных из Розеттского камня позволила нам изучить правила и логику иероглифического письма. Следовательно, у человечества появилась логика, которую можно было применять к большим коллекциям текстов иероглифов, интерпретировать и читать их. Мы извлекаем пользу из этого обучающего образца текста (документов) и можем применять методы обучения для понимания и интерпретации многих других текстовых коллекций, которые были найдены во дворцах и пирамидах древних египтян.

На выставке в Британском музее утверждается, что изначально иероглифы считались «языком изображений». На основе Розеттского камня исследователи установили, что это сочетание символов с изображением знака.

Без Розеттского камня мы могли бы десятилетиями и веками догадываться о потенциальном значении иероглифов.

Возможно, в наши дни мы бы применили методы машинного обучения, такие как распознавание образов в сочетании с методами компьютерного зрения. И после тысяч часов обработки ЦП с помощью передовых методов глубокого обучения мы могли бы получить аналогичные результаты.

Однако это потребовало бы огромных усилий и очень сложных расчетов, тогда как это решалось наличием камня, содержащего соответствующее содержимое, соответствующие «метки».

Размеченные данные важны

Похожий, но не идентичный процесс используется в контролируемом машинном обучении.

  • В компьютерном зрении/классификации изображений у нас обычно есть большие коллекции немаркированных изображений, и нам нужно определенное количество помеченных изображений, чтобы узнать, следует ли отнести изображение из этой коллекции к категории A или B.
  • При расследовании мошенничества модели машинного обучения извлекают выгоду из выборки помеченных транзакций, которые представляют собой результат расследования. Эти случаи можно использовать в контролируемой модели машинного обучения для обучения модели, чтобы она могла автоматически оценивать будущие транзакции в режиме реального времени.

Текстовые аналитические приложения

За последние годы обработка текстовой аналитики и естественного языка сделала огромный шаг вперед.

  • Мы должны классифицировать текст, извлекать содержимое текстовых коллекций, чтобы обогатить наши прогностические модели.
  • Логика может быть автоматически получена для маршрутизации электронных писем и документов, а также может выполняться явный и неявный поиск соответствующих текстовых элементов.
  • Текстовая аналитика применяется в распознавании речи, интерпретации естественного языка и генерации текста, например. путем обучения моделей автоматически генерировать заголовки для обзора на веб-сайте.
  • В SAS Model Studio генерация естественного языка используется для объяснения и интерпретации содержания и взаимосвязей моделей машинного обучения.

Быть впечатленным

Стоять у Розеттского камня в Британском музее Лондона было для меня впечатляющим опытом. В тот момент я смог связать многие проблемы и вехи своей карьеры в науке о данных с выставленным артефактом за стеклянной витриной. Это было все равно, что прикоснуться к базе и ощутить важность доступности данных в реальности.

Ссылки

https://en.wikipedia.org/wiki/Rosetta_Stone



В главах 3 и 9 раздела Качество данных для аналитики с использованием SAS обсуждается важность доступности данных для науки о данных.

Две фотографии в этой статье были сфотографированы в Британском музее в 2019 году.