Публикации по теме 'word-embeddings'


Текстовая классификация — От набора слов к BERT — Часть 2 (Word2Vec)
Этот рассказ является частью серии «Классификация текстов — от Bag-of-Words до BERT». Если вы не читали предыдущую историю, прочтите ее, так как это поможет понять, что будет дальше. Часть 1 (BagOfWords) В более ранней истории ( Часть 1 (BagOfWords) мы использовали модель CountVectorizer (sklearn-реализация Bag-of-Words) для преобразования текстов в числовой набор данных, сопоставленный с выходными переменными токсичными, серьезными_токсичными, непристойными, угрозами,..

О вкладе нейронных сетей и встраивания слов в обработку естественного языка
Нейронные сети внесли свой вклад в выдающиеся достижения в таких областях, как компьютерное зрение [1,2] и распознавание речи [3]. В последнее время они также начали интегрироваться в другие сложные области, такие как обработка естественного языка (NLP). Но как нейронные сети способствуют развитию текстовых приложений? В этом посте я попытаюсь очень упрощенно объяснить, как применять нейронные сети и интегрировать вложения слов в текстовые приложения, а также некоторые из основных неявных..

Использование вложений в базу R
Существуют различные форматы файлов для хранения распределенных представлений векторов или слов , также известных как встраивания . Однако одним из наиболее удобных способов является использование текстового формата, используемого в исходной реализации word2vec. В этом формате каждая строка начинается с метки (элемента словаря), за которой следуют компоненты вектора. Кроме того, каждое поле отделено обычным пробелом. Следующая функция обрабатывает такие *.vec-файлы и может..

Путешествие от одного к одному с вложениями слов
Люди читают, пишут, слушают и говорят на языках, чтобы общаться друг с другом интуитивно, но человеческий язык необходимо преобразовать во что-то репрезентативное для компьютера / машины, чтобы помочь им понимать наш естественный язык (качественный). И числовое (количественное) представление - это ответ. Прежде чем мы поговорим об алгоритмах и прочем, мы можем задаться вопросом, зачем нам встраивание слов и какова его цель? Подход с встраиванием слов является частью обработки..

Встраивание слов (часть II): интуиция и (немного) математика для понимания сквозной модели GloVe
Интуиция и (немного) математика для понимания сквозной модели GloVe Первоначальный выпуск NLP (Natural Language Processing) - это кодирование слова / предложения в понятный формат для компьютерной обработки. Представление слов в векторном пространстве позволяет моделям НЛП узнавать значение слов. В нашем предыдущем посте мы видели модель Skip-gram , которая фиксирует значение слов с учетом их локального контекста . Напомним, что под контекстом мы подразумеваем фиксированное..

Полное руководство по вложениям
Встраивания проникли в инструментарий специалистов по данным и кардинально изменили принципы работы НЛП, компьютерного зрения и рекомендательных систем. Однако многие специалисты по данным находят их архаичными и запутанными. Многие другие используют их вслепую, не понимая, что это такое. В этой статье мы подробно рассмотрим, что такое встраивание, как они работают и как они часто используются в реальных системах. Что такое встраивание? Чтобы понять встраивание, мы должны сначала..

Проблемы глубокого обучения для диалогового текста, смешанного с кодом
Растущее использование Интернета и социальных онлайн-платформ сделало возможным виртуальный массовый обмен мыслями и опытом. По данным Internet World Stats , 58,8% всего населения мира используют Интернет в различных регионах и на разных языках. Однако многие дары Интернета имеют свою цену. Хотя Интернет превратился в огромный горшок для перемешивания идей, он также стал средством распространения токсичности. 72% американцев активны в социальных сетях, а 53% лично подвергались..