Публикации по теме 'nlp'


Введение в pyvi: Python вьетнамский инструментарий НЛП
Использование пакета «pyvi» для токенизации, позиционирования и модификации акцентных знаков. В прошлом я освещал довольно много статей, связанных с инструментарием НЛП для различных азиатских языков: Обработка кхмерского естественного языка в Python Руководство для начинающих по PyThaiNLP Обработка корейского естественного языка в Python SudachiPy: японский морфологический анализатор на Python А сегодня давайте поговорим о вьетнамском языке подробнее. Прочитав эту..

Дедупликация, почти дубликат: краткое руководство
Привет Всем!, В этой короткой и краткой записи блога я расскажу о нескольких методах и готовых решениях для устранения дубликатов и почти дублированных данных. Итак, почему это важно? если мы посмотрим с точки зрения обучения модели ML, модели ML плохо обобщаются, когда у вас есть дублирующиеся данные в наборе обучающих данных. Хорошо, так что давайте начнем сейчас, Есть много способов вычислить сходство между двумя предложениями/документами, давайте взглянем на следующее: Сходство..

Автоматическая очистка данных с помощью обучения без учителя
Очистка текста для ваших проектов НЛП еще никогда не была такой веселой и простой! Мне нравится работать с текстовыми данными. Что касается компьютерного зрения, то в настоящее время в НЛП есть много готовых доступных ресурсов и проектов с открытым исходным кодом, которые мы можем напрямую скачать или использовать. Некоторые из них классные и позволяют ускорить и вывести на новый уровень наши проекты. Самое главное, что мы не должны забывать, это то, что все эти инструменты не..

Создайте поисковую систему с GPT-3
Объедините мощь больших языковых моделей с выбранным корпусом, чтобы генерировать естественно звучащие ответы, основанные на фактах. Если вы были в сети в последнее время, то вы, вероятно, заметили волнение по поводу новейшей языковой модели OpenAI, ChatGPT. ChatGPT удивительно хорош во многих вещах, включая отладку кода и переписывание текста в любом стиле, который вы ему зададите. Являясь ответвлением GPT-3.5, большой языковой модели (LLM) с миллиардами параметров, ChatGPT обязан..

Трансформеры — часть 2— Вход
Входы Первая часть архитектуры называется входами. Какие входы? это зависит от того, что мы пытаемся сделать. В нашем примере мы создаем языковую модель, программное обеспечение, которое умеет генерировать соответствующий текст, но архитектура Transformers также полезна и в других случаях использования. Поскольку генерация текста является нашей конечной целью, нам нужно обучить (научить) модель, как это делать, поэтому входными данными является текст. Первая проблема заключается в..

Объекты ценообразования в Mercari - перспективы машинного обучения и глубокого обучения
Дополнительная попытка решить основанную на NLP регрессию набора данных Mercari Kaggle в рамках новаторского самостоятельного исследования - Курс прикладного искусственного интеллекта Это мой первый блог, и я очень рад поделиться своим опытом машинного обучения и глубокого обучения при расшифровке решения для конкурса Kaggle. Хотя это была поздняя отправка в Kaggle, мое познавательное путешествие по анализу также было очень интуитивным, интересным и сложным. Надеюсь, этот блог в конечном..

Создание алгоритмов эгалитарного ИИ
Этический ИИ Создание алгоритмов эгалитарного ИИ Проявляют ли алгоритмы машинного обучения стереотипы и гендерные предубеждения? Как их исправить? Вот небольшая загадка - отец и сын попали в ужасную автокатастрофу, в которой погиб отец. Сын доставлен в больницу для срочной операции; как раз перед тем, как лечь под нож, хирург говорит: «Я не могу оперировать - этот мальчик - мой сын!». Что по-твоему происходит? Если вы догадались, что хирург - второй отец мальчика, гей, вы..