Автор Хорхе Кампос

Проблемы машинного обучения (ML) начинаются со сбора данных обучения. Во-первых, мало помеченных наборов данных. Во-вторых, возрастающая сложность и меняющийся характер языковых нюансов, например, в гуманитарных науках, здравоохранении или финансах, требуют постоянных знаний и проверки со стороны профильных экспертов (МСП). В контексте обработки естественного языка (НЛП) эти знания приходят в виде текстовых аннотаций.

tagtog - это платформа для совместной работы с текстовыми аннотациями для эффективного поиска, создания и поддержки наборов данных НЛП. Доступно в облаке и локально.

Сотрудничество между специалистами по анализу данных / искусственному интеллекту и малым и средним предприятиями часто терпит неудачу. Частично это связано с отсутствием доступных инструментов, которые могли бы позволить малым и средним предприятиям участвовать в задачах распознавания сущности имени (NER) или классификации текста. Чтобы восполнить этот пробел, tagtog был разработан как платформа для совместной работы аннотаций с простым в использовании интерфейсом.

Создать обучающие данные на tagtog так же просто, как выделить текст. Кроме того, вы можете связать отношения, прикрепить атрибуты к объектам или классифицировать весь документ. Аннотации можно делать как вручную, так и автоматически.

Автоматические аннотации сокращают усилия, необходимые для создания помеченных наборов данных. Доступны два метода:

- Словари: импортируйте или создавайте коллекции терминов и расширяйте их во время задач аннотации.

- ML: tagtog постоянно учится на ваших аннотациях, чтобы сразу же создавать точные прогнозы. При желании к платформе можно подключить внешнюю модель машинного обучения. Малые и средние предприятия просматривают прогнозы машинного обучения, создавая непрерывный цикл обучения для обучения и поддержания модели в актуальном состоянии.

Для быстрой загрузки проектов аннотаций tagtog изначально поддерживает несколько форматов файлов. Он обогащает возможности аннотирования, устраняет ненужные шаги анализа и позволяет пользователям комментировать прямо в PDF-файлах, импортировать статьи PubMed, HTML, CSV, исходный код или даже файлы Markdown. Для более тесной интеграции доступен API для импорта аннотаций и файлов, экспорта аннотаций и показателей, а также поиска.

Чтобы отслеживать проекты аннотаций и качество данных, tagtog измеряет прогресс участников проекта вместе с их соглашением с другими аннотаторами (Соглашение между аннотаторами). Просто выявляйте смещения, несбалансированные классы или избыточную выборку данных, проверяя распределение ваших аннотаций.

Надеюсь, это помогло. Пожалуйста, дайте мне знать, если у вас есть какие-либо вопросы или отзывы. Вы можете найти больше руководств по этому инструменту для аннотации текста здесь или в нашем блоге.

Документация: http://docs.tagtog.net

В 🍃 tagtog.net мы стремимся демократизировать текстовую аналитику.

👏 👏 👏, если вам понравился пост и вы хотите поделиться им с другими!