Публикации по теме 'text-extraction'


Создание набора данных диаграммы бросков для всего сезона WNBA 2022 –  Часть 3
Полное многочастное прохождение , где мы очищаем веб-страницы, извлекаем информацию из текста, вставляем недостающие данные и визуализируем. В этой части рассматривается вменение классификации выстрелов — 2PT против 3PT. В конце концов, каждый снимок будет содержать классификацию 1PT, 2PT или 3PT. В этом посте рассказывается о ситуации, когда вы понятия не имеете, чем закончился выстрел (очевидно, здесь это неправда, но подыграйте) . Ряд Очистить данные Извлечь информацию из..

Извлечение текста из отсканированных файлов с помощью Google Cloud Vision API
Быстрый и грязный способ извлечения текста из отсканированных изображений и PDF-файлов. Это может немного раздражать, когда вы сталкиваетесь с отсканированными документами, в которых вы не можете искать и находить текст или копировать что-то конкретное. В большинстве случаев это просто неудобно, но для многих важных документов, особенно тех, что больше одной или двух страниц, действительно может быть полезно извлечь из них текст. На самом деле, я был удивлен, когда попытался купить..

ИЗВЛЕЧЕНИЕ ТЕКСТА ИЗ ИЗОБРАЖЕНИЙ С ПОМОЩЬЮ МАШИННОГО ОБУЧЕНИЯ
Задача извлечения данных из изображений способом - это метод обучения искусственного интеллекта чтению. Главный этап этого задания - научить алгоритм видеть текст, который мы обычно называем этапом распознавания текста, а следующий этап - его обработка и преобразование в табличную форму для дальнейшего использования для анализа. Извлечение текста из изображения считается простым процессом, но организация данных в виде таблиц - сложная часть. Исполнительное агентство Европейской..

Вопросы по теме 'text-extraction'

Как извлечь текст из офисных документов MS на C #
Я пытался извлечь текст (строку) из MS Word (.doc, .docx), Excel и Powerpoint с помощью C #. Где я могу найти бесплатную и простую библиотеку .Net для чтения документов MS Office? Я пытался использовать NPOI, но у меня не было образца о том, как...
69990 просмотров
schedule 30.01.2023

Регулярное выражение для извлечения адреса mailto:
Мне нужен reg exp, который может принимать блок строк и находить строки, соответствующие формату: <a href="mailto:[email protected]">....</a> И для всех строк, которые соответствуют этому формату, он извлечет адрес электронной почты,...
6201 просмотров
schedule 31.10.2023

Получить выделенный текст в браузере программно
В моем приложении Windows я хочу обнаружить выделенный текст в «Internet Explorer», Firefox и любом другом браузере. Знаете ли вы, какой фрагмент кода я должен использовать, чтобы добиться этого? Идея состоит не в том, чтобы искать текст в IE, а...
2985 просмотров

Извлечение текста в Java и разработка структуры данных
У меня есть огромный набор данных таблиц в формате документа Open Office 3.0 . Table 1: (x range)|(x1,y1) |(x2,y2)|(x3,x3)|(x4,y4) (-20,90) |(-20,0) |(-5,1) |(5,1) |(10,0) ... Точно так же у меня есть n таблиц. Все эти...
283 просмотров

Regex для извлечения информации из SQL-запроса
Поскольку я новичок в REGEX, я не могу решить проблему ниже. И, пожалуйста, поделитесь некоторыми ссылками, связанными с парсером, чтобы я мог его изучить. Я столкнулся с проблемой в решении int ниже инструкции SQL. Его дополнительная строка...
387 просмотров
schedule 02.10.2022

Как извлечь текст из PDF?
Может ли кто-нибудь порекомендовать библиотеку/API для извлечения текста и изображений из PDF? Нам нужно иметь возможность получить текст, который содержится в заранее известных областях документа, поэтому API должен будет предоставить нам информацию...
273255 просмотров

С# регулярное выражение для извлечения ссылки после =
Не удалось найти лучшего заголовка, но мне нужно регулярное выражение для извлечения ссылки из приведенного ниже примера. snip... flashvars.image_url = 'http://domain.com/test.jpg' ..snip предполагая, что регулярное выражение - лучший...
368 просмотров
schedule 05.01.2023

Как извлечь строку по шаблону с помощью grep, regex или perl
У меня есть файл, который выглядит примерно так: <table name="content_analyzer" primary-key="id"> <type="global" /> </table> <table name="content_analyzer2" primary-key="id"> <type="global" />...
242684 просмотров
schedule 16.07.2023

Извлечь текст из файлов .tex с помощью Tika
Как извлечь текст из .tex файла с помощью Apache Tika? Пример файла находится по адресу http://www.tug.org/texshowcase/EulerGibbsDuhem.tex Tika может правильно определять тип контента как application/x-tex , но ничего из него не извлекает....
943 просмотров
schedule 06.10.2022

Извлечение текста из документов неизвестного типа содержимого
есть ли парсер для типа application/octet-stream в Apache Tika? Я полагаю, что это неразборный поток. Мне просто нужно разобрать документы ODS, документы MS и файлы PDF. Кажется, что new Tika( ).parseToString(file); достаточно. Но я не могу...
3160 просмотров

Извлечение целых слов
У меня есть большой набор реального текста, из которого мне нужно извлечь слова, чтобы ввести их в программу проверки орфографии. Я хочу извлечь как можно больше значащих слов без лишнего шума. Я знаю, что здесь много ниндзя регулярных выражений,...
33854 просмотров

Как извлечь текст, соответствующий регулярному выражению, с помощью Vim?
Я хотел бы извлечь некоторые данные из текста с помощью vim.. данные такого рода: 72" title="(168,72)" onmouseover="posizione('(168,72)');" onmouseout="posizione('(-,-)');">> 72" title="(180,72)" onmouseover="posizione('(180,72)');"...
3746 просмотров
schedule 12.06.2022

Удалите все, кроме символов между «‹» и «›», в Vim извлеките адреса электронной почты из поля Gmail To.
У меня есть список адресов электронной почты с разделителями-запятыми, где перед каждым фактическим адресом стоит имя контакта (из Gmail). Вот пример: Fred Flintstone <[email protected]>, Wilma Flintstone <[email protected]>,...
1152 просмотров
schedule 01.03.2023

извлечение определенных строк данных из нескольких текстовых файлов для преобразования в один файл csv
Во-первых, приношу свои извинения за мои плохие способности к кодированию, однако я потратил несколько часов на чтение форумов и взломал его, поэтому я был бы очень признателен за любую помощь в решении следующей проблемы: У меня есть 3 текстовых...
3304 просмотров

Извлечение из текста с помощью tsql
У меня есть следующий формат строки в столбце таблицы Sql [CID]: 267 [MID]: 319A [Name]: RJR Как я могу извлечь только значение MID, которое составляет 319A в запросе на выборку, чтобы я мог использовать MID в соединении. Другими словами, мне...
2305 просмотров
schedule 11.06.2022

Извлечение номера и имени из строки [r]
POSIX Expression вызывает у меня головную боль. Допустим, у нас есть строка: a = "[question(37), question_pipe(\"Person10\")]" и в конечном итоге я хотел бы иметь: b = c("37", "Person10") Я просмотрел пакет stringr , но не могу...
2263 просмотров
schedule 13.08.2023

Как извлечь все между двумя ключевыми словами в perl
Нужно извлечь все между началом и концом. приведенный ниже код работает, если нет \n. $mystring = "The start text always precedes \n the end of the text."; if($mystring =~ m/start(.*?)end/) { print $1; } o/p должно быть - text всегда...
374 просмотров
schedule 05.03.2023

Jsoup — извлечение текста
Мне нужно извлечь текст из узла следующим образом: <div> Some text <b>with tags</b> might go here. <p>Also there are paragraphs</p> More text can go without paragraphs<br/> </div> И мне...
12279 просмотров
schedule 21.10.2023

Правильное извлечение текста из pdf (UTF-8)
Я хочу извлечь текст из некоторых файлов PDF (программно, с помощью какой-либо утилиты или даже с помощью копирования/вставки), но некоторые символы получаются очень странными. Хотя при извлечении текста я указываю кодировку UTF-8, такие символы, как...
1531 просмотров

iText - получить размер шрифта и семейство текстового сегмента
В настоящее время я пытаюсь автоматически извлечь важные ключевые слова из файла PDF. Я могу получить текстовую информацию из документа PDF. Но теперь мне нужно знать, какой размер шрифта и семейство шрифтов имеют эти ключевые слова. У меня уже...
10767 просмотров