Публикации по теме 'text-extraction'
Создание набора данных диаграммы бросков для всего сезона WNBA 2022 – Часть 3
Полное многочастное прохождение , где мы очищаем веб-страницы, извлекаем информацию из текста, вставляем недостающие данные и визуализируем. В этой части рассматривается вменение классификации выстрелов — 2PT против 3PT.
В конце концов, каждый снимок будет содержать классификацию 1PT, 2PT или 3PT. В этом посте рассказывается о ситуации, когда вы понятия не имеете, чем закончился выстрел (очевидно, здесь это неправда, но подыграйте) .
Ряд
Очистить данные Извлечь информацию из..
Извлечение текста из отсканированных файлов с помощью Google Cloud Vision API
Быстрый и грязный способ извлечения текста из отсканированных изображений и PDF-файлов.
Это может немного раздражать, когда вы сталкиваетесь с отсканированными документами, в которых вы не можете искать и находить текст или копировать что-то конкретное. В большинстве случаев это просто неудобно, но для многих важных документов, особенно тех, что больше одной или двух страниц, действительно может быть полезно извлечь из них текст. На самом деле, я был удивлен, когда попытался купить..
ИЗВЛЕЧЕНИЕ ТЕКСТА ИЗ ИЗОБРАЖЕНИЙ С ПОМОЩЬЮ МАШИННОГО ОБУЧЕНИЯ
Задача извлечения данных из изображений способом - это метод обучения искусственного интеллекта чтению. Главный этап этого задания - научить алгоритм видеть текст, который мы обычно называем этапом распознавания текста, а следующий этап - его обработка и преобразование в табличную форму для дальнейшего использования для анализа.
Извлечение текста из изображения считается простым процессом, но организация данных в виде таблиц - сложная часть.
Исполнительное агентство Европейской..
Вопросы по теме 'text-extraction'
Как извлечь текст из офисных документов MS на C #
Я пытался извлечь текст (строку) из MS Word (.doc, .docx), Excel и Powerpoint с помощью C #. Где я могу найти бесплатную и простую библиотеку .Net для чтения документов MS Office? Я пытался использовать NPOI, но у меня не было образца о том, как...
69990 просмотров
schedule
30.01.2023
Регулярное выражение для извлечения адреса mailto:
Мне нужен reg exp, который может принимать блок строк и находить строки, соответствующие формату:
<a href="mailto:[email protected]">....</a>
И для всех строк, которые соответствуют этому формату, он извлечет адрес электронной почты,...
6201 просмотров
schedule
31.10.2023
Получить выделенный текст в браузере программно
В моем приложении Windows я хочу обнаружить выделенный текст в «Internet Explorer», Firefox и любом другом браузере.
Знаете ли вы, какой фрагмент кода я должен использовать, чтобы добиться этого?
Идея состоит не в том, чтобы искать текст в IE, а...
2985 просмотров
schedule
16.05.2023
Извлечение текста в Java и разработка структуры данных
У меня есть огромный набор данных таблиц в формате документа Open Office 3.0 .
Table 1:
(x range)|(x1,y1) |(x2,y2)|(x3,x3)|(x4,y4)
(-20,90) |(-20,0) |(-5,1) |(5,1) |(10,0)
...
Точно так же у меня есть n таблиц. Все эти...
283 просмотров
schedule
26.07.2023
Regex для извлечения информации из SQL-запроса
Поскольку я новичок в REGEX, я не могу решить проблему ниже.
И, пожалуйста, поделитесь некоторыми ссылками, связанными с парсером, чтобы я мог его изучить.
Я столкнулся с проблемой в решении int ниже инструкции SQL. Его дополнительная строка...
387 просмотров
schedule
02.10.2022
Как извлечь текст из PDF?
Может ли кто-нибудь порекомендовать библиотеку/API для извлечения текста и изображений из PDF? Нам нужно иметь возможность получить текст, который содержится в заранее известных областях документа, поэтому API должен будет предоставить нам информацию...
273255 просмотров
schedule
18.10.2022
С# регулярное выражение для извлечения ссылки после =
Не удалось найти лучшего заголовка, но мне нужно регулярное выражение для извлечения ссылки из приведенного ниже примера.
snip... flashvars.image_url = 'http://domain.com/test.jpg' ..snip
предполагая, что регулярное выражение - лучший...
368 просмотров
schedule
05.01.2023
Как извлечь строку по шаблону с помощью grep, regex или perl
У меня есть файл, который выглядит примерно так:
<table name="content_analyzer" primary-key="id">
<type="global" />
</table>
<table name="content_analyzer2" primary-key="id">
<type="global" />...
242684 просмотров
schedule
16.07.2023
Извлечь текст из файлов .tex с помощью Tika
Как извлечь текст из .tex файла с помощью Apache Tika? Пример файла находится по адресу http://www.tug.org/texshowcase/EulerGibbsDuhem.tex
Tika может правильно определять тип контента как application/x-tex , но ничего из него не извлекает....
943 просмотров
schedule
06.10.2022
Извлечение текста из документов неизвестного типа содержимого
есть ли парсер для типа application/octet-stream в Apache Tika? Я полагаю, что это неразборный поток.
Мне просто нужно разобрать документы ODS, документы MS и файлы PDF. Кажется, что new Tika( ).parseToString(file); достаточно. Но я не могу...
3160 просмотров
schedule
04.06.2023
Извлечение целых слов
У меня есть большой набор реального текста, из которого мне нужно извлечь слова, чтобы ввести их в программу проверки орфографии. Я хочу извлечь как можно больше значащих слов без лишнего шума. Я знаю, что здесь много ниндзя регулярных выражений,...
33854 просмотров
schedule
26.11.2022
Как извлечь текст, соответствующий регулярному выражению, с помощью Vim?
Я хотел бы извлечь некоторые данные из текста с помощью vim.. данные такого рода:
72" title="(168,72)" onmouseover="posizione('(168,72)');" onmouseout="posizione('(-,-)');">>
72" title="(180,72)" onmouseover="posizione('(180,72)');"...
3746 просмотров
schedule
12.06.2022
Удалите все, кроме символов между «‹» и «›», в Vim извлеките адреса электронной почты из поля Gmail To.
У меня есть список адресов электронной почты с разделителями-запятыми, где перед каждым фактическим адресом стоит имя контакта (из Gmail). Вот пример:
Fred Flintstone <[email protected]>, Wilma Flintstone <[email protected]>,...
1152 просмотров
schedule
01.03.2023
извлечение определенных строк данных из нескольких текстовых файлов для преобразования в один файл csv
Во-первых, приношу свои извинения за мои плохие способности к кодированию, однако я потратил несколько часов на чтение форумов и взломал его, поэтому я был бы очень признателен за любую помощь в решении следующей проблемы:
У меня есть 3 текстовых...
3304 просмотров
schedule
27.08.2022
Извлечение из текста с помощью tsql
У меня есть следующий формат строки в столбце таблицы Sql
[CID]: 267 [MID]: 319A [Name]: RJR
Как я могу извлечь только значение MID, которое составляет 319A в запросе на выборку, чтобы я мог использовать MID в соединении. Другими словами, мне...
2305 просмотров
schedule
11.06.2022
Извлечение номера и имени из строки [r]
POSIX Expression вызывает у меня головную боль.
Допустим, у нас есть строка:
a = "[question(37), question_pipe(\"Person10\")]"
и в конечном итоге я хотел бы иметь:
b = c("37", "Person10")
Я просмотрел пакет stringr , но не могу...
2263 просмотров
schedule
13.08.2023
Как извлечь все между двумя ключевыми словами в perl
Нужно извлечь все между началом и концом.
приведенный ниже код работает, если нет \n.
$mystring = "The start text always precedes \n the end of the text.";
if($mystring =~ m/start(.*?)end/) {
print $1;
}
o/p должно быть - text всегда...
374 просмотров
schedule
05.03.2023
Jsoup — извлечение текста
Мне нужно извлечь текст из узла следующим образом:
<div>
Some text <b>with tags</b> might go here.
<p>Also there are paragraphs</p>
More text can go without paragraphs<br/>
</div>
И мне...
12279 просмотров
schedule
21.10.2023
Правильное извлечение текста из pdf (UTF-8)
Я хочу извлечь текст из некоторых файлов PDF (программно, с помощью какой-либо утилиты или даже с помощью копирования/вставки), но некоторые символы получаются очень странными. Хотя при извлечении текста я указываю кодировку UTF-8, такие символы, как...
1531 просмотров
schedule
07.05.2023
iText - получить размер шрифта и семейство текстового сегмента
В настоящее время я пытаюсь автоматически извлечь важные ключевые слова из файла PDF. Я могу получить текстовую информацию из документа PDF. Но теперь мне нужно знать, какой размер шрифта и семейство шрифтов имеют эти ключевые слова.
У меня уже...
10767 просмотров
schedule
05.02.2022