патент
№ RU 2309456
МПК G06K9/36

СПОСОБ РАСПОЗНАВАНИЯ ТЕКСТОВОЙ ИНФОРМАЦИИ ИЗ ВЕКТОРНО-РАСТРОВОГО ИЗОБРАЖЕНИЯ

Авторы:
Сапроненко Вячеслав Михайлович
Правообладатель:
Номер заявки
2005138164/09
Дата подачи заявки
08.12.2005
Опубликовано
27.10.2007
Страна
RU
Как управлять
интеллектуальной собственностью
Реферат

[28]

Изобретение относится к области техники предварительной обработки векторно-растрового изображения графического файла, содержащего изображение текста. Технический результат изобретения заключается в повышении надежности выявления текстовых, растровых и векторных объектов, получении информации о форматировании документа и ускорении процесса обработки. Достигается технический результат за счет того, что обработка текстовых объектов включает разбивку на отдельные символы и группы символов по предполагаемым местам размещения пробелов или других неиндицируемых символов и анализ и объединение групп символов в слова, обработка векторных объектов включает выявление разделителей, фона, обработка растровых объектов включает анализ на наличие изображения текста в нетекстовых объектах, и/или анализ на наличие векторных объектов, отличных от разделителей, в том числе выходящих за пределы объекта, причем дополнительно возможно проведение анализа корректности кодировки, и в случае необходимости исправление, для чего анализируют отдельные символы на принадлежность к заданному алфавиту, а слова текста - на принадлежность к заданному словарю. 2 з.п. ф-лы.

Формула изобретения

1. Способ предварительной обработки векторно-растрового изображения графического файла, содержащего изображение текста, характеризующийся

наличием текстовых, и/или растровых, и/или векторных объектов,

разбиением изображения на области, предположительно содержащие абзацы, таблицы, строки текста, символы текста, нетекстовые объекты;

отличающийся тем, что выполняют следующие операции, используя атрибуты форматирования файла:

разбивку изображения выполняют до получения областей содержащих неразрывный логически связанный текст наибольшего размера,

обработку текстовых объектов,

обработку растровых объектов,

обработку векторных объектов,

удаление избыточной и излишней информации,

обработка объектов, не относящихся к текстовым, растровым, векторным, как растровых,

анализ каждого объекта с учетом всех имеющихся результатов обработки других объектов;

причем удаляемая избыточная и излишняя информация, включает, по крайней мере, следующие виды:

а) информация для оттенения символов,

б) лишние атрибуты;

причем получение областей содержащих неразрывный логически связанный текст наибольшего размера включает, по крайней мере, следующие этапы:

разбивку изображения на области, предположительно содержащие текст,

анализ соседних областей на возможность объединения в более крупную область;

причем обработка указанных текстовых объектов включает, по крайней мере, следующие этапы:

разбивку на отдельные символы и группы символов по предполагаемым местам размещения пробелов и/или других неиндицируемых символов,

анализ и объединение групп символов в слова;

причем обработка указанных векторных объектов включает, по крайней мере, выявление разделителей, фона;

причем обработка указанных растровых объектов включает, по крайней мере, следующие этапы:

анализ на наличие изображения текста в нетекстовых объектах, и/или

анализ на наличие векторных объектов, отличных от разделителей, в том числе выходящих за пределы объекта.

2. Способ по п.1, отличающийся тем, что дополнительно включает анализ корректности кодировки символов, путем анализа текста на принадлежность букв к алфавиту и слов текста к словарю с учетом заданного языка, и в случае необходимости исправление.

3. Способ по п.1, отличающийся тем, что анализ и составление групп символов в слова, включает, по крайней мере, следующие действия:

а) определение ориентации текста,

б) выявление текста, написанного в положении верхнего индекса,

в) выявление текста, написанного в положении нижнего индекса,

г) выявление текста, написанного в виде буквицы.

Описание

[1]

Предлагаемое техническое решение относится к распознаванию образов и, в частности, к предварительной обработке представления документа в электронном виде, выполняемой перед операциями по распознаванию текста (или вместо распознавания).

[2]

Предлагаемое техническое решение позволяет выявить информацию о содержании и форматировании из векторно-растрового изображения документа в электронном виде, например, файла в формате PDF достаточную, чтобы затем восстановить документ в исходном или близком к исходному виде в любом известном формате, допускающем редактирование.

[3]

Из уровня техники известен способ извлечения текстовой информации из электронного файла в векторно-растровом формате. Этот способ использует компания-производитель инструментария для получения документов в векторно-растровом формате (в формате PDF). "Acrobat and PDF Library API Reference", January 7, 2005, Adobe Solutions Network, 3603 р.

[4]

Недостатком известного способа является его приспособленность для извлечения только текстовой информации без сохранения информации о форматировании (о внешнем оформлении документа).

[5]

Описанный способ выбран как прототип.

[6]

Технический результат состоит в расширении возможностей по распознаванию документа из электронного файла в векторно-растровом формате, повышении надежности выявления текстовых, растровых и векторных объектов, получении (извлечении) информации о форматировании документа (форматной информации), ускорении процесса обработки.

[7]

Известный способ не позволяет достичь заявленного технического результата.

[8]

Заявленный технический результат достигают последовательным выполнением разбивки изображения до получения областей, содержащих неразрывный логически связанный текст наибольшего размера, обработки текстовых объектов, обработки растровых объектов, обработки векторных объектов, удаления избыточной и излишней информации, дополнительной обработкой объектов, не относящихся к текстовым, растровым, векторным, как растровые, дополнительного анализа каждого объекта с учетом всей имеющейся информации по результатам обработки других объектов.

[9]

Ускорение обработки достигают в том числе благодаря исключению или сокращению части обычно выполняемых операций.

[10]

Например, во многих случаях частично или полностью отпадает необходимость распознавать растровый текст.

[11]

Сущность способа предварительной обработки текстовой информации по информации векторно-растрового изображения в электронном виде состоит в следующем.

[12]

В порядке предварительной (перед распознаванием символов) обработки выполняют следующие операции, используя атрибуты форматирования файла, имеющиеся в файле векторно-растрового изображения.

[13]

Выполняют разбивку изображения до получения областей, содержащих неразрывный логически связанный текст наибольшего размера. Для этого разбивают изображение на области, предположительно содержащие текст, и затем анализируют соседние области на возможность объединения в более крупные.

[14]

Обрабатывают текстовые объекты. Обработка текстовых объектов включает, по крайней мере, разбивку на отдельные символы и группы символов по предполагаемым местам размещения пробелов или других неиндицируемых символов, анализ и составление (объединение, сборка) групп символов в строки. Разбивка на отдельные символы и группы символов включает, по крайней мере, преобразование абсолютных координат символов в группы, разделенные пробелами и увеличенными межсимвольными промежутками.

[15]

Анализ и составление (сборка) групп символов в строки включает, по крайней мере, следующие действия:

[16]

а) определение ориентации текста,

[17]

б) выявление текста, написанного в положении верхнего индекса,

[18]

в) выявление текста, написанного в положении нижнего индекса,

[19]

г) выявление текста, написанного в виде буквицы.

[20]

После сборки строк делят строку на слова, по пробелам там, где они есть, и анализируя интервалы между символами там, где пробелов нет.

[21]

Обрабатывают векторные объекты. Обработка векторных объектов включает, по крайней мере, идентификацию (выявление) разделителей, фона, подложек в блоке.

[22]

Обрабатывают растровые объекты. Обработка растровых объектов включает, по крайней мере, анализ на наличие изображения текста в нетекстовых объектах, анализ на наличие векторных объектов, отличных от разделителей, в том числе выходящих за пределы объекта.

[23]

Удаляют избыточную и излишнюю информацию. К удаляемой избыточной и излишней информации относят, по крайней мере, информацию для оттенения символов и информацию об излишних атрибутах, некоторую другую, в зависимости от особенностей документа.

[24]

Объекты, не относящиеся к текстовым, растровым, векторным, обрабатывают как растровые.

[25]

Каждый объект повторно дополнительно анализируют с учетом всех имеющихся результатов обработки других объектов. Если по полученным результатам первичной обработки объекта появилась информация, способная повлиять на другие объекты, проводят повторный анализ этих других объектов.

[26]

После разбиения на строки и слова проводят анализ корректности кодировки символов, при необходимости исправляют. Для определения корректности кодировки анализируют текст на принадлежность букв к алфавиту и слов текста к словарю, с учетом заданного языка.

[27]

Если не удается получить текст другими известными способами, текстовый блок направляют на распознавание.

Как компенсировать расходы
на инновационную разработку
Похожие патенты