патент
№ RU 2581766
МПК G06F40/20

СПОСОБ АВТОМАТИЗИРОВАННОГО АНАЛИЗА ЭТАЛОННЫХ ФОРМ

Авторы:
Рябов Сергей Сергеевич
Номер заявки
2013140166/08
Дата подачи заявки
30.08.2013
Опубликовано
20.04.2016
Страна
RU
Как управлять
интеллектуальной собственностью
Чертежи 
1
Реферат

Изобретение относится к средствам автоматизированного анализа текстовых документов. Технический результат заключается в повышении точности определения наличия в документах конфиденциальной информации. Преобразуют в заранее заданный формат все информационно-значимые поля эталонных форм документа с указанием их позиций в каждой форме. Выявляют поля эталонных форм документа в электронном файле анализируемого документа. Выявляют количество полей эталонных форм документа в анализируемом документе. Осуществляют поиск эталонных форм в анализируемом документе. Формируют список найденных эталонных форм документа в анализируемом документе. Проверяют порядок следования полей из каждой найденной эталонной формы документа в анализируемом документе, если в конкретной эталонной форме порядок не совпадает, ее удаляют из списка найденных. Определяют позицию полей эталонных форм документа из отобранного списка в анализируемом документе. Выявляют текст в анализируемом документе, находящийся между найденными полями. Определяют наличие данной эталонной формы документа в заполненном виде в анализируемом тексте, если между любыми соседними полями выявлен текст. Помещают имя текущей формы в список эталонных форм документа, найденных в анализируемом тексте. 2 з.п. ф-лы, 1 ил.

Формула изобретения

1. Способ автоматизированного анализа эталонных форм документа, заключающийся в том, что:
- преобразуют в заранее заданный формат все информационно-значимые поля эталонных форм документа с указанием их позиций в каждой форме;
- сохраняют преобразованные поля эталонных форм документа на запоминающем устройстве;
- выявляют поля эталонных форм документа в электронном файле анализируемого документа;
- выявляют количество полей эталонных форм документа в анализируемом документе;
- осуществляют поиск эталонных форм в анализируемом документе;
- формируют список найденных эталонных форм документа в анализируемом документе;
- проверяют порядок следования полей из каждой найденной эталонной формы документа в анализируемом документе, если в конкретной эталонной форме порядок не совпадает, ее удаляют из списка найденных;
- определяют позицию полей эталонных форм документа из отобранного списка в анализируемом документе;
- выявляют текст в анализируемом документе, находящийся между найденными полями;
- определяют наличие данной эталонной формы документа в заполненном виде в анализируемом тексте, если между любыми соседними полями выявлен текст;
- помещают имя текущей формы в список эталонных форм документа, найденных в анализируемом тексте.

2. Способ по п. 1, в котором:
- для каждой эталонной формы документа задают условие, определяющее необходимость эталонной формы документа быть заполненной для ее детектирования на этапе формирования эталонных форм документа;
- если на этапе проверки порядка следования полей для текущей эталонной формы документа достаточно только присутствия ее в анализируемом тексте и поля расположены в заданном порядке, то имя текущей эталонной формы документа помещают в список эталонных форм документа, выявленных в анализируемом тексте.

3. Способ по п. 1, в котором исключают «стоп-слова» в эталонных формах и в анализируемом документе.

Описание

[1]

Область техники, к которой относится изобретение

[2]

Настоящее изобретение относится к автоматизированному анализу эталонных форм и может быть использовано при разработке новых и совершенствовании существующих систем проверки текстовых документов на наличие в них частей, принадлежащих к заданной эталонной форме. К эталонным формам можно отнести анкеты, платежные формы, формы заявлений.

[3]

Уровень техники

[4]

В настоящее время весьма остро стоит проблема так называемого перехвата данных. Такая проблема может встретиться в случае отслеживания документов, проходящих по сети компании, на предмет наличия в них конфиденциальной информации.

[5]

В настоящее время известно несколько систем или способов, позволяющих решить эту проблему.

[6]

Например, в патенте РФ №2282889 (опубл. 27.08.2006 г.), который можно считать ближайшим аналогом настоящего изобретения, раскрыт способ обработки информации для обнаружения полей формы в информационных потоках, где предварительно формируют базу эталонных полей форм, подлежащих выявлению в информационном потоке, принимают информационный поток, последовательно выделяют и запоминают фрагменты принимаемого информационного потока, из которых выделяют поля форм, сравнивают их с эталонными полями форм из базы эталонных полей форм и по результатам сравнения фиксируют наличие и отсутствие в каждом фрагменте информационного потока полей форм, подлежащих выявлению. Этот способ достаточно трудоемок, требует длительного времени на обработку и пригоден лишь в ограниченной области.

[7]

Раскрытие изобретения

[8]

Таким образом, существует потребность в расширении арсенала технических средств за счет создания сравнительно быстрого и универсального способа, который позволил бы выявлять в каком-либо документе информацию из заданной эталонной формы и который бы не имел недостатков относительно известных решений. Также, способ позволяет детектировать только заполненные эталонные формы, что должно снижать количество ложноположительных срабатываний.

[9]

Для решения этой задачи и получения указанного технического результата в настоящем изобретении предложен способ автоматизированного анализа эталонных форм, заключающийся в том, что: преобразуют в заранее заданный формат все информационно-значимые поля эталонных форм с указанием их позиций в каждой форме; сохраняют преобразованные поля эталонных форм на запоминающем устройстве; выявляют поля эталонных форм в электронном файле анализируемого документа; выявляют количество полей эталонных форм в анализируемом документе; формируют список найденных эталонных форм в анализируемом документе; проверяют порядок следования полей из каждой найденной эталонной формы в анализируемом документе для исключения из списка; определяют позицию полей эталонных форм из отобранного списка в анализируемом документе; выявляют текст в анализируемом документе, находящийся между найденными полями; определяют наличие данной эталонной формы в заполненном виде в анализируемом тексте, если между любыми соседними полями выявлен текст; помещают имя текущей формы в список эталонных форм, найденных в анализируемом тексте.

[10]

Особенность способа по настоящему изобретению состоит в том, что для каждой эталонной формы задают условие, определяющее необходимость эталонной формы быть заполненной для ее детектирования на этапе формирования эталонных форм.

[11]

Еще одной особенностью по настоящему изобретению является то, что если на этапе проверки порядка следования полей для текущей эталонной формы достаточно только присутствия ее в анализируемом тексте и поля расположены в заданном порядке, то имя текущей эталонной формы помещают в список эталонных форм, выявленных в анализируемом тексте, и анализ для данной формы не продолжается.

[12]

Еще одной особенностью по настоящему изобретению является то, что исключают «стоп-слова» в анализируемом документе.

[13]

Краткое описание чертежей

[14]

На Фиг.1 представлен пример эталонной формы, к которой применяется способ по настоящему изобретению.

[15]

Подробное описание изобретения

[16]

Настоящее изобретение может быть реализовано в любой вычислительной системе, например в персональном компьютере, на сервере и т.п.

[17]

Способ автоматизированного анализа эталонных форм по настоящему изобретению предназначен для осуществления защиты от утечек информации, хранящейся в заполненных формах, например анкетах сотрудников, содержащих личную информацию. Анализ производится в несколько этапов. Цель каждого этапа сузить список эталонных форм, которыми может являться анализируемый текст.

[18]

На первом этапе необходимо подготовить эталонные данные. Преобразуют в заранее заданный формат все информационно-значимые поля эталонных форм с указанием их позиций в каждой форме.

[19]

К эталонным данным в данном изобретении можно отнести следующую информацию:

[20]

1. Непосредственно форму с незаполненными полями.

[21]

2. Идентификатор формы (название).

[22]

3. Параметры чувствительности алгоритма.

[23]

Непосредственно эталонные данные, относящиеся к эталонной форме, готовят следующим образом:

[24]

1) каждое поле формы разбивается на слова либо числа (разделителем считаются все символы кроме букв и цифр);

[25]

2) из получившегося списка удаляются «стоп-слова»;

[26]

3) для каждого выделенного слова снимается HASH;

[27]

4) для полученных HASH значений записывается местоположение полей, в которых они встречаются (имя эталонной формы, номер поля).

[28]

«Стоп-слова» - это слова, не несущие какой-либо самостоятельной смысловой нагрузки (см. http://ru.wikipedia.org/wiki/стоп-слова).

[29]

HASH представляет собой число фиксированной длины, которое ставится в соответствие данным произвольной длины таким образом, чтобы вероятность появления различных данных с одинаковым хешем стремилась к нулю, а восстановить данные по их хешу было как можно труднее (см. http://ru.wiktionary.org/wiki/хэш).

[30]

Преобразованные поля эталонной формы, а также параметры чувствительности сохраняют на запоминающем устройстве. В совокупности эти данные образуют цифровой отпечаток эталонной формы.

[31]

Далее перед началом автоматизированного анализа эталонных форм цифровые отпечатки эталонных форм загружаются в память. Согласно требованиям безопасности, тексты эталонных форм не сохраняются, что позволяет предотвратить их несанкционированное чтение.

[32]

Следующий этап настоящего изобретения заключается в том, что выявляют поля эталонных форм в электронном файле анализируемого документа, таким образом происходит анализ того, содержит ли электронный документ часть эталонной формы или нет. Выявляют степень соответствия между эталонными формами и анализируемым документом. Таким образом, выявляют количество полей эталонных форм в анализируемом документе.

[33]

Для этого составляют список найденных полей эталонных форм. Основной целью данного этапа является создание списка эталонных форм, данные из которых присутствуют в анализируемом документе. Один из вариантов данного этапа выявления количества полей эталонных форм в анализируемом документе происходит следующим образом.

[34]

Этап создания данного списка состоит из нескольких шагов:

[35]

1) входной текст разбивается на слова и числа (разделителем считаются все символы кроме букв и цифр), формируется вектор;

[36]

2) из полученного вектора удаляются «стоп-слова» и дубликаты, таким образом, получается вектор, состоящий из уникальных слов и чисел, принадлежащих анализируемому документу;

[37]

3) от каждого элемента в векторе считается HASH сумма;

[38]

4) каждый HASH из полученного вектора ищется во внутреннем хранилище эталонных форм;

[39]

5) каждое поле, где найден текущий HASH, помечается;

[40]

6) как только становится ясно, что все HASH значения в каком-либо поле формы присутствуют в анализируемом тексте, то соответствующий счетчик для текущей эталонной выгрузки увеличивается;

[41]

7) после того как все HASH входного вектора обработаны, формируется список из эталонных форм, счетчики полей которых больше 0.

[42]

В результате формируют список эталонных форм, поля которых присутствуют в анализируемом тексте. Далее весь анализ производится только с этими эталонами. Если список эталонов не пустой, то для последующих этапов анализа анализируемый текст разбивается на слова, и от каждого слова снимается HASH, важно не потерять порядок слов. Дальнейшим этапом способа проверяют порядок следования полей из каждой найденной эталонной формы в анализируемом документе, и если порядок полей не совпадает с конкретной эталонной формой, то найденная эталонная форма исключается из списка и не участвует в дальнейшем анализе. Определяют позицию полей эталонной формы в анализируемом документе. Выявляют текст в анализируемом документе, находящийся между найденными полями. Если между любыми соседними полями найден текст, то определяют наличие данной эталонной формы в заполненном виде в анализируемом тексте.

[43]

Помещают имя текущей формы в список форм, найденных в анализируемом тексте.

[44]

В частном варианте осуществления настоящего изобретения для каждой эталонной формы задают условие, определяющее необходимость эталонной формы быть заполненной для ее детектирования на этапе формирования эталонных форм. И если на этапе проверки порядка следования полей для текущей эталонной формы достаточно только присутствия ее в анализируемом тексте и поля расположены в заданном порядке, то имя текущей эталонной формы помещают в список эталонных форм, выявленных в анализируемом тексте, и анализ для данной формы не продолжается.

[45]

Еще в одном из частных случаев осуществления настоящего изобретения исключают «стоп-слова» эталонных формах и в анализируемом документе. Таким образом, способ автоматизированного анализа эталонных форм по настоящему изобретению обеспечивает расширение арсенала технических средств и позволяет сравнительно быстро выявлять в каком-либо документе присутствие данных из эталонных форм, а также определять, заполнены ли данные формы, преодолевая тем самым недостатки известных решений в виде ограниченности их применения.

[46]

В заключение следует отметить, что приведенные в описании сведения являются примерами, которые не ограничивают объем настоящего изобретения, определенного формулой. Специалисту в данной области становится понятным, что могут существовать и другие варианты осуществления настоящего изобретения, согласующиеся с сущностью и объемом настоящего изобретения.

Как компенсировать расходы
на инновационную разработку
Похожие патенты