Бюджетная статистика: реляционные базы
федеральная
региональная
Законы о федеральном бюджете
2005 г. 2004 г.
2003 г. 2002 г.
2000 г. 2001 г.
1998 г. 1999 г.
1996 г. 1997 г.
1994 г. 1995 г.
Нормативные акты
1. Бюджетный Кодекс РФ
2. Бюджетная классификация РФ
3. Налоговый Кодекс РФ (часть I)
4. Налоговый Кодекс РФ (часть II)

 
Журнал Бюджет
  

Бюджетная система Российской Федерации

  Поиск по сайту:      исполнить запрос   расширенный запрос

оглавление

3.4. Формирование условий запроса

3.4.1. Запрос по контексту

3.4.2. Поиск по точной форме слова

3.4.3. Логические операторы

3.4.4. Поиск по атрибутам

3.4.5. Тематический поиск

3.4.6. Поиск по датам

3.4.7. Поиск по словарям

3.4.8. Поиск по специальным атрибутам для отдельных коллекций


В УИС РОССИЯ реализовано несколько видов поиска - поиск по контексту и поиск с использованием специальных атрибутов.

3.4.1. Запрос по контексту

Как уже отмечалось в п.3.1 запрос по контексту сделать просто - в окно запроса (Рис.3.6) вручную вводятся слова, которые могут разделяться логическими операторами и скобками (см. п.3.4.3).

Слова могут указываться в любой грамматической форме и задаваться с шаблонами “*” и “?”. Например, по шаблону “развед*” могут быть найдены документы со словами “разведчик” или “разведданные” или “разведывательная деятельность” и т.п.. В слове, содержащем символ шаблона, должно быть, как минимум, две буквы. Иначе это слово игнорируется

Рис.3.5. Результаты запроса при контекстном поиске.

3.4.2. Поиск по точной форме слова

Для слов, заключенных в кавычки, морфологический анализ не производится и находятся документы, содержащие слова только в указанной форме. Если несколько слов заключено в кавычки, то находятся только документы, содержащие каждое из слов в указанной форме. Такого рода поиск может быть эффективен при поиске имен собственных, названий организаций, географических названий. Например, “Банк Российский кредит”, газета “Вести”.

Кавычки эквивалентны атрибуту "Словоформа" (точная форма слова). Например, запрос

"переписи населения"

эквивалентен запросу

/Словоформа="переписи" /Словоформа="населения".

По такому запросу будут найдены документы, содержащие слова "переписи" и "населения", но не будут учитываться при поиске слова "перепись" и "населением". (Рис. 3.6)

Рис.3.6. Результаты запроса при контекстном поиске по точным слова

3.4.3. Логические операторы

Допустимы следующие логические операторы:

Оператор

Синонимы

Описание

И

И, AND, and, &, +, пробел

Будут найдены документы, содержащие все слова запроса. Если слова разделены пробелом, то подразумевается именно этот оператор.

ИЛИ

Или, OR, or, |

Будут найдены документы, содержащие хотя бы одно из слов, соединенных этим оператором.

НЕ

не, NOT, not, -

Будут исключены документы, содержащие указанные слова.

( )

 

Задают порядок применения операторов.

При помощи логических операторов И, ИЛИ, НЕ и скобок в УИС РОССИЯ можно составлять запросы любой сложности (Рис.3.8.).

Рис.3.8. Пример сложного запроса с использованием операторов.

3.4.4. Поиск по атрибутам

В УИС РОССИЯ документы также можно искать по некоторым атрибутам, которые автоматически определяются для документа на этапе загрузки.

Атрибуты делятся на:

  • общие для всех коллекций (то есть для любых документов имеются атрибуты указанных типов);
  • специальные для отдельных коллекций (подробнее см.п.3.4.8).

Атрибут/атрибуты общие для всех коллекций пользователь выбирает из перечня (Рис.3.9.–1). Выбрав атрибут, пользователь может ввести значение в окно справа и нажать кнопку “добавить”. Для некоторых атрибутов значения можно выбрать из списка для этого надо нажать на кнопку “список”.

Рис.3.9. Начало формирования запроса по общим атрибутам

Другой классификацией атрибутов является разделение на:

  • тематические (понятия тезауруса, рубрики рубрикаторов) (см.п.3.4.5);
  • и формальные (дата, авторы, номер и т.п.) (см. пп.3.4.6.-3.4.8).

3.4.5. Тематический поиск

В УИС РОССИЯ реализованы следующие виды тематического поиска:

  • поиск с использованием Общественно-политического тезауруса;
  • поиск с использованием нескольких рубрикаторов (фиксированных авторитетных тематических словарей).

Соответствующие поисковые индексы получены автоматически как результат АЛОТ (Автоматизированная лингвистическая обработка текстов) – см. описание по ссылке “Технологические решения УИС РОССИЯ” на Главной странице.

Поиск по Тезаурусу

Информационно-поисковый Общественно-политический тезаурус (далее – Тезаурус) разработан АНО Центр информационных исследований (с 1994 года) специально для УИС РОССИЯ:

  • для автоматического терминологического индексирования потока текстов;
  • для определения тематики текста и автоматического рубрицирования одновременно по нескольким рубрикаторам;
  • для автоматического аннотирования содержания текста;
  • для тематического расширения запроса;
  • для анализа результатов поиска;
  • для поддержки многоязычного поиска.

Тезаурус реализован в виде иерархической сети понятий и терминов со связями между ними и встроен в поисковый механизм системы. В текущей версии Тезаурус включает более 29,000 понятий, 70,000 терминов, 110,000 прямых и 750,000 наследуемых отношений между понятиями.

Тезаурус покрывает 95-99% терминологии любого русскоязычного текста жанра “деловая проза” в общественно-политической области (после 1991 года).

Каждое понятие сопровождается совокупностью подчиненных ему по иерархии понятий и терминов - деревом Тезауруса. Деревья Тезауруса используются для расширения и уточнения запроса. Соответствующая процедура называется расширением по дереву.

При поиске по Тезаурусу без расширения по дереву релевантными считаются документы, содержащие хотя бы один синоним (термин) выбранного для поиска понятия Тезауруса.

При поиске по Тезаурусу с расширением по дереву релевантными считаются документы, содержащие хотя бы один синоним выбранного понятия или (с несколько меньшим весом) хотя бы один синоним понятий из дерева выбранного понятия.

Таким образом, выбор в запрос одного понятия может оказаться равносилен выбору сотен и тысяч слов и словосочетаний, которые уже подобраны для Вас заранее экспертами-лингвистами, участвующими в проекте УИС РОССИЯ.

Необходимо подчеркнуть, что Общественно-политический тезаурус УИС РОССИЯ дает значительное расширение результатов поиска без потери точности. Это достигается благодаря комплексу оригинальных технологий, описанному во многих отечественных и зарубежных научных публикаций.

Тезаурус – большой лингвистический ресурс. Поэтому поиск с использованием Тезауруса состоит из следующей последовательности шагов:

  • поиск нужного понятия;
  • выбор подходящего условия включения понятия в запрос;
  • выбор следующего понятия или исполнение запроса.

Рис.3.10. Поиск подходящего термина для запроса

Для поиска по Тезаурусу пользователь выбирает из списка общих атрибутов опцию “Тезаурус ЦИИ”, вводит в крайнем правом окне термин (в данном случае было введено слово “миграция”) и нажимает на кнопку “список”. Появляется список понятий Тезауруса, где хотя бы один термин содержит введенное слово (Рис.12-1).

Пользователь выбирает наиболее подхолящее понятие, например, “Вынужденная миграция населения” и задает правило учета этого понятия в условиях запроса с помощью клавиш, расположенных слева:

“ + ” - строго данное понятие,

“ +t ” - понятие с расширением по дереву,

“ - ” - исключить термин,

“ -t ” - исключить термин и нижестоящие понятия.

В ситуации, изображенной на Рисунке 12 пользователь выбрал кнопку “+t”. (Рис12-2). В окне запроса появляется новое условие (Рис.13-3):

/Термин_расш=“Вынужденная миграция населения

Этот прием избавляет от процедуры ввода длинных строк в условия запроса.

Теперь, если пользователь нажимает на клавишу “искать”, то система выдает документы, содержащие один из терминов:

  • “вынужденная миграция населения”;
  • “насильственное выселение”;
  • “насильственное переселение”;
  • “вынужденная миграция”.

или термины, приписанные подчиненным понятиям “БЕЖЕНЕЦ” (“беженка”, “беженский”), “ВЫНУЖДЕННЫЕ ПЕРЕСЕЛЕНЦЫ” (“вынужденный мигрант”) и т.д.

Использование опции “расширение по дереву Тезауруса” при поиске с использованием географических названий позволяет найти все географические названия и административные единицы. При поиске по термину ЮГО-ВОСТОЧНАЯ СИБИРЬ будут выданы также документы, содержащие : БАЙКАЛ, ЗАБАЙКАЛЬЕ, БУРЯТИЯ, ЧИТИНСКАЯ ОБЛАСТЬ, ПРИБАЙКАЛЬЕ и т.д.

Разница в количестве документов, найденных при контекстном поиске и при поиске по Тезаурусу с использованием синонимического ряда и деревьев Тезауруса, может быть существенной (в десятки раз). При этом при тезаурусном поиске в УИС РОССИЯ выше не только полнота, но и точность поиска – релевантность документов запросу1.

Особенно впечатляющих результатов удается добиваться, формируя запрос из нескольких понятий с расширением по дереву. В частности можно эффективно анализировать документы следующей тематики:

/Термин_расш = “ПРЕСТУПНОСТЬ”
and /Термин_расш= “СИБИРСКИЙ ФЕДЕРАЛЬНЫЙ ОКРУГ”

или, например,

/Термин_расш = “МИГРАЦИЯ”
and /Термин_расш= “АМУРСКАЯ ОБЛАСТЬ”

Подобного рода анализ практически невозможен с использованием только средств контекстного поиска.

Рис.3.11. Пример статьи,
найденной по термину “супружество” с расширением по дереву.

На Рис.3.11 приведен пример статьи, найденной по понятию “супружество” с расширением по дереву, встречаются термины “брак”, “бракосочетание”, “жених” и “невеста”, “сваха”. При этом сам термин “супружество” не встречается.

Найденные в документе термины подсвечиваются – красным цветом – синонимы понятия, использованного в запросе, фиолетовым цветом – синонимы подчиненных понятий.

Уточнение запроса по Тезаурусу

Запрос может быть также уточнен путем просмотра тезаурусной статьи понятия (Рис.3.12), которая получается при переходе по ссылке, связанной с понятием.

При этом пользователь, “двигаясь” по связям между понятиями, может выбрать более подходящую ему тематику, тем самым уточнить смысл своего запроса.

Рис.3.12. Тезаурусная статья для понятия
ВЫНУЖДЕННАЯ МИГРАЦИЯ НАСЕЛЕНИЯ

Разрешения многозначности терминов с помощью Тезауруса

В русском языке присутствуют многозначные слова (около 10% всех слов), которые означают разные понятия, при запросе по таким терминам точность поиска может снижаться.

Например, слово “разведка” многозначно и означает два понятия - ГЕОЛОГИЧЕСКАЯ РАЗВЕДКА и РАЗВЕДЫВАТЕЛЬНАЯ ДЕЯТЕЛЬНОСТЬ. (Рис.3.13).

При контекстном поиске по слову “разведка”, полученные документы будут вперемежку соответствовать то одному значению данного слова, то другому.

Для разрешения многозначности терминов можно использовать Тезаурус, где эти два понятия формируют два поддерева, и при поиске для каждого значения будут найдены различные совокупности текстов2.

В УИС РОССИЯ многозначность снимается на этапе индексирования (предварительной обработки документа) за счет учета описанных в Тезаурусе связей между понятиями.

Кроме того, большинство многозначных терминов “окружено” однозначно понимаемыми словосочетаниями. Пользователь может выбрать именно их, тем самым, получая более точные результаты поиска. Например, “ВНЕШНЯЯ РАЗВЕДКА” (Рис.3.13).

Рис.3.13. Многозначность терминов

Поиск по рубрикаторам

В текущей версии системы для всех коллекций доступны два рубрикатора:

  • Рубрикатор 1 – рубрикатор УИС РОССИЯ – предназначен для обработки и поиска, прежде всего, нормативно-правовой информации. Содержит 180 рубрик, три уровня вложенности. Список рубрик может быть представлен в алфавитном и иерархическом порядке (Рис. 3.14.– 1).
  • Рубрикатор 2 – Рубрикатор LIV - Legislative Indexing Vocabulary - верхний уровень тезауруса Исследовательской службы Библиотеки Конгресса США (80 рубрик). Применяется для анализа материалов СМИ, правовой информации.

Для поиска по рубрикаторам необходимо в списке общих атрибутов выбрать опцию “Рубрикатор 1” или, соответственно, “Рубрикатор 2”, затем нажать на кнопку “список” и выбрать рубрику, кликнув на кнопку “+”.

Рис.3.14. Выбор рубрики
при иерархическом представлении рубрикатора УИС РОССИЯ

Для каждой рубрики и подрубрики справа в скобках указано количество соответствующих ей документов во всех коллекциях УИС РОССИЯ (Рис.3.14.-2). Нажатие на соответствующую цифру-ссылку будет равносильно запросу на выборку таких документов.

3.4.6. Поиск по датам

Для поиска по определенной дате или интервалу дат в списке атрибутов выбрать опцию Дата, ввести нужную дату в крайнем правом окне строки и нажать кнопку добавить.

Интервал дат указывается через “-”.Имеются некоторые шаблоны дат:

Шаблон

Описание

*

Текущая дата (сегодняшний день).

01.03.2003

Все документы за 1 марта 2003 года

05.03.2003-07.04.2003

Все документы с 5 марта по 7 апреля 2003 года включительно

01.03.2003-*

Все документы с 1 марта по сегодняшний день.

03.2003

Все документы за март 2003 года

2003

Все документы за 2003 год

3.4.7. Поиск по словарям

Используется при определении нормализованных слов при контекстном поиске, удобен для слов, имеющих несколько написаний (позволяет учесть также ошибки написания). На Рис.3.15 представлено, как писалась фамилия “Шеварнадзе” в документах УИС РОССИЯ.

Рис.3.15. Выбор лемм из словаря

Рис.3.16. Карточка специальных атрибутов для коллекции газеты “Ведомости”

3.4.8. Поиск по специальным атрибутам для отдельных коллекций

“Кликнув” на название коллекции, пользователь получает карточку со списком атрибутов для поиска по этой коллекции. Реквизиты коллекции включают и поля/атрибуты, специфичные для каждой коллекции.

Значения атрибутов можно ввести или выбрать из списка, кликнув на клавишу список” справа от названия атрибута.

Заполнив поле/поля специальных атрибутов, пользователь нажимает на кнопку “добавить”, и выбранные значения появляются в поисковом окне.

Рис.3.17. Список атрибута “Автор” для газеты “Ведомости”

На Рис.3.17 представлено начало списка авторов для газеты “Ведомости”. Справа от фамилии в скобках указано, сколько статей этого автора доступны в коллекции газеты “Ведомости”.

Для выбора фамилии автора пользователь нажимает на клавишу “+” слева от фамилии, при этом фамилия автора добавляется в запрос. Для выполнения запроса пользователь нажимает на кнопку “искать” и получает тексты статей.


1 См., например, Добров Б.В., Лукашевич Н.В., Тезаурус и автоматическое концептуальное индексирование в Университетской информационной системе РОССИЯ // Третья Всероссийская конференция по Электронным Библиотекам “Электронные библиотеки: перспективные методы и технологии, электронные коллекции” - Петрозаводск, 2001 – С.78-82.

2 Следует иметь в виду, что разрешение многозначости представляет собой серьезную научную проблему. Использование Тезауруса тоже будет приводить к определенного рода ошибкам, однако их количество будет меньшим, чем при простом контекстном поиске.

  
 Copyright © АНО Центр информационных исследований, 2001-2003
Счетная Палата РФ Rambler's Top100 Rambler's Top100 Деловой журнал 'Эксперт' Институт экономики переходного периода
Прозрачный бюджет Институт Восток-Запад