Другие журналы
|
научное издание МГТУ им. Н.Э. БауманаНАУКА и ОБРАЗОВАНИЕИздатель ФГБОУ ВПО "МГТУ им. Н.Э. Баумана". Эл № ФС 77 - 48211. ISSN 1994-0408![]()
Оценка релевантности документов онтологической базы знаний
# 09, сентябрь 2010 DOI: 10.7463/0910.0157379
Файл статьи:
![]() УДК 519.6 МГТУ им. Н.Э. Баумана,
Введение Корпоративная база знаний представляет собой, как правило, совокупность разного рода слабоструктурированных документов, в которых с той или иной степенью подробности описаны прецеденты – ситуации и решения, которые были приняты в этих ситуациях. В системах поддержки принятия решений (СППР), которые используют такие базы знаний, поиск решения заключается в поиске в этих базах наиболее подходящих прецедентов и соответствующих им документов [1]. В работе рассматривается поиск решений по атрибутам документов, содержащимся в их метаданных, как альтернатива полнотекстовому поиску. Классический атрибутивный поиск основывается на использовании в качестве метаданных документа преимущественно его регистрационных атрибутов [2]. В работе рассматривается иной подход к поиску решений в базах знаний прецедентов, когда метаданные формируются на основе онтологии соответствующей предметной области, заданной в виде семантической сети. При этом релевантность документа оценивается близостью в некоторой метрике семантической сети этого документа и семантической сети запроса. В работе существенно используется «важность» концептов в семантической сети рассматриваемой онтологической базы знаний. Ряд мер этой важности предложен в нашей работе [3]. Важной составной частью предлагаемой методики оценки релевантности документа является построение семантической сети этого документа. В работе данная задача ставится, как задача огрубления графа семантической сети онтологии рассматриваемой предметной области [4,5]. Рассматриваются три метода решения задачи на основе насыщенных паросочетаний – методы, использующие случайные паросочетания, паросочетания из тяжелых ребер, а также паросочетания из тяжелых клик [4, 6,7]. В общей постановке о задаче поиска информации следует говорить в терминах модели поиска, которая включает в себя способ представления документов, способ представления поисковых запросов, вид критерия релевантности документов [8]. В данной работе документы в базе знаний, а также поисковые запросы к базе представляются в виде фреймов, которые называются паттерном проектирования и паттерном запроса соответсвенно. Слоты этих паттернов соответствуют ролям концептов используемой онтологии (предметная область, объект, свойство, действие, задача и т.д.) [1]. Указанные роли разбивают концепты онтологии, документа и запроса к базе знаний на кластеры. Предполагается, что по методике построения семантической сети документа, построены семантические сети указанных кластеров. Таким образом, поисковые образы документа и запроса представляются в виде совокупности семантических сетей, соответствующих слотам паттерна проектирования и паттерна запроса. В работе предложено несколько мер релевантности ролевых кластеров документа, формализующих близость семантических сетей поискового образа документа и семантических сетей запроса. На основе указанных мер предложен алгоритм оценки релевантности документа запросу.
1. Построение семантической сети документа Представим семантическую сеть Определены веса Некоторые методы определения весов концептов Перейдем, например, с помощью аддитивной свертки
от взвешенного мультиграфа Аналогично определим семантическую сеть В терминах графа Задача 1 (задача определения топологии графа Задача 2 (задача определения весов узлов и атрибуты ребер графа 1.1. Определение топологии графа Классические методы решения задачи огрубления графа основаны на итерационном стягивании смежных узлов графа Обычно задача огрубления графа решается в терминах паросочетаний. Паросочетанием в графе называется набор его ребер, в котором любые два ребра не инцидентны общему узлу. Таким образом, граф В терминах паросочетаний специфика нашего случая состоит в том, что любая пара узлов каждого из паросочетаний не может включать в себя одновременно два узла графа С точки зрения повышения эффективности процесса огрубления графа, целесообразно использовать насыщенные паросочетания - паросочетания в которых хотя бы один узел любого ребра, не вошедшего в паросочетание, инцидентен ребру, вошедшему в паросочетание. Вообще говоря, с той же точки желательным является использование максимальных паросочетаний - насыщенных паросочетаний, которые имеют максимальное число ребер. Однако, вычислительная сложность формирования максимальных паросочетаний, в общем случае, значительно выше аналогичной вычислительной сложности для просто насыщенных паросочетаний. Поэтому обычно в вычислительной практике ограничиваются последними [7]. Утверждение 1. Оценка снизу количества итераций, необходимых для построения графа Справедливость утверждения следует из того факта, что при использовании насыщенных паросочетаний число узлов графа Наиболее известны три следующих метода построения насыщенных паросочетаний: случайное паросочетание (RM); паросочетание из тяжелых ребер (HEM); паросочетание из тяжелых клик (HCM) [5]. Случайное паросочетание на итерации 1) все узлы 2) случайным образом выбираем немаркированный узел, еще не включенный в паросочетание - пусть это будет узле 3) из числа немаркированных узлов, смежных узлу 4) если оба узла или один из узлов пары 5) если ни одного немаркированного узла, смежного узлу 6) если в графе Данную схему иллюстрирует рисунок 1, на котором слева показан граф Паросочетание из тяжелых ребер. Схема построения этого паросочетания отличается от рассмотренной выше схемы шагом 3, который в данном случае формулируется следующим образом. Из числа немаркированных узлов, смежных узлу Рисунок 1 – К методу случайных паросочетаний: квадратиками показаны узлы графа
Паросочетание из тяжелых клик. В данном случае также меняется только шаг 3 рассмотренной схемы формирования случайного паросочетания: из числа немаркированных узлов, смежных узлу Итерации во всех рассмотренных методах формирования паросочетания заканчиваются, когда в результате данной итерации не удалось выделить ни одной пары узлов. Другими словами, итерации заканчиваются, если в текущем графе Отметим следующее обстоятельство. В силу наличия элемента случайности при формировании паросочетаний, различные итерационные процессы порождают, вообще говоря, графы 1.2. Определение весов узлов и ребер графа 1) рассматриваемая пара узлов паросочетания включает в себя узел, принадлежащий графу 2) пара узлов содержит только узлы, не принадлежащие графу Случай 1. Пусть рассматриваемая пара включает в себя узел (или мультиузел) Будем полагать, что в процессе стягивания узлов Логично исходить из того, что вес
В результате стягивания узла Естественно положить, что длина ребра
т.е. на длину ребра
Схему рассмотренного алгоритма иллюстрирует рисунок 2. Здесь принято, что
Случай 2. Положим, что оба узла рассматриваемой пары В этом случае также можно считать, что один из узлов (пусть это будет узел Рисунок 2 – К стягиванию узла (мультиузла)
В отличие от предыдущего случая, здесь логично положить, что в результате стягивания узла
а веса Отметим, что принятые соглашения могут приводить к нецелым значениям расстояний между узлами графа Схему рассмотренного алгоритма иллюстрирует рисунок 3. Здесь принято, что вес узла
Рисунок 3 – К стягиванию узлов (мультиузлов)
В результате итерации Положим, что двумя ребрами связаны узлы
В качестве веса
Таким образом, после завершения итераций оказываются полностью определенными топология графа Вернемся к использованию в обозначениях весов узлов и атрибутов ребер графа Исключим из числа атрибутов ребер графа
При необходимости, можно нормировать веса узлов и ребер полученного графа
Здесь
2. Ролевая кластеризация семантических сетей онтологии и документа Положим, что выделено
Число концептов в кластере
Аналогично, роли
Кластерам Графы Отметим, что оценить качество рассмотренной ролевой кластеризации можно, например, с помощью величины, которая называется модулярность (modularity) графа [13].
3. Поисковые образы документа и запроса Пусть в семантической сети документа Поисковый образ рассматриваемого документа Рисунок 4 – Поисковый образ документа
Не ограничивая общности рассуждений, положим, что поисковый образ запроса Введем следующие обозначения:
Здесь Таким образом, поисковый образ запроса Рисунок 5 – Поисковый образ запроса
Графы
4. Релевантность ролевого кластера документа Можно предложить несколько мер релевантности ролевых кластеров документов, формализующих близость семантических сетей Определим прежде меру близости концептов множества
где минимум берется по всем возможным цепям Во множестве Аналогично, для каждого концепта Взаимосвязи кластеров Для каждого из концептов
Функция
Рисунок 6 – К взаимосвязям кластеров
4.1. Меры, не учитывающие веса концептов и связей между ними. Мера на основе коэффициента Дайса, используемого при сравнении текстовых документов [14]
где Мера (9), по сути, представляет собой относительное число концептов кластера Здесь и далее полагается, что Мера на основе относительной близости графов
где Известно, что меры вида (9), (10) сильно зависят от размеров графов [14]. Поэтому целесообразно использовать их следующие модификации, учитывающие размеры графов Модифицированная мера на основе меры
где
Модифицированная мера на основе меры
где величина Очевидно, что при Мера, являющаяся расширением меры
Мера имеет смысл относительного числа узлов графа Мера, являющаяся расширением меры
Здесь Отметим, что, очевидно, меры (14), (15) являются частными случаями мер (11), (13). На основе мер (9) – (11), (13) – (15) легко сконструировать меры, которые учитывают только «сильные» узлы и ребра в графах Аддитивная свертка мер
включающая в себя все рассмотренные выше меры. 4.2. Меры, учитывающие веса концептов и связей между ними. Взвешенная мера на основе меры
где индекс Очевидно, что мера (17) эквивалентна мере (9), если принять следующие соглашения: Взвешенная мера на основе меры
где, аналогично (17), Модифицированная мера на основе меры
Модифицированная мера на основе меры
Мера, являющаяся расширением меры
где Мера, являющаяся расширением меры
аналогичная мере (21). Здесь Аддитивная свертка мер
включающая в себя все рассмотренные выше меры (17) – (22). Модифицированная мера на основе меры
где Меры (17) – (24) также легко модифицировать, учитывая только «сильные» узлы и ребра в графах
5. Оценка релевантности документа Пусть поисковый образ документа Обозначим
Нормировать величину Общая схема предлагаемой методики оценки релевантности документа Определение релевантности (25) можно расширить путем учета априорной «значимости» документа
Рисунок 7 - Схема оценки релевантности документа
С учетом меры Отметим, что формулы (25), (27) не учитывают эффективность решений, которые содержатся в документе
Заключение Предложенная в работе методика оценки релевантности документов обладает высокой вычислительной сложностью. Подавляющая часть требуемых вычислительных затрат обусловлена выполнением следующих работ. Во-первых, для каждого из документов Во-вторых, методика требует построения аналогичных семантических сетей В-третьих, в соответствии с методикой для каждого из запросов В работе широко используется аддитивная скалярная свертка (см., например, формулы (1), (2), (3), (7) и т.д.). Очевидно, что наряду с аддитивными свертками могут быть использованы и иные, например, мультипликативные свертки или их комбинация [17]. Основная задача работы – задача определения релевантности документа – является, по сути, задачей многокритериальной (точнее - Широкое использование сверток приводит к тому, что методика содержит большое число свободных параметров (см. формулы (1), (2), (3), (7) и т.д.). Имеется немного содержательных оснований для априорного выбора значений этих параметров. Поэтому представляется перспективным ставить задачу определения их значений, как задачу метаоптимизации [18]. Отметим, что при этом в базе знаний требуется хранить оценки успешности поиска, сформированные лицом, принимающим решения. Одной из проблем, которая возникает при использовании рассмотренного подхода к определению релевантности документов, является проблема лексической многозначности терминов. Правильное значение многозначного слова может быть установлено только путем анализа контекста, в котором это слово упоминается. Известен ряд методов решения данной задачи, например, методы, основанные на использовании Википедии [19]. В развитие работы планируется экспериментальная проверка эффективности предложенной методики. Автор выражает благодарность И.П. Норенкову за постановку рассмотренной в работе задачи, а также за конструктивные обсуждения подходов к ее решению. Работа выполнена при поддержке гранта РФФИ 10-07-00401.
Литература 1. И.П. Норенков. Интеллектуальные технологии на базе онтологий // Информационные технологии, 2010, ╧1, с.17-23. 2. The Dublin Core Metadata Initiative [Электронныйресурс]. (http://dublincore.org/). 3. А.П. Карпенко. Меры важности концептов в семантической сети онтологической базы знаний [Электронный ресурс] // Наука и образование: электронное научно- техническое издание, 2010, 7. (http://technomag.edu.ru/doc/151142.html). 4. G. Karypis, V. Kumar. Multilevel k-way Partitioning Scheme for Irregular Graphs // Journal of Parallel and Distributed Computing, 1998, vol. 8, no. 1, pp. 96-129. 5. Д.П. Бувайло, В.А. Толок. Быстрый высокопроизводительный алгоритм для разделения нерегулярных графов // ВЁсник ЗапорЁзького державного унЁверситету, 2002, ╧ 2, с. 1 – 10. 6. T. N. Bui, S. Chaudhuri, F. T. Leighton, M. Sipser. Graph bisection algorithms with good average case behavior // Combinatorica, 1987, N7, pp. 171.191. 7. L. Miller Gary, Teng Shang-Hua, A. Vavasis Stephen. A unified geometric approach to graph separators: Proceedings of 31st Annual Symposium on Foundations of Computer Science, 1991, pp. 538 -547. 8. М.Р. Когаловский. Перспективные технологии информационных систем. – М.: ДМК Пресс; М.: Компания АйТи, 2003. – 288 с. 9. G.A. Miller and etc. Wordnet: a lexical database for the english language [Электронныйресурс]. // (http://wordnet.princeton.edu/). 10. E. Gabrilovich, S. Markovitch. Computing semantic relatedness using wikipedia-based explicit semantic analysis: Proceedings of the Twentieth International Joint Conference on Artificial Intelligence (IJCAI-07), Hyderabad, India, January 6-12, 2007:AAAI Press, 2007, pp. 1606–1611. 11. Ю.А. Целых. Теоретико-графовые методы анализа нечетких социальных сетей [Электронный ресурс]. (http://swsys.ru/print/article_print.php?id=742). 12. B. Hendrickson, R. Leland. An improved spectral graph partitioning algorithm for mapping parallel computations. SandiaNationalLaboratories. -TechnicalReportSAND92-1460, 1992. –P. 192. 13. М. Гринева, Д. Лизоркин. Анализ текстовых документов для извлечения тематически сгруппированных ключевых терминов [Электронный ресурс]. (http://citforum.ru/database/articles/kw_extraction/). 14. М.Ю. Богатырев, В.Е. Латов, И.А. Столбовская. Применение концептуальных графов в системах поддержки электронных библиотек: Труды 9-ой Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» - RCDL’2007, Переславль-Залесский, Россия, 2007. – Т. 2, С. 104-110. 15. Л.И. Бородкин. Математические методы и компьютер в задачах атрибуции текстов [Электронный ресурс]. (http://www.textology.ru/library/book.aspx?bookId=11&textId=13). 16. Dmitry Lizorkin and etc. Accuracy Estimate and Optimization Techniques for SimRank Computation: Proceedings of the 34th International Conference on Very Large Data Bases (VLDB’08). – 2008. – Vol. 1, Issue 1. – pp. 422-433; 17. О.И. Ларичев. Теория и методы принятия решений, а также Хроника событий в Волшебных странах. – М.: Университетская книга, Логос, 2006. -292 с. 18. Hong Zhang, Masumi Ishikawa. Evolutionary Canonical Particle Swarm Optimizer - A Proposal of Meta-Optimization in Model Selection. Berlin : Springer-Verlag, 2008. 19. R. Mihalcea. Using Wikipedia for Automatic Word Sense Disambiguation: Proceedings of the North American Chapter of the Association for Computational Linguistics (NAACL 2007), Rochester, April 2007, pp. 196 - 203.
Публикации с ключевыми словами: семантическая сеть, онтология, релевантность Публикации со словами: семантическая сеть, онтология, релевантность Смотри также:
Тематические рубрики: Поделиться:
|
|
||||||||||||||||||||||||||||||||
|