В.А. Григорьев, канд. техн. наук, г. Жуковский

Оценка качества интеллектуальных систем, оперирующих неформальными понятиями

Предложен метод оценки качества функционирования интеллектуальных систем, основанный на ранжировании тестовых заданий системе по уровню их сложности. Предложенная процедура уменьшает зависимость оценок от изменений в составе тестовых заданий, от индивидуальных особенностей экспертов, а также позволяет выделить экспертов, наиболее эффективных в работе. Сформулирован критерий состоятельности эксперта. Рассмотрены примеры оценки интеллектуальных систем, разработанных автором.

Процесс интеллектуализации технических систем является одной из важнейших особенностей технического прогресса настоящего времени. По существу интеллектуальные системы образуют весьма обширный класс, приобретающий все новые сферы приложений. Однозначного определения этой бурно развивающейся области техники до сих пор нет [1-4]. Предмет рассмотрения настоящей работы касается только части систем, традиционно считающихся интеллектуальными, а именно речь идет о системах, оперирующих неформальными понятиями. При этом под неформальным понятием автор статьи подразумевает понятие, которое содержит в себе более того, что заложено в его форму разработчиком системы. Примером такого понятия может служить слово естественного языка. Формальное же понятие в нашей трактовке содержит только то, что разработчик вложил в его форму, например число.

Системы, оперирующие неформальными понятиями, наиболее приспособлены для решения сложных интеллектуальных задач [5, 6]. Одной из центральных проблем создания систем такого типа является оценка их качества функционирования. Процесс оценивания качества таких систем является неотъемлемой частью общей проблемы их создания и имеет не проходящую актуальность.

Прежде всего, оценка качества создаваемой системы необходима разработчику. Она не только позволяет конкретизировать поставленную задачу, но и помогает найти правильный путь ее решения. В то же время характеристика качества системы является важнейшим атрибутом ее жизненного цикла, в значительной мере определяющим как ее куплю-продажу, так и эксплуатацию.

В настоящее время решение обсуждаемой проблемы отстает от требований текущего момента [7, 8]. При этом используемые подходы [9-15] можно условно разделить на два типа:

1) качество интеллектуальной системы посредством формальной процедуры ставится в зависимость от меры ошибок системы, определяемой тем или иным способом;

2) качество интеллектуальной системы оценивается экспертами.

Очень часто в подходах первого типа для определения ошибок системы явным или неявным образом привлекаются все те же эксперты. Таким образом, можно с полным основанием считать, что использование эксперта является ключевым фактором проблемы оценки качества. Это, в свою очередь, ставит вопрос о состоятельности экспертов, привлекаемых к работе с системой.

В настоящей статье предлагается общий подход оценки качества интеллектуальной системы, который, строго говоря, нельзя отнести ни к первому, ни ко второму из подходов, обозначенных выше. Предлагаемая методика органично объединяет работу эксперта и аналитическую процедуру. Получаемые при этом оценки согласуются со средней экспертной оценкой, а также со средней оценкой экспертов, прошедших специальное тестирование и не подверженных действию психологических эффектов, влияющих на их работу. Это позволяет сформулировать критерий состоятельности эксперта.

Предлагаемый подход рассмотрен на примерах оценки качества систем, разработанных автором настоящей статьи.

Основная идея метода

Прообразом предлагаемого метода является широко используемая процедура, в которой качество функционирования системы представляется одним или несколькими параметрами, характеризующими некоторые свойства ответов системы, например адекватность, понятность, полноту, точность и т.д. [10, 11, 15].

Оценки такого рода фактически имеют смысл частотной характеристики правильных ответов системы (представляемой чаще всего в процентах) на множестве поступающих в нее запросов. Нетрудно видеть, что такие оценки зависят от набора запросов, делаемых системе во время ее тестирования. Действительно, если, например, в результате тестирования число правильных ответов системы составило, например, 70% от их общего числа, то понятно, что если в следующем тестировании будут такого же типа запросы, с которыми система не справилась в исходном тестировании, то оценка качества может упасть вплоть до 0%.

Рассмотренная нестабильность оценок имеет принципиальный характер. На практике эта трудность преодолевается подбором запросов, направленных на всестороннее тестирование системы. Подбор тестовых заданий наиболее эффективно осуществляется экспертом. для повышения стабильности оценок, а также для уменьшения влияния на них индивидуальных особенностей эксперта предлагается следующая методика. Тестовые задания системе ранжируются по уровню сложности, для этого вводится специальная шкала, отражающая специфику назначения системы, для каждого уровня сложности определяется показатель качества, нормируемый единицей. За искомую оценку качества функционирования системы принимается сумма двух составляющих:

♦ число уровней сложности, которые следует один за другим, начиная с первого, и которые система обрабатывает не хуже предписанного показателя качества - “достаточного” качества; уровень сложности, следующий за этим числом, система обрабатывает с качеством ниже “достаточного”;

♦ показатель качества уровня, непосредственно следующего за теми, которые система обрабатывает с “достаточным” качеством; этот показатель представляет дробную часть оценки.

Предлагаемая оценка, таким образом, представляет собой уровень сложности заданий, который соответствует ее возможностям. При этом дробная часть оценки учитывает тот факт, что некоторую часть заданий следующего уровня сложности система также в состоянии обработать с требуемым качеством.

В предложенном подходе оценку качества обработки системой запросов одного уровня сложности можно осуществлять любым способом, в том числе, если это возможно, и без привлечения эксперта. При этом сама оценка является относительно независимой от этих способов, поэтому назовем ее “независимой оценкой”.

Психологические факторы в работе эксперта

Опыт автора в демонстрации своих разработок говорит о том, что при знакомстве специалиста или потенциального пользователя с интеллектуальной системой часто имеют место две особенности (по отдельности или обе одновременно).

1. Психологический настрой человека, испытывающего систему, ориентирован прежде всего не на знакомство с ней, а на подтверждение собственных сложившихся взглядов и идей или на подтверждение своей компетенции и т.д. В результате такой эксперт может строить свои оценки на основе второстепенных свойств системы, не определяющих ее качества. Назовем эту особенность эффектом “персоны”.

2. В процессе знакомства эксперта с системой происходит отождествление им потенциальных возможностей системы с возможностями человека. Это проявляется в том, что он не учитывает различий в уровне сложности предлагаемых им системе заданий. Психологической основой для этого является то, что сам индивидуум с заданиями справляется, как ему кажется, одинаково легко. Такую особенность назовем эффектом “персонализации”.

Отмеченные эффекты снижают эффективность работы эксперта в процессе тестирования и ведут, в конечном счете, к увеличению разброса экспертных оценок, для преодоления отрицательного влияния психологических факторов можно использовать следующие способы:

· специальная организация работы эксперта, например, использование им шкалы качества, введение контрольного тестирования самого эксперта;

· выделение состоятельных экспертов;

· использование независимой оценки, которая близка адекватной, даже если в группу экспертов входят лица, подверженные действию эффектов “персоны” и “персонализации”.

Подробнее эти аспекты будут рассмотрены ниже.

Оценка качества работы системы Magion-2

Система Magion-2 (разработана совместно с В.А. Чочиевым) предназначена для обработки русскоязычных текстов. Входной информацией для работы системы является файл, содержащий произвольный текст объемом до 10 Кбайт. В результате работы система формирует другой файл, содержащий краткое изложение исходного текста, которое состоит из фрагментов этого текста.

Для оценки качества функционирования Magion-2 по предложенной выше методике были введены две шкалы: шкала уровней сложности текста (от 1 до 5) и пятибалльная шкала оценок качества аннотаций, формируемых системой (наивысшему качеству соответствует оценка 5, самому низшему — оценка 0). Каждая шкала состоит из вопросов, на которые следует дать один из предусмотренных в ней ответов. Подробное описание шкал представлено в [16].

В табл. 1 приведены экспертные оценки качества автоматического аннотирования 21 текста. Они выявлят основной фактор ухудшения качества аннотаций — повышение уровня сложности текста.

Таблица 1.

Уровень сложности текста

Экспертные оценки качества аннотаций текстов

Средняя оценка

5 5 5 5 5 5 5 5 4 4

5 5 4 3

4 3 3

2 2 1

4,80

4,25

4,33

2,0

1,66

В табл. 2 представлены значения показателя качества аннотаций (средней оценки из табл. 1, нормированной единицей) в зависимости от уровня сложности текстов. Для большей наглядности в этой же таблице представлены соответствующие оценки общепринятой 4-уровневой (трехбалльной) шкалы: 2 — неудовлетворительно, З — удовлетворительно, 4 — хорошо, 5 отлично. В этих оценках допускалось использование дробной части. Такую шкалу будем называть е-шкалой.

Примем значение показателя достаточного качества H = 0,8. Тогда в соответствии с предложенной методикой из табл. 2 следует, что целая часть оценки качества Magion-2 равна 2, те. достаточно качественно система обрабатывает первые два уровня сложности текстов. Добавив к этой оценке показатель качества следующего, третьего уровня, получим искомую оценку с дробной частью: s = 2,67. Для e-шкалы это соответствует оценке S=3,60.

Таблица 2.

Уровень сложности текста	1	2	3	4	5
Показатель качества аннотации	0,96	0,85	0,67	0,40	0,33
Средняя экспертная оценка e-шкалы	4,88	4,55	4,00	3,20	3,00

Оценка качества работы системы “Малыш—собеседник”

Назначением системы является поддержание диалога с пользователем на произвольную тему. Язык общения — русский. Система понимает простые предложения. Тема диалога задается текстом, вводимым в нее непосредственно перед работой. Текст может состоять из нескольких предложений, а тема диалога может меняться пользователем непосредственно в процессе общения с системой.

Система “Малыш-собеседник” имеет важную особенность: запросом системе следует считать сам диалог с использователем. Поэтому вместо двух процедур оценивания (уровня сложности запроса системе и качества ответа) следует использовать только одну. Действительно, уровень сложности диалога определяется его качеством, а качество диалога есть уровень его сложности.

Качество диалога Пользователь — Система предлагается оценивать на основе ответов на вопросы следующей шкалы:

Минимальной оценке качества соответствует 0, максимальной — 4.

Система “Малыш – собеседник” способна удерживать нить беседы, поэтому можно считать, что диалог с “Малышом—собеседником” возможен. То есть на первый вопрос шкалы следует дать утвердительный ответ, В то же время системе следует совершенствоваться и она не способна брать на себя активную роль в диалоге. Таким образом, ответы на вопросы шкалы приводят к уровню качества s=1. Соответствующая оценка e-шкалы есть S=2,75.

Оценка качества системы Michel

Информационная система Michel (система “Собиратель знаний”) предназначена для извлечения, обработки и интерпретации знаний, представленных в текстовом виде на русском языке. К настоящему времени система способна осуществлять поиск текстов, соответствующих тематике, задаваемой пользователем при помощи нескольких слов (рубрикация текстов). Система Michel является демонстрационной и содержит небольшое количество текстов (13 газетных статей объемом 3—5 Кбайт). Количество слов запроса не должно превышать 10.

Оценим качество работы системы Michel. Для градации запросов экспертов по уровню их сложности используем четырех балльную шкалу, определяемую следующими вопросами.

1. Соответствует ли запрос эксперта непосредственно (т.е. без дополнительных уточнений) основному содержанию хотя бы одного текста из текстовой базы системы?

—Да (уровни сложности 1, 2, 3; обозначения L1, L2, L3)

— Нет (уровень сложности 4; обозначение L4).

2. Для уровней 1, 2, 3: конкретизуется ли в искомых текстах запрос эксперта.

— Да (уровни сложности 2, 3).

— Нет (уровень сложности 1).

3. Для уровней 2, 3: касается ли запрос эксперта в основном действий и/или отношений (т.е. нематериальных сущностей)?

—Да (уровень сложности 3).

— Нет (уровень сложности 2).

Результаты работы семи экспертов, участвовавших в эксперименте по оценке качества работы рассматриваемой системы, представлены в табл. 3. При этом показатель качества для запросов одного уровня сложности определялся как разность единицы и отношения числа ошибок системы к числу текстов в эталонных ответах. Эталонный ответ системы формировал эксперт на каждый свой запрос.

Таблица 3.

Уровень сложности запроса

Число текстов в эталонных ответах

Число ошибок

Показатель качества

Число запросов

Число ошибочных ответов

0,05

0,87

0,90

1,00

Примем, как и при оценке качества работы Magion-2, что показатель “достаточного” качества составляет Н = 0,8. Тогда получим, что запросы уровня L3 и ниже система Michel обрабатывает с приемлемым качеством. Таким образом, целая часть искомой оценки составляет

s = 3. Добавляя к ней показатель качества уровня, следующего за уровнем L3 (т.е. уровня L4), получаем s = 3,05, что для е-шкалы соответствует значению S = 4,29.

Для больших текстовых баз эксперт не в состоянии определить эталонный ответ системы, поскольку невозможно ориентироваться в содержании очень большого числа текстов. Чтобы преодолеть эту трудность, следует из базы текстов сделать выборку приемлемого объема. Используя описанную выше методику, можно получить независимую оценку качества системы для сделанной выборки текстов. Для повышения надежности результата число выборок можно увеличить, а получаемые независимые оценки для каждой выборки — усреднить.

Состоятельные эксперты

Предложенный подход получения независимой оценки позволяет выделить экспертов, не подверженных влиянию психологических эффектов типа “персоны” и “персонализации” и, таким образом, наиболее эффективных в работе. Это достигается за счет сравнения независимой оценки, рассчитанной для отдельного эксперта, и интегральной оценки качества, которую он дает системе. Такой анализ деятельности экспертов был выполнен при оценке качества работы системы Michel. Остановимся на этом вопросе подробнее.

Экспертное тестирование системы Michel включало в себя два этапа. На первом этапе после того, как эксперт делал заключение о том, что он познакомился с системой достаточно подробно, им выставлялась соответствующая оценка е-шкалы. На втором этапе тестирования, о котором эксперту заранее не сообщалось, ему предлагалось пройти контрольный тест, который заключался в том, чтобы сделать системе шесть запросов.

Первые три запроса контрольного теста должны были быть рассчитаны на получение от системы правильных ответов. На последующие три запроса система, по условию теста, должна была дать неправильные ответы. Запросы контрольного теста, естественно, не должны были совпадать с запросами эксперта, сделанными ранее. Если эксперту не удавалось завершить контрольный тест по описанной схеме, то ему предлагались три возможности: 1) выполнить контрольный тест снова; 2) провести тренировку, а затем повторить контрольный тест; 3) отказаться от выполнения контрольного теста, если эксперту это представляется чрезмерно трудной задачей.

Второй этап заканчивался оцениванием экспертом качества системы и был предназначен для того, чтобы помочь эксперту понять:

а) что для системы существуют “трудные” и “легкие” запросы;

б) насколько хорошо он представляет себе уровень качества работы тестируемой системы.

Предполагалось, что все это уменьшит влияние отмеченных эффектов “персоны” и “персонализации” и улучшит оценки экспертов.

В табл. 4 приведены экспертные и независимые оценки качества работы системы Michel на этапах I и II (по е-шкале) для каждого эксперта, принимавшего участие в тестировании.

Номер эксперта	Этап 1		Этап 2
Номер эксперта	Оценка эксперта	Независимая оценка	Оценка эксперта	Независимая оценка	Контрольный тест
1 2 3 4 5 6 7	5 4,8 4 4,9 4,4 3,5 3,5	5 4,04 - - 4,25 2,75 4,42	5 4,8 ? 5 4,4 3,8 4,2	5 4,11 ? - 4,25 3,12 4,41	Нет Нет ? Нет Да Да Да
Обозначения: “-” – информации для оценки недостаточно; “?” – отказ эксперта от этапа II; “Нет” – контрольный тест не пройден: “Да” – контрольный тест пройден

Видно, что разброс экспертных оценок группы экспертов, которая успешно прошла контрольный тест, существенно уменьшился, в то время как оценки группы экспертов, которая не прошла контрольное тестирование, практически не изменились.

Из результатов табл. 4 также следует:

♦ средняя экспертная оценка этапа II Р1 = 4,46;

♦ средняя оценка экспертов, прошедших контрольный тест, Р2 = 4,13.

Близость значений Р1 и Р2 и значения независимой оценки качества Michel, полученной выше на основе запросов всех экспертов, S = 4,29, говорит о том, что предложенная методика имеет под собой объективную основу.

Более того, подробный анализ протоколов и замечаний, оформленных экспертами при тестировании, позволяет заключить, что несовпадение оценки эксперта с независимой оценкой, вычисленной на основе его запросов, обусловлено прежде всего описанными выше психологическими эффектами “персоны” и “персоналиизации”. Поэтому приблизительное совпадение этих оценок (в пределах 0,2—0,3 балла е-шкалы) позволяет предположить, что оценка эксперта близка адекватной.

Из табл. 4 видно, что на этапе I такое совпадение оценок имеет место для экспертов №1 и 5. На этапе II это справедливо для экспертов №1, 5 и 7. Однако эксперт №1 не смог успешно пройти контрольный тест, и поэтому его оценки можно считать смещенными. В то же время введение этапа II обеспечило совпадение экспертной и независимой оценок для эксперта №7, успешно выполнившего контрольный тест.

На основе проведенного анализа можно сформулировать следующий критерий “состоятельности” эксперта:

наиболее надежные оценки соответствуют экспертам, которые:

♦ успешно проходят контрольный тест;

♦ обеспечивают близость собственной и независимой оценок.

Список литературы

1. Хант Э. Искусственный интеллект: Пер. с англ. М.: Мир, 1978.558 с.

2. Поспелов Д.А. Структура исследований в области искусственного интеллекта. Лекции Всесоюзной шкалы по основным проблемам искусственного интеллекта и интеллектуальным системам. Ч. 1. Минск: 1990. С. 4—28.

3. Будущее искусственного интеллекта / Редакторы-составители К.Е. Левитин, Д.А. Поспелов. М.: Наука, 1991. 302 с.

4. Макаров Н.М. Искусственный интеллект — близкая реальность // Наука в России. 1995. 1’ 5. С. 32—35.

5. Кузнецов В.Е. Представление в ЭВМ неформальных процедур. М.: Наука, 1989. 160 с.

6. Шемакин О.И. Семантика информационной технологии 1/ НТИ. Сер. 2. 1995. №11. С. 5—10.

7.Centre national de la rescherche scientiefique. Laboratoire d’informatique pour la mecanique et les sciences de l’ingenieur. 1995 scientific report. Orsay, 1995. P. 109.

8. Масевич А.Ц., Захаров В.П. Качество информационного продукта автоматизированных библиотечных систем. // Материалы 3-й Международной конференции “Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества. Крым – 96” (Форос, 1—9 июня 1996г.) / Ялта, 1996. Т. 1. С. 178—189.

9. Лахутин Д.Г., Чернявский С.О. О проблеме оценки поисковых систем. Ч. 1. // НТИ. Сер. 2. №1. 1970. С. 24-34.

10. Войскунский В.Г. Некоторые замечания об использовании усредненных значений поисковых характеристик // НТИ. Сер. 2. 1994. №5. С. 8-13.

11. Тарасов Е.В., Балык В.М., Лещенко А.В. Выбор информационно-поисковой системы и оценка ее адоптации // НТИ. Сер. 2 1987. №2. С. 12-16.

12. Искусственный интеллект Кн. 1. Системы общения и экспертные системы: Справочник. / Под ред. Э.В. Попова. М.: Радио и связь, 1990. 462с.

научное издание МГТУ им. Н.Э. Баумана

НАУКА и ОБРАЗОВАНИЕ