Библиотека knigago >> Наука, Образование: прочее >> Языкознание >> Прикладное программное обеспечение: системы автоматической обработки текстов


СЛУЧАЙНЫЙ КОММЕНТАРИЙ

# 1709, книга: Хорьки
автор: Ютаки Мафунэ

"Хорьки" Ютаки Мафунэ - захватывающая и провокационная пьеса, исследующая темные стороны человеческой природы. В центре сюжета находится семья из четырех человек: отец, мать, сын и дочь. Когда в их дом проникает незнакомец, их жизнь рушится. Незнакомец называет себя "хорьком" и начинает методично мучить семью, манипулируя их страхами и секретами. Мафунэ мастерски создает атмосферу саспенса и страха, погружая читателей в кошмар семьи. Персонажи прорисованы глубоко и...

СЛУЧАЙНАЯ КНИГА

Михаил Георгиевич Мальковский , Татьяна Юрьевна Грацианова , И Н Полякова - Прикладное программное обеспечение: системы автоматической обработки текстов

Прикладное программное обеспечение: системы автоматической обработки текстов
Книга - Прикладное программное обеспечение: системы автоматической обработки текстов.  Михаил Георгиевич Мальковский , Татьяна Юрьевна Грацианова , И Н Полякова  - прочитать полностью в библиотеке КнигаГо
Название:
Прикладное программное обеспечение: системы автоматической обработки текстов
Михаил Георгиевич Мальковский , Татьяна Юрьевна Грацианова , И Н Полякова

Жанр:

Языкознание, Интернет

Изадано в серии:

неизвестно

Издательство:

Издательство МАКС "Пресс"; Издательский отдел факультета вычислительной математики и кибернетики МГУ им. М.В. Ломоносова

Год издания:

ISBN:

5-89407-086-4

Отзывы:

Комментировать

Рейтинг:

Поделись книгой с друзьями!

Помощь сайту: донат на оплату сервера

Краткое содержание книги "Прикладное программное обеспечение: системы автоматической обработки текстов"

Учебное пособие знакомит читателей с одной из наиболее интересных и перспективных задач прикладного программирования - задачей автоматической обработки тестов на естественном языке. Рассмитриваются рациональные сферы применения систме автоматической обработки текстов , проблемы их линвистиеского обеспечения.

Для студентов 2 курса факультета ВМК МГУ в поддержку обязательного лекционного курса "Прикладное программное обеспчение".

Авторы пособия благодарят Владимира Геннадиевича Абрамова и Валерия Ивановича Родина за ценные советы и замечания.

Рецензенты: проф. Р.Л. Смелянский, доц. Л.С. Корухова.

Печатается по решению Редакционно-издательского совета факультета вычислительной математики и кибернетики МГУ им. М.В. Ломоносова.

Читаем онлайн "Прикладное программное обеспечение: системы автоматической обработки текстов". [Страница - 26]

удовлетворит, так как явно выбор будет не слишком велик. Этот критерий больше бы подошел для системы, где необходима точность, например, определяющей выбор лекарства при лечении определенной болезни (пусть их будет немного, зато все подходящие), здесь же, наверное, уместен критерий на пересечение.

Дескрипторам могут быть приданы весовые коэффициенты в зависимости от степени их соответствия запросу; при поиске коэффициенты дескрипторов, обнаруженных и в запросе и в документе, суммируются, и документы выдаются в зависимости от значения этой суммы (например, если она превысила некоторое значение). Таким образом, если указать, что наиболее весомыми являются характеристики богатство и могущество, а не доброта и возраст, можно заполучить в женихи Кощея Бессмертного. При использовании весов также может применяться эшелонированная выдача - отобранные документы предъявляются пользователю не в произвольном порядке, а по степени релевантности (по убыванию сумм весов), право окончательного выбора релевантных документов - за пользователем.

Идеальная ИПС должна выдавать документы, содержательно релевантные запросу, и ничего кроме них. Однако на практике это обычно не достигается, наблюдаются молчание ИПС (невыдача некоторого количества релевантных документов) и шум (выдача лишних документов). Массив документов разделяется на выданные и невыданные - по одному критерию, и на релевантные и нерелевантные - по другому.


Таким образом, для каждого запроса получаем 4 группы документов:


Соотношение количества документов в каждой из этих групп определяет эффективность информационного поиска. Для оценки эффективности используют следующие характеристики:


Рв


Полнота выдачи =


tabletable--


х 100%


Рв+Рн


Рв


Точность выдачи =


tabletable--


х 100%


Рв+Нв


Рн


Потери информации =


tabletable--


х 100%


Рв+Рр


Нв


Информационный шум =


tabletable--


х 100 %


Рв+Нв


Рв


Чувствительность =


tabletable--


x 100 %


Рв+Рн


Нн


Специфичность =


tabletable--


x 100%


Нн+Нв


В идеальной ИПС Рн=Нв=0 и поэтому полнота и точность= 100%, а шум = 0 (найдены все документы и ни одного лишнего). В реальных системах коэффициент полноты достигает 70%, а коэффициент точности поиска колеблется в очень широких пределах, иногда снижаясь до 10%. Величины этих коэффициентов зависят от целого ряда факторов: как внутренних свойств собственно поисковой системы (объема и характеристик информационного массива, информационно-поискового языка, критерия выдачи), так и от многих "внешних" условий: степени специфичности информационных запросов, способности пользователя правильно сформулировать свои информационные потребности на естественном языке, правильности построения конкретного запроса, а также от субъективного представления пользователя о том, что такое нужная ему информация. Из-за ошибок и неточностей, возникающих на каждом из этапов работы как пользователя, так и системы, результаты могут сильно отличаться от того, что хотел получить пользователь, обращаясь к ИПС.

Существует понятие устойчивость поиска - характеристика изменения полноты и точности при малых (семантически незначительных) изменениях запроса. Средние значения полноты и точности для конкретной системы обычно вычисляют путем тестирования ее на эталонной базе документов.

В зависимости от требований к количеству и качеству выдаваемой ИПС информации выбираются разные критерии выдачи. Если важно не упустить нужную информацию (патентная экспертиза) - нужно повысить полноту, если надо сократить объем выдаваемой информации (библиотека) - следует улучшить точность.

Английским ученым С.Клевердоном выявлена обратная зависимость между полнотой и точностью поиска в одной системе (при использовании одного и того же информационно-поискового языка), т.е. повышение точности ведет к увеличению шума и, наоборот, при уменьшении шума снижается точность. Улучшить оба эти показателя одновременно можно, только внося изменения в информационно-поисковый язык, делая грамматику и тезаурус более лингвистически развитыми. При этом достижение максимально возможной полноты поиска связано с огромными сложностями. Последние 5-10% требуют такого же усложнения языкового аппарата --">

Оставить комментарий:


Ваш e-mail является приватным и не будет опубликован в комментарии.