Михаил Георгиевич Мальковский , Татьяна Юрьевна Грацианова , И Н Полякова - Прикладное программное обеспечение: системы автоматической обработки текстов
Название: | Прикладное программное обеспечение: системы автоматической обработки текстов | |
Автор: | Михаил Георгиевич Мальковский , Татьяна Юрьевна Грацианова , И Н Полякова | |
Жанр: | Языкознание, Интернет | |
Изадано в серии: | неизвестно | |
Издательство: | Издательство МАКС "Пресс"; Издательский отдел факультета вычислительной математики и кибернетики МГУ им. М.В. Ломоносова | |
Год издания: | 2000 | |
ISBN: | 5-89407-086-4 | |
Отзывы: | Комментировать | |
Рейтинг: | ||
Поделись книгой с друзьями! Помощь сайту: донат на оплату сервера |
Краткое содержание книги "Прикладное программное обеспечение: системы автоматической обработки текстов"
Учебное пособие знакомит читателей с одной из наиболее интересных и перспективных задач прикладного программирования - задачей автоматической обработки тестов на естественном языке. Рассмитриваются рациональные сферы применения систме автоматической обработки текстов , проблемы их линвистиеского обеспечения.
Для студентов 2 курса факультета ВМК МГУ в поддержку обязательного лекционного курса "Прикладное программное обеспчение".
Авторы пособия благодарят Владимира Геннадиевича Абрамова и Валерия Ивановича Родина за ценные советы и замечания.
Рецензенты: проф. Р.Л. Смелянский, доц. Л.С. Корухова.
Печатается по решению Редакционно-издательского совета факультета вычислительной математики и кибернетики МГУ им. М.В. Ломоносова.
Читаем онлайн "Прикладное программное обеспечение: системы автоматической обработки текстов". [Страница - 24]
Фактографическая ИПС обеспечивает выдачу непосредственно фактических сведений, затребованных потребителем в информационном запросе. Поисковый массив состоит из фактографических записей, т.е. из описаний фактов, извлеченных из документов и представленных на некотором формальном языке.
Например, если бы Служба знакомств решила создать документальную ИПС, поисковый массив состоял бы непосредственно из писем ее клиентов типа: "Меня зовут Илья Муромец. Просидел я сиднем на печи 33 года, а теперь у царя в охранниках...". Для создания фактографической ИПС по письмам клиентов заполнялись бы таблицы вида: "Фамилия - Муромец. Имя - Илья. Возраст - 33. Должность - секьюрити". Соответственно и запросом в первом случае будет служить часть письма клиента с пожеланиями относительно его партнера: "Невесту хочу моложе меня, но премудрую и чтоб хозяйством домашним интересовалась", а во втором - составленная по ней таблица: "Возраст ‹33, интеллект - высокий, интересы - домашнее хозяйство".
В настоящее время фактографические ИПС (как специальный класс поисковых систем) практически не разрабатываются, выполняемые ими действия реализуются с помощью штатных СУБД. Далее, говоря ИПС, будем иметь в виду документальную информационно-поисковую систему.
Одним из популярных способов перевода документа на внутренний язык системы является координатное индексирование - присвоение документу набора ключевых слов или кодов, определяющих его содержание. Возможны два способа индексирования: свободное, когда непосредственно из текста документа извлекаются ключевые слова без учета всех видоизменений их форм и отношений между ними; и контролируемое, когда в поисковый образ документа включаются только те слова, которые зафиксированы в информационно-поисковом тезаурусе, где указаны их синонимические, морфологические и ассоциативные отношения.
4.2. Тезаурус
Тезаурус - специально организованный нормативный словарь лексических единиц информационно-поискового и естественного языка. Лексическими единицами информационно-поискового языка являются дескрипторы. Дескриптор ставится в однозначное соответствие группе ключевых слов естественного языка, отобранных из текста определенной предметной области. Например, в качестве дескриптора может быть выбрано любое (предпочтительно наиболее часто используемое или короткое) ключевое слово или словосочетание или же цифровой код. Многозначному слову естественного языка соответствует несколько дескрипторов, а нескольким синонимичным словам и выражениям - один дескриптор. Тезаурус учитывает семантические связи между словами: антонимы, синонимы, гипонимы, гиперонимы, ассоциации.Синонимы - слова (словосочетания), разные по написанию, но одинаковые (в рассматриваемой предметной области) по значению: ведьма = злая волшебница. Антонимы - слова с противоположным значением: добрый - злой. Гипоним - термин, являющийся частным случаем другого, более общего понятия. Гипероним - термин, наоборот, являющийся общим для ряда других, частных понятий.
Солдат = гипоним (военный); человек= гипероним (военный)
гипероним (вкусно готовит)= гипероним (содержит дом в чистоте)=
гипероним (умеет шить)= хорошая хозяйка.
В Государственном стандарте на "Тезаурус информационно-поисковый одноязычный" определены следующие типы связей:
– род-вид: средства передвижения - телега, ковер-самолет, сапоги-скороходы, печка
– часть-целое: стена, дверь, курья ножка - части избушки;
– причина-следствие: опустил меч - голова с плеч;
– сырье-продукт: сталь - меч;
– административная иерархия: султан - визирь - стражник;
– процесс-субъект: казнить - палач;
– процесс-объект: казнить - жертва;
– функциональное сходство: печка Емели - джип Cherokee;
– свойство - носитель свойства: огнедышащий - дракон;
– антонимия;
– синонимия.
Ассоциативное отношение является объединением других отношений, не входящих --">Книги схожие с «Прикладное программное обеспечение: системы автоматической обработки текстов» по жанру, серии, автору или названию:
Михаил Алексеевич Шелякин - Язык и человек. К проблеме мотивированности языковой системы Жанр: Культурология и этнография Год издания: 2012 |
Александр Константинович Матвеев - К интерпретации одной условной топонимической системы Жанр: Языкознание Год издания: 1986 |
Владимир Иванович Даль, Анатолий Николаевич Филиппов - 1000 русских пословиц и поговорок Жанр: Языкознание |
Умберто Эко - Сказать почти то же самое. Опыты о переводе Жанр: Языкознание Год издания: 2015 |