Библиотека knigago >> Наука, Образование: прочее >> Языкознание >> Прикладное программное обеспечение: системы автоматической обработки текстов

Михаил Георгиевич Мальковский , Татьяна Юрьевна Грацианова , И Н Полякова - Прикладное программное обеспечение: системы автоматической обработки текстов

Прикладное программное обеспечение: системы автоматической обработки текстов
Книга - Прикладное программное обеспечение: системы автоматической обработки текстов.  Михаил Георгиевич Мальковский , Татьяна Юрьевна Грацианова , И Н Полякова  - прочитать полностью в библиотеке КнигаГо
Название:
Прикладное программное обеспечение: системы автоматической обработки текстов
Михаил Георгиевич Мальковский , Татьяна Юрьевна Грацианова , И Н Полякова

Жанр:

Языкознание, Интернет

Изадано в серии:

неизвестно

Издательство:

Издательство МАКС "Пресс"; Издательский отдел факультета вычислительной математики и кибернетики МГУ им. М.В. Ломоносова

Год издания:

ISBN:

5-89407-086-4

Отзывы:

Комментировать

Рейтинг:

Поделись книгой с друзьями!

Помощь сайту: донат на оплату сервера

Краткое содержание книги "Прикладное программное обеспечение: системы автоматической обработки текстов"

Учебное пособие знакомит читателей с одной из наиболее интересных и перспективных задач прикладного программирования - задачей автоматической обработки тестов на естественном языке. Рассмитриваются рациональные сферы применения систме автоматической обработки текстов , проблемы их линвистиеского обеспечения.
Для студентов 2 курса факультета ВМК МГУ в поддержку обязательного лекционного курса "Прикладное программное обеспчение".
Авторы пособия благодарят Владимира Геннадиевича Абрамова и Валерия Ивановича Родина за ценные советы и замечания.

Рецензенты: проф. Р.Л. Смелянский, доц. Л.С. Корухова.

Печатается по решению Редакционно-издательского совета факультета вычислительной математики и кибернетики МГУ им. М.В. Ломоносова.


Читаем онлайн "Прикладное программное обеспечение: системы автоматической обработки текстов". Главная страница.

Михаил Георгиевич Мальковский, Татьяна Юрьевна Грацианова, И. Н. Полякова
Прикладное программное обеспечение: системы автоматической обработки текстов

1. Сферы применения систем автоматической обработки текстов

Системы автоматической обработки текста (т.е. переработки одного вида текста в памяти ЭВМ в другой) по выполняемым функциям (входной и выходной информации) можно классифицировать следующим образом:


Язык входного текста


Язык выходного текста


1


Естественный-1


Естественный-2


2


Искусственный


Естественный


3


Естественный


Искусственный / Естественный


4


Естественный


Естественный + { Искусственный}


К системам первого типа относятся программы машинного перевода, получающие текст на некотором естественном языке и перерабатывающие его в текст на другом естественном языке. Второй тип - системы генерации (синтеза) текстов по некоторому формальному описанию. Системы третьего типа, наоборот, перерабатывают текст на естественном языке в текст на искусственном (индексирование, извлечение смыслового содержания) или в другой текст на естественном языке (реферирование). К последнему классу отнесем программы, занимающиеся проверкой текста, написанного на естественном языке. Они в результате своей работы либо исправляют входной текст автоматически, либо формируют некоторый протокол замечаний.

Естественный язык - сложная, многоплановая система, с множеством правил, внутренних связей, имеющая отношение ко всем аспектам деятельности человека. Точность и правильность работы программ определяется глубиной анализа. Достаточно глубокий анализ пока достигается только для определенных узких предметных областей (из-за специфичности подъязыка такой области: в каждой области свои термины, специфические семантические отношения и т.п.).

Для создания систем, работающих со всем естественным языком без потери глубины анализа, в настоящий момент не хватает либо технических возможностей (быстродействия, памяти), либо теоретической базы (например, пока нет даже единой схемы достаточно полного, глубокого и непротиворечивого описания семантики естественного языка). Однако в коммерческих системах, ввиду того, что предназначаются они для большого количества пользователей, разных предметных областей, принята концепция поверхностного анализа, к тому же и производится такой анализ значительно быстрее. Дальнейшее продвижение вперед, использование естественного языка в практических областях невозможно без оснащения этих систем обширными и глубокими (с точки зрения охвата различных явлений языка) описаниями и моделями, созданными лингвистами-профессионалами.

Эта тенденция прогнозируется многими исследователями и прослеживается на примере развития АОТ-систем, уже в наши дни представляющих коммерческий интерес и использующихся при решении следующих прикладных задач:

1. Machine Translation and Translation Aids - машинный перевод;

2. Text Generation - генерация текста;

3. Localization and Internationalization - локализация и интернационализация;

4. Controlled Language - работа на ограниченном языке;

5. Word Processing and Spelling Correction - создание текстовых документов (ввод, редактирование, исправление ошибок)

6. Information Retrieval - информационный поиск и связанные с ним задачи.

Отметим, что это деление несколько условное, и в реальных системах часто встречается объединение функций. Так, для машинного перевода требуется генерация текста, а при исправлении ошибок приходится заниматься поиском вариантов словоформы и т.д.

1.1. Машинный перевод

Исторически машинный перевод является первой попыткой использования компьютеров для решения невычислительных задач (знаменитый Джорджтаунский эксперимент в США в 1954 г.; работы по машинному переводу в СССР, начавшиеся в 1954 г.). Развитие электронной техники, рост объема памяти и производительности компьютеров создавали иллюзию быстрого решения этой задачи. Идея захватила воображение ученых и администраторов. Практическая цель была простой: загрузить в память компьютера максимально возможный словарь и с его помощью из иноязычных текстов получать текст на родном языке в удобочитаемом виде. Однако первоначальная эйфория по поводу того, что столь трудоемкую работу можно поручить ЭВМ, сменилась разочарованием в связи с абсолютной непригодностью получаемых текстов. Приведем в качестве примера результаты

Оставить комментарий:


Ваш e-mail является приватным и не будет опубликован в комментарии.