Михаил Георгиевич Мальковский , Татьяна Юрьевна Грацианова , И Н Полякова - Прикладное программное обеспечение: системы автоматической обработки текстов
Название: | Прикладное программное обеспечение: системы автоматической обработки текстов | |
Автор: | Михаил Георгиевич Мальковский , Татьяна Юрьевна Грацианова , И Н Полякова | |
Жанр: | Языкознание, Интернет | |
Изадано в серии: | неизвестно | |
Издательство: | Издательство МАКС "Пресс"; Издательский отдел факультета вычислительной математики и кибернетики МГУ им. М.В. Ломоносова | |
Год издания: | 2000 | |
ISBN: | 5-89407-086-4 | |
Отзывы: | Комментировать | |
Рейтинг: | ||
Поделись книгой с друзьями! Помощь сайту: донат на оплату сервера |
Краткое содержание книги "Прикладное программное обеспечение: системы автоматической обработки текстов"
Учебное пособие знакомит читателей с одной из наиболее интересных и перспективных задач прикладного программирования - задачей автоматической обработки тестов на естественном языке. Рассмитриваются рациональные сферы применения систме автоматической обработки текстов , проблемы их линвистиеского обеспечения.
Для студентов 2 курса факультета ВМК МГУ в поддержку обязательного лекционного курса "Прикладное программное обеспчение".
Авторы пособия благодарят Владимира Геннадиевича Абрамова и Валерия Ивановича Родина за ценные советы и замечания.
Рецензенты: проф. Р.Л. Смелянский, доц. Л.С. Корухова.
Печатается по решению Редакционно-издательского совета факультета вычислительной математики и кибернетики МГУ им. М.В. Ломоносова.
Читаем онлайн "Прикладное программное обеспечение: системы автоматической обработки текстов". [Страница - 1]
- 1
- 2
- 3
- . . .
- последняя (27) »
Михаил Георгиевич Мальковский, Татьяна Юрьевна Грацианова, И. Н. Полякова
Прикладное программное обеспечение: системы автоматической обработки текстов
1. Сферы применения систем автоматической обработки текстов
Системы автоматической обработки текста (т.е. переработки одного вида текста в памяти ЭВМ в другой) по выполняемым функциям (входной и выходной информации) можно классифицировать следующим образом:
Язык входного текста
Язык выходного текста
1
Естественный-1
Естественный-2
2
Искусственный
Естественный
3
Естественный
Искусственный / Естественный
4
Естественный
Естественный + { Искусственный}
К системам первого типа относятся программы машинного перевода, получающие текст на некотором естественном языке и перерабатывающие его в текст на другом естественном языке. Второй тип - системы генерации (синтеза) текстов по некоторому формальному описанию. Системы третьего типа, наоборот, перерабатывают текст на естественном языке в текст на искусственном (индексирование, извлечение смыслового содержания) или в другой текст на естественном языке (реферирование). К последнему классу отнесем программы, занимающиеся проверкой текста, написанного на естественном языке. Они в результате своей работы либо исправляют входной текст автоматически, либо формируют некоторый протокол замечаний.
Естественный язык - сложная, многоплановая система, с множеством правил, внутренних связей, имеющая отношение ко всем аспектам деятельности человека. Точность и правильность работы программ определяется глубиной анализа. Достаточно глубокий анализ пока достигается только для определенных узких предметных областей (из-за специфичности подъязыка такой области: в каждой области свои термины, специфические семантические отношения и т.п.).
Для создания систем, работающих со всем естественным языком без потери глубины анализа, в настоящий момент не хватает либо технических возможностей (быстродействия, памяти), либо теоретической базы (например, пока нет даже единой схемы достаточно полного, глубокого и непротиворечивого описания семантики естественного языка). Однако в коммерческих системах, ввиду того, что предназначаются они для большого количества пользователей, разных предметных областей, принята концепция поверхностного анализа, к тому же и производится такой анализ значительно быстрее. Дальнейшее продвижение вперед, использование естественного языка в практических областях невозможно без оснащения этих систем обширными и глубокими (с точки зрения охвата различных явлений языка) описаниями и моделями, созданными лингвистами-профессионалами.
Эта тенденция прогнозируется многими исследователями и прослеживается на примере развития АОТ-систем, уже в наши дни представляющих коммерческий интерес и использующихся при решении следующих прикладных задач:
1. Machine Translation and Translation Aids - машинный перевод;
2. Text Generation - генерация текста;
3. Localization and Internationalization - локализация и интернационализация;
4. Controlled Language - работа на ограниченном языке;
5. Word Processing and Spelling Correction - создание текстовых документов (ввод, редактирование, исправление ошибок)
6. Information Retrieval - информационный поиск и связанные с ним задачи.
Отметим, что это деление несколько условное, и в реальных системах часто встречается объединение функций. Так, для машинного перевода требуется генерация текста, а при исправлении ошибок приходится заниматься поиском вариантов словоформы и т.д.
1.1. Машинный перевод
Исторически машинный перевод является первой попыткой использования компьютеров для решения невычислительных задач (знаменитый Джорджтаунский эксперимент в США в 1954 г.; работы по машинному переводу в СССР, начавшиеся в 1954 г.). Развитие электронной техники, рост объема памяти и производительности компьютеров создавали иллюзию быстрого решения этой задачи. Идея захватила воображение ученых и администраторов. Практическая цель была простой: загрузить в память компьютера максимально возможный словарь и с его помощью из иноязычных текстов получать текст на родном языке в удобочитаемом виде. Однако первоначальная эйфория по поводу того, что столь трудоемкую работу можно поручить ЭВМ, сменилась разочарованием в связи с абсолютной непригодностью получаемых текстов. Приведем в качестве примера результаты --">- 1
- 2
- 3
- . . .
- последняя (27) »
Книги схожие с «Прикладное программное обеспечение: системы автоматической обработки текстов» по жанру, серии, автору или названию:
Андрей Борисович Есин - Русская литература в оценках, суждениях, спорах: хрестоматия литературно-критических текстов Жанр: Языкознание Год издания: 2011 |
Владимир Иванович Даль, Анатолий Николаевич Филиппов - 1000 русских пословиц и поговорок Жанр: Языкознание |
Коллектив авторов - Основы русской деловой речи Жанр: Языкознание Год издания: 2015 |