Александр Строганов. Применение методов математической лингвистики в решении задач перевода
Мы продолжаем публикацию материалов Первой всероссийской научно-практической конференции переводчиков буддийских текстов «К русскоязычному буддийскому канону», состоявшейся в Институте востоковедения РАН с 6 по 9 ноября 2018 года. В первый день конференции выступления прошли в лекционном формате. Предлагаем вашему вниманию запись дополнительной программы первого дня — лекцию Александра Александровича Строганова «Применение методов математической лингвистики в решении задач перевода».
Математическая лингвистика – это научное направление в области математического моделирования, которое ставит своей задачей использование математических моделей для анализа и обработки текстов на естественных языках. Начало этого направления было положено в середине прошлого века в трудах таких ученых, как Марков, Тьюринг, Виннер, и многих других. В России необходимо отметить труды И.А. Мельчука, который создал теорию «Cмысл ↔ Текст», которая и сейчас не утратила своего значения.
В настоящее время методы математической лингвистики нашли широкое применение в создании экспертных и поисковых систем обработки информации.
Задача
Современные средства вычислительной лингвистики позволяют поставить и решить следующие задачи академического перевода:
1. Разработать полный словарь терминов и общеупотребительных словосочетаний для ограниченного корпуса тибетских текстов. Такой корпус может состоять из текстов в объеме около 500 томов.
2. Разработать программу грамматического анализа, определяющую грамматическую конструкцию фразы на тибетском языке и санскрите с точностью до 96-98%.
3. Создать базу переводов терминов и общеупотребительных словосочетаний в объеме около 500 000 выражений. Такой подход позволяет накапливать уверенно переведенные фрагменты текста. Также накопление переведенных фрагментов позволяет увеличивать вероятность точного перевода и применять актуальный вариант перевода ко всем текстам одновременно. Такой подход уверенно зарекомендовал себя в крупных сервисах перевода.
4. Предоставить переводчику подстрочный перевод фразы с возможностью получить полный отчет словарной базы для каждого словосочетания и базовых слов.
5. На основе грамматического анализа и подстрочного словарного разбора предложить переводчику вариант академического перевода. В таком переводе верно передана грамматическая конструкция, все добавляемые слова заключены в квадратные скобки. На основе такого академического перевода возможно выполнить литературное изложение текста на современном литературном языке.
О докладчике
Сфера деятельности Александра Александровича — ведение проектов по разработке программного обеспечения распознавания рукописного и иероглифического текста, комплексное информационное и маркетинговое обеспечение по договорам с Медицинским центром Управления делами Президента РФ, Академии управления при Президенте РФ, коммерческих компаний.
Им разработана система распознавания печатного иероглифического текста, выполнено несколько грантов. http://code.google.com/p/ocrlib. Создан и функционирует в течение 10 лет портал библиотеки восточных текстов www.buddism.ru с посещаемостью 2,2 млн уникальных IP в год. Выполнено несколько договоров на создание информационных систем, в том числе создания компьютерных центров газет «Совершенно Секретно», «Литературная газета», журнала «Советский экран».
Основное занятие – разработка открытой библиотеки восточных текстов и программ распознавания, анализа и перевода иероглифических текстов.