Перевод – вид человеческой языковой деятельности, в результате которой текст на одном языке ставится в соответствие тексту на другом языке при обеспечении их смысловыми эквивалентами.
Типы перевода по степени автоматизации:
1) Ручной
2) Автоматизированный
а) Перевод, выполняемый ПК с помощью человека (ПК обращается за справками к человеку);
б) Перевод, выполняемый человеком с помощью ПК:
— В памяти ПК двуязычный словарь и текстовый редактор;
— Системы ТМ ( Translation Memory) – в их основе лежит принцип сбора и хранения фрагментов переведённых человеком текстов на 2 языках, они хранятся в специальном накопителе перевода и служат бесценным подспорьем при последующем выполнении переводов той же тематики.
3) Машинный (автоматический) – выполняемое ПК действие по преобразованию текста на одном языке в текст на другом языке при сохранении эквивалентности).
- Традиционный (выполненный человеком)
- Статистический (машинный)
Первые теоретические разработки по машинному переводу относятся к 30-40-м, но практическое применение идея машинного перевода нашла в 50-е. Первый машинный перевод был выполнен в Джорджстаунском университете в 1954. В Москве первый машинный перевод был выполнен в 1955. Так как большинство слов имеют несколько значений, то основная трудность заключается именно в выборе нужного варианта, для чего человек использует контекст, жизненный опыт, который фактически невозможно формализовать и загрузить в ПК, = идеального машинного перевода быть не может и человек постоянно участвует в редактировании текста.
Вопрос 21.
Типы систем МП:
1) На правилах языка (модель перевода человеком)
а) Структуры систем МП, основанных на первой системе:
Текст для перевода |
Переведённый текст |
Двуязычный словарь |
Морфологический анализ исходного языка |
Синтаксический анализ исходного языка |
Синтаксический синтез переводного языка |
Синтаксические соответствия (структура) |
Морфологический синтез переводного языка |
— В процессе морфологического анализа слов предложения исходного языка каждое слово получает наборы лексико-грамматических признаков ( часть речи, род и т.д.), ПК формирует эти наборы с опорой на специализированные двуязычные словари;
— Синтаксический анализ предложения исходного языка сводится к поиску основных членов предложения;
— Синтаксический синтез заключается:
a. В создании предложения переводного языка определённой синтаксической структуры, определяемой правилами языков;
b. Замена слов исходного языка на их переводные эквиваленты из словарей.
— Морфологический синтез каждого слова предполагаемого родного языка сводится к постановкам каждого слова в нужную форму, для чего ПК использует лексико-грамматические признаки слов переводного языка.
б) Успех СМП зависит от автоматических словарей. Для всех слов закодированного вида указываются грамматические признаки и лексико-семантическая информация.
в) Используются два типа представления лексических единиц в автоматическом словаре:
— В виде словоформ (словарь включает всевозможные лексические единицы и подаётся гнёздами);
— В виде квазиосновы ( числа, стоящие после, условно обозначают наборы суффиксов и окончаний, присоединяемых к основе для получения соответствующей формы, эти числа называются типами формообразования, а сами суффиксы и окончания – машинными окончаниями.
г) Выбор типа лексической единицы зависит от:
— Типа языка (для флективных рациональнее использовать квазиоснову, для языков аналитического типа — словоформу);
— От объёма словаря и вычислительных ресурсов ПК;
— От типа системы СМП (для информативного перевода применяют квазиосноу, для профессионального – словоформу).
д) Преимущества систем первой технологии:
— Синтаксическая и морфологическая точность;
— Стабильность и предсказуемость результатов;
— Возможность настройки на предметную область.
е) Недостатки:
— Трудоёмкость и длительность разработки;
— Необходимость пополнения словарей;
— «Машинный» акцент.
2) Системы второй технологии (основаны на поиске наиболее вероятного перевода с использованием данных из параллельных корпусов);
а) Преимущества:
— Легко построить при наличии двуязычного корпуса;
— Перенос технологии на любые пары языков
— Лексическая гладкость.
б) Недостатки:
— Ограниченность параллельных корпусов и их качество;
— Плохая справляемость с морфологией и синтаксисом;
— Искажение информации.
Обе технологии обладают своими преимуществами и недостатками и не решили задачу по достижению качественного МП. Система Promt разработала «Гибридную технологию перевода». Такой перевод сохраняет преимущества традиционной технологии (формирование синтаксически связанного и грамматически правильного текста) и преимущества статистического метода (быстрое обучение, получение данных из параллельных корпусов в автоматическом режиме и гладкость текстов).
Вопрос 22.
Статьи к прочтению:
Компьютерная лингвистика №6: машинный перевод
Похожие статьи:
-
Перевод чисел в системах счисления с кратными основаниями
Рассмотримправило перевода чисел из восьмеричной системы счисления в двоичную. Для перевода восьмеричного числа в двоичную систему счисления достаточно…
-
Перевод чисел из одной системы счисления в другую.
Лекция №4 Системы счисления. План 1. Непозиционные и позиционные системы счисления. 2. Системы счисления, используемые в электронно-вычислительных…