Машинний переклад
(Машинний переклад – це переклад тексту з вихідної мови на іншу мову, за допомогою комп`ютерної програми. Комп`ютерний переклад – приклад штучної інтелігенції комп`ютерного століття.
В той час як переклади, виконані людиною, являються частиною прикладної лінгвістики, комп`ютерний переклад відноситься до інформаційних технологій та математичної лінгвістики. Програми комп`ютерного перекладу були написані ще в 1940-х роках для перших комп`ютерів.
Мрія людства
Одна з найдавніших мрій людства – це розуміти мову, без попереднього її вивчення. Винахід комп`ютера, в поєднанні з феноменом “мова”, як наукова дисципліна надав вперше конкретні можливості для здійснення цієї мрії.
Історія
До цього часу військові інтереси впливали на розвиток комп`ютерного перекладу. Одним із перших проектів була російсько-англійська програма перекладу для американської армії. Незважаючи на її погану делитанську якість, програма користувалася великим успіхом, вперше покращила враження про зміст російських документів, без використання послуг посередника (перекладача).
ALPAC-доповідь, створена 1966 року американським міністерством оборони, засвідчила неможливість реалізації комп`ютерного перекладу і викликала майже повний застій досліджень на 20 років. Лише в 80-х роках концерни електрики, такі як Сіменс АТ (“метал”-проект), почали знову працювати над програмою перекладу. Одночасно японський уряд розпочав “проект п`ятого покоління”, за якого комп`ютерний переклад з англійської на японську мову здійснювався на основі мови програмування “Prolog”. Тісна співпраця університетів, концернів електроніки та уряду призвела до створення першої світової комерційної програми перекладу для комп`ютера, а Японія стала таким чином світовим лідером в дослідженні комп`ютерного перекладу. В 90-х роках в Німеччині побачив світ проект під назвою ”Verbmobil“, який підтримувався Федеральним міністерством освіти та науки. Його метою було перенести діалог у мовні пари: німецька-англійська та німецька-японська мови. Система Verbmobil повинна була розпізнавати спонтанну мову, аналізувати запис, перекладати на іноземну мову, потім формувати речення і голосно вимовляти його.
„Dotcom Crash“, серйозна криза акційного ринку в 2000 та 2001 роках, зруйнувала багато маленьких підприємств комп`ютерного перекладу. На сьогоднішній день, в промисловості програмного забезпечення існують ще приблизно 10-20 активних фірм (багато програм вже ліцензовані для контролю їхнього застосування та можливих змін), це означає, що дослідження комп`ютерного перекладу відбуваються найчастіше в університетах.
Сьогодні програми комп`ютерного перекладу складають 1% загального прибутку на перекладацькому ринку.
Однак є багато причин, які підвищують попит програм комп`ютерного перекладу:
- Сьогодні більшість текстів існують в цифровому форматі (і тому їх легко опрацьовувати комп`ютером);
- Завдяки глобалізації потрібен переклад багатьох текстів на багато різних мов. Перекладацький ринок подвоюється кожні чотири роки, під час того як популярність професії усного та письмового перекладача спадає;
- Мови, важкі для вивчення, якими рідко розмовляють західні європейці та американці та мовці яких не володіють західними мовами, стають все важливішими:
- Важливі в економіці: східноазіатські мови (китайська, кореанська, японська та тайландська мови).
- Важливі у військовому секторі: мови міжнародних кризових регіонів, особливо тих, в яких знаходиться американська армія. В 2003 році більшість американських фірм програмного забезпечення створили програми для арабської мови та пушту (мова в Афганістані). В тому ж році DARPA (агентство передових оборонних дослідницьких проектів американського міністерства оборони) проголосила конкурс сліпих для створення програми перекладу невідомої вихідної мови.
Методи перекладу
Всі системи комп`ютерного перекладу використовують двомовні словники і посідають щонайменше модулі базових граматичних правил. Але індивідуальні методи значно відрізняються.
Найважливіші методи комп`ютерного перекладу:
- Прямий комп`ютерний переклад. Слова вихідного тексту перекладаються окремо і в однаковій послідовності. Після цього порядок слів та закінчення пристосовуються до відповідної мови. Це найдавніший і найпростіший метод комп`ютерного перекладу, який створив основу для вище названої системи мовних пар російської та англійської мов.
- Трансфер. Метод трансферу – класичний метод комп`ютерного перекладу, який відбувається трьома кроками: аналіз, трансфер, генерування. Другий крок дав цьому методу ім`я. Спочатку аналізується граматична структура вихідного речення, часто в структурі дерева. Після цього аналізу, залежно від вибору методу трансферу, визначається семантична структура. Потім ці структури переносяться у відповідну мову. В кінці текст, який перекладається, генерується, при цьому ці структури перетворюються, враховуючи граматичні правила, на речення.
- Інтерлінгва. Граматична інформація вихідного тексту спочатку виражається на нейтральній мові “інтерлінгва”, з якої потім утворюється граматична інформація відповідної мови. Метод інтерлінгва продуктивний для перекладу комплексних висловів. Наприклад, речення німецької мови: „Wenn ich arbeiten würde, würde ich mir ein Auto kaufen“ (Якби я працював, я б купив собі машину) не можна перекласти за правилом würde →would, тому що в англійській мові в реченні з if не можна вживати would. Інтерлінгва розпізнала б würde-інформацію як умовний спосіб бажання і переклала б речення, залежно від контексту, з або без would.
- EBMT (Example-Based Machine Translation, машинний переклад, базований на прикладі). Ядро системи EBMT – блок пам`яті перекладу, в якому зберігаються речення або фрази, які часто повторюються та їх переклад. Система статистично вираховує (за допомогою методів інформаційного пошуку), чи наявні перекладені записи схожі на відповідне речення вихідної мови. Генерування перекладу відбувається таким чином, що речення, які найбільше схожі одне на одне, перекладаються і в кінці комбінуються.
- SBMT (Statistics-Based Machine Translation – машинний переклад, на основі статистики). Перед перекладом програма аналізує великий обширний корпус двомовних текстів. Цей процес піклується про те, щоб слова і граматичні форми, знаходились разом на обох мовах, залежно від частоти використання та змістовної близькості. Таким чином, генерується словник та граматичні правила і тексти перекладаються на цій основі. Метод SBMT користується в останній час популярністю, тому що він не ставить за передумову ніяких знань відповідної мови. Переваги SBMT – в лінгвістичних рамках теоритично встановлюються ще точно не пояснені правила, аналізуючи “правильні” частини тексту. Якість перекладу SBMT гірша, ніж інших, основаних на правилах систем, частково, тому що SBMT ще достатньо нова програма. SBMT охоче використовується, наприклад, міністерством оборони Америки, коли йдеться про мови, які потрібно швидко перекласти за допомогою машинного перекладу і не має часу на встановлення правил людиною.
- HAMT (Human-Aided Machine Translation, машинний переклад за допомогою людини). Не тільки комп`ютер перекладає весь документ, але й користувач, який уникає при цьому неясних, двозначних, складних конструкцій (так звана контрольована мова”). Це відбувається завдяки тому, що користувач зазделегіть вкорочує довгі речення або завдяки інтеракції між користувачем та програмою, наприклад, коли користувач повинен обрати значення слова.
На практиці більшість систем – це суміш з декількох методів (домінуючою тут є система трансферу з елементами “Interlingua” та EBMT).
MAHT (Machine-Aided Human Translation, комп`ютеризований переклад) означає, що людина перекладає, а комп`ютер автоматично перевіряє тим часом термінологію, шукаючи її у словнику і порівнюючи її з іншими перекладами (пам`ять перекладу). MAHT – це не машинний переклад.
Якість
Результати програм машинного перекладу часто здаються дивними. Цей ефект можна легко побачити: візьміть просто будь-який текст і внесіть його в безкоштовну програму перекладу, щоб перекласти його на вашу рідну мову.
Як можна оцінити якість машинного перекладу?
Замість того щоб керуватися лише інтуїтивним непереконливим враженням “цей переклад просто жахливий”, дослідники машинного перекладу використовують шкалу для оцінювання якості перекладу. Машинні переклади оцінюються по реченню; нормована кількість речень – якість всього тексту. В більшості випадків евальвація проводиться носієм відповідної мови і виражається у вигляді індексу. В Японії використовується 5-бальна система:
- 4 пункти: дуже зрозуміло, майже бездоганно; ніяких очевидних помилок;
- 3 пункти: одне-два неправильні слова; але загалом зрозуміло;
- 2 пункти: можна визначити, про що йшла мова;
- 1 пункт: речення не розкриває зміст/значення. Це трапляється частково або повністю через неправильний переклад граматики.
- 0 пунктів: речення не має сенсу; має вигляд випадково змішаних хаотичних слів.
Для великих перекладів дослідники машинного перекладу використовують автоматичні алгоритми оцінювання, такі як BLEU-Score, який спирається на людські розумові здібності, що знаходяться в його основі.
Занадто високі очікування?
Інша проблема, відносно машинного перекладу, це зависокі очікування від нього. Як наслідок – сучасні покращення досліджень машинного перекладу здаються недостатніми. Однією з передумов функціювання машинного перекладу є зрозумілість вихідного тексту та можливість створення повністю точного перекладу цього тексту людиною. Як можна очікувати від комп`ютера, що він розуміє, а також перекладає мову, яку не розуміє людина?
Більшість лінгвістів припускають, що повне розуміння мови передбачає повне розуміння людського розуму. Деякі вважають, що бездоганна система машинного перекладу повинна симулювати процеси людського розуму. Як вище згадано, одна з переваг SBMT – це те, що ця проблема не враховується, тому що теоретично незрозумілі правила можуть бути виведеними.
Практичні проблеми
Для часто неякісного машинного перекладу існують вагомі причини, які частково можна усунути:
- “Дешеві програми”. Багато хто оцінює машинний переклад за безкоштовними програмами перекладу, наявними в Інтернеті, як Yahoo! або Google. Часто це старіші версії в кращому випадку не безкоштовних (і кращих) програм або лише швидких (і поганих за якістю) програм.
- Користувачі розуміють вихідну мову. Особливо якщо це переклади між західними мовами, користувач розуміє до певної міри вихідну мову і тому помічає невідповідності легше, ніж хтось, чиє розуміння тексту залежить виключно від перекладу.
- Стиль мови. Кожна мова має власний стиль, який має в свою чергу свої власні особливості, не описані лінгвістами. Системи машинного перекладу дають особливо погані результати, якщо вони перекладають тексти для яких вони не призначені. Це найчастіше літературні тексти, розмовна мова або іноді технічні тексти (наприклад, відомі машинні переклади інструкцій по користуванню з Японії).
- Відсутність зв`язків з іншими науками. Машинний переклад – галузь комп`ютерної лінгвістики, але більшість дослідників займаються лише однією з обох галузей – або інформатикою, або лінгвістикою – без достатніх знань іншої галузі. В той час як перед лінгвістами часто виникають проблеми в програмуванні, комп`ютерні лінгвісти посідають недостатню кількість знань щодо феномену “мова”. Тому основну частину програм комп`ютерного перекладу становить структурована модель мови, яка не враховує здобутки лінгвістики останніх 50 років.
- Ніякого обміну між промисловістю та академіками. Комерційні підприємства машинного перекладу працюють охочіше з програмістами, які посідають практичні знання, ніж з дослідниками практичного перекладу з університетів, які, здається, концентрують свою увагу лише на непотрібних деталях.
- Дуже маленькі та/або неточні словники. Зі змінами в суспільстві та науці, словниковий запас мови збільшується щодня. Крім цього, існує багато багатозначних слів (омоніми), які можна розрізнити завдяки аналізу контексту. Недоліки словників, як у вище наведеному прикладі мовної пари російська-німецька мови, викликають високий процент неякісних перекладів. Більші програми перекладу посідають словники з декількома мільйонами записів та різносторонніми значеннями. Але детальний та безпомилковий зміст таких великих словників для програм машинного перекладу має занадто великий обсяг роботи для маленьких фірм.
- Відсутність правил трансферу. Багато граматичних явищ дуже відрізняються одне від одного, в залежності від мови або взагалі не існують у певних мовах. Щоб розв’язати ці проблеми, потрібне проведення лінгвістичного дослідження. Звичайно, через великі витрати, фірми машинного перекладу хочуть уникнути цього.
- Комп`ютерно-лінгвістичні проблеми. Машинний переклад зустрічається з багатьма проблемами, які також можуть виникнути в інших комп`ютерно-лінгвістичних програмах, наприклад, розуміння енциклопедичних знань.