Naukowcy z UE rozwijają badania z zakresu tłumaczenia maszynowego (MT), które powinny mieść istotne znaczenie dla samej branży, jak i ogółu społeczeństwa. Owocem projektu jest system o ulepszonej architekturze MT, stanowiący bardzo przydane narzędzie dla badaczy, wykładowców i studentów przetwarzania języka naturalnego.
W ramach finansowanego ze środków UE projektu "Testing the portability
of techniques to handle dissimilar source and target languages in MT"
(ENEUS) połączono wiedzę z dziedziny językoznawstwa, informatyki i
przekładu. Prace te mają duże znaczenie dla użytkowników MT, a także dla
badaczy zajmujących się interakcjami między językami komputerowymi a
ludzkimi.
Uczestnicy projektu ENEUS określili zdolność architektury MT Matxin
do obsługi różnych par językowych. Ocenili także skuteczność systemu, w
przypadku gdy tekst źródłowy przygotowany jest w języku analitycznym
(np. angielskim), a test docelowy w języku aglutynacyjnym (np.
baskijskim). Narzędzie Matxin wykazało się skutecznością się w
tłumaczeniu między niepodobnymi do siebie językami dzięki wykonywaniu
głębokiej analizy, ze szczególnym uwzględnieniem struktury
morfologiczno-składniowej.
Po pracach związanych z dostosowaniem systemu tłumaczącego w parze
hiszpański-baskijski na parę angielski-baskijski stworzono prototypowy
system tłumaczenia maszynowego opartego na regułach (RBMT). W
prototypowej bazie znajduje się 35 000 wpisów. System potrafi radzić
sobie ze zdaniami twierdzącymi, przeczącymi i pytającymi zawierającymi
tryb oznajmujący dla wszystkich czterech paradygmatów
podmiot-dopełnienie, a także dla strony czynnej i biernej oraz trybu
rozkazującego.
Uczestnicy projektu ENEUS badali cechy aglutynacyjne i szyk wyrazów w
języku angielskim oraz baskijskim, fińskim i węgierskim. Te trzy
ostatnie języki są językami aglutynacyjnymi.
Przeprowadzone prace wyraźnie dowodzą, że systemy SMT nie są w
stanie radzić sobie jednakowo dobrze ze wszystkimi językami
aglutynacyjnymi oraz że możliwą skuteczniejszą metodą może być podejście
ukierunkowane w większym stopniu na język źródłowy. Badania związane z
tworzeniem par angielsko–fińskich, angielsko–węgierskich i
angielsko–baskijskich zaowocowały opracowaniem systemów SMT dla
wszystkich par.
W ramach programu promocyjnego ENEUS ponad 500 użytkowników wzięło
udział w ocenie jakości tłumaczenia. Porównywali oni cztery systemy MT w
parze angielski–baskijski, a także nowy translator Google. Wyniki
pokazały, że wykorzystujący parametry morfologiczne system SMT radził
sobie równie dobrze co translator Google, a te dwa systemy były
skuteczniejsze niż wszystkie pozostałe.
Najskuteczniejszy system ENEUS został wykorzystany w Bologna
Translation Service na Elhuyar, a użytkownicy będą mogli uzyskiwać
dostęp do prototypów ENEUS za pośrednictwem strony internetowej Matxin
(prowadzonej przez
Elhuyar).
RBMT to pierwszy system tłumaczenia maszynowego w parze
angielski–baskijski i formacie open source. Programiści mogą z niego
skorzystać na stronie
sourceforge.
Daje on możliwość programowania i prowadzenia badań z wykorzystaniem
angielskiego i hiszpańskiego jako języków źródłowych, przekładanych na
inne języki.