Udoskonalenie tłumaczenia maszynowego

Naukowcy z UE rozwijają badania z zakresu tłumaczenia maszynowego (MT), które powinny mieść istotne znaczenie dla samej branży, jak i ogółu społeczeństwa. Owocem projektu jest system o ulepszonej architekturze MT, stanowiący bardzo przydane narzędzie dla badaczy, wykładowców i studentów przetwarzania języka naturalnego.

W ramach finansowanego ze środków UE projektu "Testing the portability of techniques to handle dissimilar source and target languages in MT" (ENEUS) połączono wiedzę z dziedziny językoznawstwa, informatyki i przekładu. Prace te mają duże znaczenie dla użytkowników MT, a także dla badaczy zajmujących się interakcjami między językami komputerowymi a ludzkimi.

Uczestnicy projektu ENEUS określili zdolność architektury MT Matxin do obsługi różnych par językowych. Ocenili także skuteczność systemu, w przypadku gdy tekst źródłowy przygotowany jest w języku analitycznym (np. angielskim), a test docelowy w języku aglutynacyjnym (np. baskijskim). Narzędzie Matxin wykazało się skutecznością się w tłumaczeniu między niepodobnymi do siebie językami dzięki wykonywaniu głębokiej analizy, ze szczególnym uwzględnieniem struktury morfologiczno-składniowej.

Po pracach związanych z dostosowaniem systemu tłumaczącego w parze hiszpański-baskijski na parę angielski-baskijski stworzono prototypowy system tłumaczenia maszynowego opartego na regułach (RBMT). W prototypowej bazie znajduje się 35 000 wpisów. System potrafi radzić sobie ze zdaniami twierdzącymi, przeczącymi i pytającymi zawierającymi tryb oznajmujący dla wszystkich czterech paradygmatów podmiot-dopełnienie, a także dla strony czynnej i biernej oraz trybu rozkazującego.

Uczestnicy projektu ENEUS badali cechy aglutynacyjne i szyk wyrazów w języku angielskim oraz baskijskim, fińskim i węgierskim. Te trzy ostatnie języki są językami aglutynacyjnymi.

Przeprowadzone prace wyraźnie dowodzą, że systemy SMT nie są w stanie radzić sobie jednakowo dobrze ze wszystkimi językami aglutynacyjnymi oraz że możliwą skuteczniejszą metodą może być podejście ukierunkowane w większym stopniu na język źródłowy. Badania związane z tworzeniem par angielsko–fińskich, angielsko–węgierskich i angielsko–baskijskich zaowocowały opracowaniem systemów SMT dla wszystkich par.

W ramach programu promocyjnego ENEUS ponad 500 użytkowników wzięło udział w ocenie jakości tłumaczenia. Porównywali oni cztery systemy MT w parze angielski–baskijski, a także nowy translator Google. Wyniki pokazały, że wykorzystujący parametry morfologiczne system SMT radził sobie równie dobrze co translator Google, a te dwa systemy były skuteczniejsze niż wszystkie pozostałe.

Najskuteczniejszy system ENEUS został wykorzystany w Bologna Translation Service na Elhuyar, a użytkownicy będą mogli uzyskiwać dostęp do prototypów ENEUS za pośrednictwem strony internetowej Matxin (prowadzonej przez Elhuyar). RBMT to pierwszy system tłumaczenia maszynowego w parze angielski–baskijski i formacie open source. Programiści mogą z niego skorzystać na stronie sourceforge. Daje on możliwość programowania i prowadzenia badań z wykorzystaniem angielskiego i hiszpańskiego jako języków źródłowych, przekładanych na inne języki.

opublikowano: 2015-02-26
Komentarze


Polityka Prywatności