System tłumaczenia automatycznego opracowany na potrzeby poprawy bezpieczeństwa publicznego

Kierownik projektu:

  • Prof. dr hab. Krzysztof Jassem – Uniwersytet im. Adama Mickiewicza.

Instytucja realizujące projekt:

  • Uniwersytet im. Adama Mickiewicza, Wydział Matematyki i Informatyki.

Cel projektu:

Celem projektu jest opracowanie i wdrożenie systemu tłumaczenia automatycznego wysokiej jakości na potrzeby poprawy bezpieczeństwa międzynarodowego.

Opis projektu:

Projektowany system tłumaczenia automatycznego zapewni wysoką jakość tłumaczenia dzięki wykorzystaniu korpusów z dziedziny bezpieczeństwa publicznego. Korpusy te zostaną wykorzystane w dwojaki sposób:

  • Uzyskany zostanie słownik polsko-angielski fraz o wielkości przekraczającej 1 milion jednostek;
  • Zbudowana zostanie pamieć tłumaczeń, w której przechowywane będzie ponad 8 milionów jednostek tłumaczenia.

System translacji automatycznej może zrealizować postulat niezwykle trudny do osiągnięcia w tłumaczeniu ludzkim: jednorodność tłumaczenia terminologii. Na przykład, z korpusu odpowiadających sobie tekstów z Oficjalnego Dziennika Unii Europejskiej w języku polskim i angielskim, który składa się z ok. 2 500 000 jednostek tłumaczenia, udało się automatycznie wyekstrahować 470 000 różnych fraz języka angielskiego (tradycyjne wielkie słowniki zawierają zaledwie od 50 000 do 80 000 fraz). Wstępna analiza wykazuje, że około 60% z tych fraz stanowią terminy, które powinny zostać przełożone na język polski w jeden określony sposób (tymczasem w analizowanych dokumentach większość terminów posiada dwa lub więcej różnych odpowiedników). Od tłumaczenia dokumentów istotnych dla bezpieczeństwa oczekuje się natomiast, by zdania tej samej treści były zawsze przełożone w ten sam sposób.

Prace będą koncentrować się przede wszystkim nad zapewnieniem wysokiej jakości tłumaczenia z języka angielskiego na język polski i odwrotnie. Wytworzony system umożliwi jednakże tłumaczenie z i na inne języki: w szczególności niemiecki, rosyjski i francuski, czyli języki najważniejsze z punktu widzenia geopolitycznego położenia Polski. W celu uzyskania poprawnej analizy składniowej tych języków, zostaną wykorzystane nowoczesne modele lingwistyczne oparte na istniejących korpusach opisanych składniowo.

Osiągnięte narzędzia będą mogły być wykorzystywane do tłumaczenia w sposób automatyczny dokumentów Unii Europejskiej, np. w Systemie Informacyjnym Schengen. Zastosowanie tłumaczenia automatycznego będzie również bardzo przydatne w czasie międzynarodowych imprez masowych, w znacznym stopniu usprawniając prace organów odpowiedzialnych za bezpieczeństwo publiczne, np. podczas Mistrzostw Europy w piłce nożnej EURO 2012. Prowadzone badania mają na celu stworzenie prototypu systemu tłumaczenia mowy. We współpracy z zespołem prof. Grażyny Demenko, który w ramach PPBW realizuje projekt rozpoznawania mowy ciągłej języka polskiego, zrealizowany został prototyp systemu tłumaczenia mowy języka polskiego i angielskiego.

 

Projekt finansowany przez Narodowe Centrum Badań i Rozwoju

Share on facebook
Share on linkedin
Share on twitter
Share on email
Share on print