mgr inż. Anton Smoliński anton.smolinski@zut.edu.pl Lokalizacja Oprogramowania 21/10/2016 Wykład 2 Narzędzia CAT i formaty danych
Agenda Systemy CAT Podobieństwa tekstu Formaty danych Pamięć tłumaczeń
Systemy CAT Computer Aided Translation Zestaw narzędzi (środowisko) wspomagające pracę tłumaczy Zawiera: Pamięć tłumaczeń Bazę terminologii Analizę tekstu Edytor, import/eksport, różne formaty danych i kodowania i inne
Składowe systemów CAT Pamięć tłumaczeń (translation memory) Baza danych, zawierająca tzw. Jednostki tłumaczeniowe Jednostka tłumaczeniowa zdanie źródłowe i skojarzone z nim tłumaczenie Operuje na całych jednostkach a nie tylko poszczególnych słowach jak np. google translate
Składowe systemów CAT Pamięć tłumaczeń (translation memory) Umożliwia wyszukanie podobnych lub identycznych fragmentów tekstu Możliwość wstawienia ich do tekstu docelowego i/lub modyfikacji Nie jest to system do tłumaczenia maszynowego (translator)
Składowe systemów CAT Baza terminologii (termbase) Baza danych, przechowująca jedno, lub wielojęzyczne terminy i warunki ich użycia W skrócie - elektroniczny słownik Zawiera dodatkowe elementy: Terminy, synonimy, akronimy Definicje, części mowy, rodzaje, kontekst użycia itp.
Składowe systemów CAT Baza terminologii (termbase) Umożliwia zachowanie spójności terminologicznej w obrębie projektu Pomaga rozwiać wątpliwości odnośnie tłumaczonego materiału Stosowanie zatwierdzonych terminów ułatwia docelowemu czytelnikowi rozumienie tekstu Redukcja kosztu poprzez eliminację błędów i rozbieżności związanych z używaniem terminów
Przykład systemów CAT SDL Trados OmegaT Google Translation Toolkit
Cele systemów CAT Tłumaczyć szybciej Tłumaczyć łatwiej Tłumaczyć więcej Tłumaczyć lepiej
Podobieństwo tekstów W większości dokumentów powtarzalność tekstów wynosi 20-70% Powtarzające się zdania, zwroty itp.
Narzędzia analityczne w CAT Specjalne algorytmy oceniają podobieństwo tekstu do tłumaczenia z tekstami znajdującymi się w bazie tłumaczeń Umożliwia to ocenić nakład pracy tłumacza przed rozpoczęciem tłumaczenia Wynik podobieństwa jest prezentowany w postaci klas podobieństwa, wyrażone procentowo
Narzędzia analityczne w CAT
Narzędzia analityczne w CAT Niektóre narzędzia korzystają z logiki rozmytej do określenia podobieństwa tekstów Logika rozmyta stosowana jest tam, gdzie ciężko określić granice poszczególnych klas
Narzędzia analityczne w CAT Należy wyznaczyć tzw. Minimalny próg podobieństwa (zgodności) tekstu Jest to granica, od której opłaca się poprawiać sugerowane przez system CAT tłumaczenie Domyślnie, ok 60-70%, lecz niekiedy można stosować niższe progi
Narzędzia analityczne w CAT Ten sam mechanizm wykorzystywany jest do wyszukiwania (rozmytego/kontekstowego)
Formaty danych
Popularne formaty Binarny txt doc, rtf html, xml, json pdf, tex, xps jpg, gif mp3, wav avi, mpeg4
Pliki binarne Zrzut pamięci z konkretnego programu brak ustandaryzowanego kodowania elementów Takie pliki zazwyczaj można otworzyć tylko w programach w których zostały utworzone Posiadają zapis złożonych struktur danych
Pliki tekstowe (txt) Najprostszy format zapisu Korzystają z ustalonej strony kodowej Zawierają znaki + instrukcje sterujące Nie posiadają meta informacji o tekście
Pliki dokumentów tekstowych (doc, rtf) Najpopularniejszy zapis tekstów Stosowany w edytorach wyswig (word itp.) Prócz samych znaków zawierają meta informacje dotyczące sposobu ich wyświetlania (czcionka, wielkość, kolor) Mogą zawierać inne materiały prócz tekstu (np. obrazki)
Ustandaryzowane pliki dokumentów tekstowych (pdf, tex, xps) Pliki stosowane często w poligrafii Korzystają ze standardów zapisu elementów przygotowane strony wyglądają zawsze tak samo, niezależnie od platformy na której zostaną uruchomione Przygotowywanie materiałów do druku, upublicznianie Utrudniona edycja takich treści
Pliki języków Znaczników (html, xml) Pliki zawierające zbiór znaczników Znaczniki (tagi) posiadają właściwości, atrybuty, nazwy oraz zawartość Interpretery odpowiednich plików pozwalają na odpowiednie wyświetlenie zawartości (np. HTML) XML umożliwia tworzenie własnych znaczników i ich struktury (HTML także należy do XML) Umożliwia zapis zaawansowanych struktur danych (jak pliki binarne), jednocześnie pozwalając na ich odczyt i modyfikację bez konieczności posiadania odpowiedniego oprogramowania
Pozostałe formaty Format określa sposób jakim należy sią posłużyć by poprawnie wyświetlić zawartość pliku Większość programów umożliwia pracę na plikach o różnych formatach Formaty plików można zidentyfikować po ich rozszerzeniach (domyślnie rozszerzenia nie są wymagane) Rozszerzenie pozwala systemowi wybrać jaki program powinien otworzyć dany plik Często uszkodzenie pojedynczego bajtu w pliku powoduje że poprawne odkodowanie nie jest możliwe
Pliki Bilingwalne Grupa plików (nie jest to format) które stosuje się w oprogramowaniu typu CAT Zazwyczaj oparte na XML Zawierają powiązane ze sobą elementy takie jak tekst źródłowy i tłumaczenie, umożliwiając łatwą ich obróbkę Pliki takie posiadają dodatkowe informacje (meta) o formacie źródłowym oraz językach Najpopularniejszym standardem jest format XLIFF
Pliki Bilingwalne headercomment_en=" The default Header Comment "; headercomment_de=" Der Standard-Header-Kommentar "; generator_en=" The \"Generator\" Meta Tag "; generator_de=" Der \"Generator\"-Meta-Tag. "; <?xml version="1.0" encoding="utf-8"?> <value key="headercomment" language="en">the default Header Comment</value> <value key=" generator" language="en"> The "Generator" Meta Tag </value> <value key="headercomment" language="de">der Standard-Header-Kommentar</value> <value key=" generator" language="de"> Der "Generator"-Meta-Tag. </value> <xliff version="1.0"> <file source-language="en" target-language="de" datatype="plaintext" original="messages" date="2011-10-18t18:20:51z" product-name="my-ext"> <header/> <body> <trans-unit id="headercomment" xml:space="preserve"> <source>the default Header Comment.</source> <target>der Standard-Header-Kommentar.</target> </trans-unit> <trans-unit id="generator" xml:space="preserve"> <source>the "Generator" Meta Tag.</source> <target>der "Generator"-Meta-Tag.</target> </trans-unit> </body> </file> </xliff>
Możliwości plików Bilingwalnych Uproszczone konwersje danych Uproszczona Zmiana segmentacji danych Blokada tłumaczeń (nieprzetłumaczalne fragmenty) Wydzielenie tekstów docelowych i źródłowych Wiele dodatkowych informacji (meta)
Pamięć tłumaczeń
Korzyści korzystania z pamięci tłumaczeń Tworzenie i korzystanie z pamięci tłumaczeń znacząco przyspiesza pracę nad tłumaczeniem redukuje jego koszt Dzięki korzystaniu z tych narzędzi nie tłumaczy się dwukrotnie tego samego Dobra pamięć tłumaczeń zwiększa jakość tłumaczonego materiału zwiększa satysfakcję klientów Pamięć tłumaczeń zostaje na kolejne projekty Eliminacja niektórych cykli korekty
Czas pracy nad tłumaczeniem v.1 Pamięć tłumaczeń v.2 Pamięć tłumaczeń v.3 Pamięć tłumaczeń 0 2 4 6 8 10 12 14
Czas pracy nad tłumaczeniem
Czas pracy nad tłumaczeniem Tłumaczenie i sprawdzanie 35% Pamięć tłumaczeń 15% Pozostałe 50% Zarządzanie projektem Przygotowywanie plików Kontrola wersji Identyfikacja plików Obróbka końcowa Dostawa
Serwerowa pamięć tłumaczeń Zcentralizowana baza danych, do której dostęp mają wszyscy członkowie projektu Umożliwia pracę rozproszoną na jednym zasobie pamięci tłumaczeń (tłumacze nie muszą tworzyć własnych baz a korzystają z wspólnej) Zwiększa spójność tłumaczenia Zwiększona odporność na awarie Jednoczesna praca wielu osób na tych samych danych Wzrost efektywność zarządzania projektem lokalizacyjnym Zwiększona organizacja danych w pamięci Szybszy wzrost zawartości bazy
Serwer tłumaczeniowy Zestaw oprogramowania umożliwiający: Tworzenie i przechowywanie centralnej pamięci tłumaczeń Współdzielenie pamięci tłumaczeń Udostępnianie pamięci tłumaczeń innym podmiotom Zarządzanie/kontrola nad zawartością pamięci tłumaczeń (organizowanie danych, sprawdzanie poprawności itp.) Tworzenie projektów i możliwość zdalnego ich prowadzenia
Koniec mgr inż. Anton Smoliński