Lokalizacja Oprogramowania

Podobne dokumenty
Oprogramowanie typu CAT

Lokalizacja Oprogramowania

NIEZBĘDNIK UŻYTKOWNIKA

Programy wspomagające tłumaczenia (CAT)

Praca magisterska Jakub Reczycki. Opiekun : dr inż. Jacek Rumiński. Katedra Inżynierii Biomedycznej Wydział ETI Politechnika Gdańska

Lokalizacja Oprogramowania

Rodzaje plików. Podstawowe definicje.

Zadania systemu operacyjnego. Operacje na plikach i folderach.

I. 1) NAZWA I ADRES: Instytut Badań Edukacyjnych Ministerstwa Edukacji Narodowej, ul. Górczewska 8,

KATEGORIA OBSZAR WIEDZY

Ulotka Informacyjna

Wykaz Zmian do Wersji edok 9.0sp2

Kurs programowania. Wykład 7. Wojciech Macyna. 25 kwietnia 2017

Logowanie do systemu. Rys. 1 Strona logowania

Wykład 4. Tablice. Pliki

ApSIC Xbench: Szybki start wydanie Mariusz Stępień

dlibra 3.0 Marcin Heliński

OPIS PRZEDMIOTU ZAMÓWIENIA. Część nr 4.3

OPIS JAKOŚCIOWY (wymagania minimalne) ZESTAWIENIE PARAMETRÓW GRANICZNYCH

Komunikacja i wymiana danych

Cash Flow System Instrukcja

Na komputerach z systemem Windows XP zdarzenia są rejestrowane w trzech następujących dziennikach: Dziennik aplikacji

Instrukcja obsługi. Generatora CSV

kk-cms System Zarządzania Treścią - prezentacja intensys - agencja interaktywna tel

I. Raport wykonywalności projektu

RÓWNOWAŻNOŚĆ ZAOFEROWANCH PAKIETÓW PROGRAMÓW BIUROWYCH

Przygotowywanie dokumentu do pracy

Poziomy wymagań Konieczny K Podstawowy- P Rozszerzający- R Dopełniający- D Uczeń:

Przedmiotem zamówienia jest dostawa:

PLAN REALIZACJI MATERIAŁU NAUCZANIA Z INFORMATYKI II. Uczeń umie: Świadomie stosować się do zasad regulaminów (P).

Monitoring procesów z wykorzystaniem systemu ADONIS

Dlaczego GML? Gdańsk r. Karol Stachura

extensible Markup Language, cz. 1 Marcin Gryszkalis, mg@fork.pl

Agnieszka Mańkowska Bydgoszcz

jest dostępne na różne systemy operacyjne. Niniejsza instrukcja opisuje podstawowe operacje i opcje niezbędne do rozpoczęcia pracy w tym programie.

Narzędzia Computer Aided Translation jak i po co ich używać

Pytania SO Oprogramowanie Biurowe. Pytania: Egzamin Zawodowy

Wnioski i dyspozycje elektroniczne. Instrukcja użytkownika systemu bankowości internetowej dla firm. BOŚBank24 iboss

1 Moduł Inteligentnego Głośnika

ZARZĄDZANIE DOKUMENTACJĄ. Tomasz Jarmuszczak PCC Polska

Środowisko XML (Extensible Markup Language).

EDYCJA TEKSTU MS WORDPAD

1 Moduł Inteligentnego Głośnika 3

Tomasz Boiński: 1. Pozycjonowanie stron i zastosowanie mod_rewrite

Tomasz Grześ. Systemy zarządzania treścią

Załącznik nr 1e do Formularza Ofertowego

OfficeObjects e-forms

SPIS TREŚCI. Wstęp 2. Terminy 3 A 3 B 4 C 5 D 6 F 7 G 8 I 9 J 10 K 11 L 12 M 13 N 14 O 15 P 16 R 17 S 18 T 20 U 22 W 23 Ź 24.

1. Przypisy, indeks i spisy.

Kartografia multimedialna krótki opis projektu. Paweł J. Kowalski

METODY REPREZENTACJI INFORMACJI

25 lat. Generator wniosków o dofinansowanie ze środków krajowych. Katarzyna Jakubowska Główny specjalista DepartamentRozwoju Systemów Informatycznych

Dokumentacja Użytkownika Systemu

Planowanie przestrzenne

RFP. Wymagania dla projektu. sklepu internetowego B2C dla firmy Oplot

Translax. usługi DTP.

Programowanie Strukturalne i Obiektowe Słownik podstawowych pojęć 1 z 5 Opracował Jan T. Biernat

Generowanie raportów

Serwer pocztowy. QmaiLux. Dokumentacja techniczna mechanizmu książek adresowych (qbook)

Lokalizacja Oprogramowania

1. Logowanie się do panelu Adminitracyjnego

KATEGORIA OBSZAR WIEDZY NR ZADANIA Podstawowe informacje i czynności

Sylabus Moduł 2: Przetwarzanie tekstów

Przedmiotem zamówienia jest zakup oprogramowania biurowego dla Urzędu Miasta Lublin, w liczbie 50 licencji.

Instrukcja użytkowania platformy ONLINE. Akademii Doskonalenia Zawodowego NATUROPATA ADZ Naturopata

Umieszczanie kodu. kod skryptu

E-czeki - zakładanie listy odbiorców, raport uprawnień (Bankowość Elektroniczna dla Klientów Korporacyjnych Getin Noble Bank SA)

MODUŁ 1. Pytania: 1. Przeglądarka internetowa to: a. Google, Chrome, Netscape, Word, WWW b. Chrome, Firefox, Opera, Safari, Edge

Tom 6 Opis oprogramowania Część 8 Narzędzie do kontroli danych elementarnych, danych wynikowych oraz kontroli obmiaru do celów fakturowania

Lokalizacja Oprogramowania

Informator techniczny

finiownia loginów. W zależności od ustawionej opcji użytkownik login:

Instrukcja użytkownika Porównywarki cen Liquid

Deduplikacja danych. Zarządzanie jakością danych podstawowych

System PŁACE. Tworzenie dokumentów PIT i przesyłanie ich do systemu e-deklaracje. Autor : Piotr Zielonka tel

Swordfish Podręcznik użytkownika

Scenariusze obsługi danych MPZP

WYKŁAD 1 METAJĘZYK SGML CZĘŚĆ 1

OŚWIADCZENIE. Ja, niżej podpisany/a (imię i nazwisko autora pracy dyplomowej) Numer albumu: Kierunek studiów:

System generacji raportów

Hurtownie danych wykład 5

Wyszukiwanie plików w systemie Windows

Kampania . Wybrane funkcjonalności: Definiowanie danych nadawcy. Personalizacja. Szablony. Profesjonalne kreacje graficzne

Technologia znaku wodnego dla plików dźwiękowych: Legimi Audio Watermark

2017/2018 WGGiOS AGH. LibreOffice Base

Zmiany w programie VinCent 1.29

Symfonia Produkcja. Kreator raportów. Wersja 2013

Extensible Markup Language (XML) Wrocław, Java - technologie zaawansowane

Instrukcja użytkownika

Instrukcja przygotowania pliku do deponowania

Transkrypt:

mgr inż. Anton Smoliński anton.smolinski@zut.edu.pl Lokalizacja Oprogramowania 21/10/2016 Wykład 2 Narzędzia CAT i formaty danych

Agenda Systemy CAT Podobieństwa tekstu Formaty danych Pamięć tłumaczeń

Systemy CAT Computer Aided Translation Zestaw narzędzi (środowisko) wspomagające pracę tłumaczy Zawiera: Pamięć tłumaczeń Bazę terminologii Analizę tekstu Edytor, import/eksport, różne formaty danych i kodowania i inne

Składowe systemów CAT Pamięć tłumaczeń (translation memory) Baza danych, zawierająca tzw. Jednostki tłumaczeniowe Jednostka tłumaczeniowa zdanie źródłowe i skojarzone z nim tłumaczenie Operuje na całych jednostkach a nie tylko poszczególnych słowach jak np. google translate

Składowe systemów CAT Pamięć tłumaczeń (translation memory) Umożliwia wyszukanie podobnych lub identycznych fragmentów tekstu Możliwość wstawienia ich do tekstu docelowego i/lub modyfikacji Nie jest to system do tłumaczenia maszynowego (translator)

Składowe systemów CAT Baza terminologii (termbase) Baza danych, przechowująca jedno, lub wielojęzyczne terminy i warunki ich użycia W skrócie - elektroniczny słownik Zawiera dodatkowe elementy: Terminy, synonimy, akronimy Definicje, części mowy, rodzaje, kontekst użycia itp.

Składowe systemów CAT Baza terminologii (termbase) Umożliwia zachowanie spójności terminologicznej w obrębie projektu Pomaga rozwiać wątpliwości odnośnie tłumaczonego materiału Stosowanie zatwierdzonych terminów ułatwia docelowemu czytelnikowi rozumienie tekstu Redukcja kosztu poprzez eliminację błędów i rozbieżności związanych z używaniem terminów

Przykład systemów CAT SDL Trados OmegaT Google Translation Toolkit

Cele systemów CAT Tłumaczyć szybciej Tłumaczyć łatwiej Tłumaczyć więcej Tłumaczyć lepiej

Podobieństwo tekstów W większości dokumentów powtarzalność tekstów wynosi 20-70% Powtarzające się zdania, zwroty itp.

Narzędzia analityczne w CAT Specjalne algorytmy oceniają podobieństwo tekstu do tłumaczenia z tekstami znajdującymi się w bazie tłumaczeń Umożliwia to ocenić nakład pracy tłumacza przed rozpoczęciem tłumaczenia Wynik podobieństwa jest prezentowany w postaci klas podobieństwa, wyrażone procentowo

Narzędzia analityczne w CAT

Narzędzia analityczne w CAT Niektóre narzędzia korzystają z logiki rozmytej do określenia podobieństwa tekstów Logika rozmyta stosowana jest tam, gdzie ciężko określić granice poszczególnych klas

Narzędzia analityczne w CAT Należy wyznaczyć tzw. Minimalny próg podobieństwa (zgodności) tekstu Jest to granica, od której opłaca się poprawiać sugerowane przez system CAT tłumaczenie Domyślnie, ok 60-70%, lecz niekiedy można stosować niższe progi

Narzędzia analityczne w CAT Ten sam mechanizm wykorzystywany jest do wyszukiwania (rozmytego/kontekstowego)

Formaty danych

Popularne formaty Binarny txt doc, rtf html, xml, json pdf, tex, xps jpg, gif mp3, wav avi, mpeg4

Pliki binarne Zrzut pamięci z konkretnego programu brak ustandaryzowanego kodowania elementów Takie pliki zazwyczaj można otworzyć tylko w programach w których zostały utworzone Posiadają zapis złożonych struktur danych

Pliki tekstowe (txt) Najprostszy format zapisu Korzystają z ustalonej strony kodowej Zawierają znaki + instrukcje sterujące Nie posiadają meta informacji o tekście

Pliki dokumentów tekstowych (doc, rtf) Najpopularniejszy zapis tekstów Stosowany w edytorach wyswig (word itp.) Prócz samych znaków zawierają meta informacje dotyczące sposobu ich wyświetlania (czcionka, wielkość, kolor) Mogą zawierać inne materiały prócz tekstu (np. obrazki)

Ustandaryzowane pliki dokumentów tekstowych (pdf, tex, xps) Pliki stosowane często w poligrafii Korzystają ze standardów zapisu elementów przygotowane strony wyglądają zawsze tak samo, niezależnie od platformy na której zostaną uruchomione Przygotowywanie materiałów do druku, upublicznianie Utrudniona edycja takich treści

Pliki języków Znaczników (html, xml) Pliki zawierające zbiór znaczników Znaczniki (tagi) posiadają właściwości, atrybuty, nazwy oraz zawartość Interpretery odpowiednich plików pozwalają na odpowiednie wyświetlenie zawartości (np. HTML) XML umożliwia tworzenie własnych znaczników i ich struktury (HTML także należy do XML) Umożliwia zapis zaawansowanych struktur danych (jak pliki binarne), jednocześnie pozwalając na ich odczyt i modyfikację bez konieczności posiadania odpowiedniego oprogramowania

Pozostałe formaty Format określa sposób jakim należy sią posłużyć by poprawnie wyświetlić zawartość pliku Większość programów umożliwia pracę na plikach o różnych formatach Formaty plików można zidentyfikować po ich rozszerzeniach (domyślnie rozszerzenia nie są wymagane) Rozszerzenie pozwala systemowi wybrać jaki program powinien otworzyć dany plik Często uszkodzenie pojedynczego bajtu w pliku powoduje że poprawne odkodowanie nie jest możliwe

Pliki Bilingwalne Grupa plików (nie jest to format) które stosuje się w oprogramowaniu typu CAT Zazwyczaj oparte na XML Zawierają powiązane ze sobą elementy takie jak tekst źródłowy i tłumaczenie, umożliwiając łatwą ich obróbkę Pliki takie posiadają dodatkowe informacje (meta) o formacie źródłowym oraz językach Najpopularniejszym standardem jest format XLIFF

Pliki Bilingwalne headercomment_en=" The default Header Comment "; headercomment_de=" Der Standard-Header-Kommentar "; generator_en=" The \"Generator\" Meta Tag "; generator_de=" Der \"Generator\"-Meta-Tag. "; <?xml version="1.0" encoding="utf-8"?> <value key="headercomment" language="en">the default Header Comment</value> <value key=" generator" language="en"> The "Generator" Meta Tag </value> <value key="headercomment" language="de">der Standard-Header-Kommentar</value> <value key=" generator" language="de"> Der "Generator"-Meta-Tag. </value> <xliff version="1.0"> <file source-language="en" target-language="de" datatype="plaintext" original="messages" date="2011-10-18t18:20:51z" product-name="my-ext"> <header/> <body> <trans-unit id="headercomment" xml:space="preserve"> <source>the default Header Comment.</source> <target>der Standard-Header-Kommentar.</target> </trans-unit> <trans-unit id="generator" xml:space="preserve"> <source>the "Generator" Meta Tag.</source> <target>der "Generator"-Meta-Tag.</target> </trans-unit> </body> </file> </xliff>

Możliwości plików Bilingwalnych Uproszczone konwersje danych Uproszczona Zmiana segmentacji danych Blokada tłumaczeń (nieprzetłumaczalne fragmenty) Wydzielenie tekstów docelowych i źródłowych Wiele dodatkowych informacji (meta)

Pamięć tłumaczeń

Korzyści korzystania z pamięci tłumaczeń Tworzenie i korzystanie z pamięci tłumaczeń znacząco przyspiesza pracę nad tłumaczeniem redukuje jego koszt Dzięki korzystaniu z tych narzędzi nie tłumaczy się dwukrotnie tego samego Dobra pamięć tłumaczeń zwiększa jakość tłumaczonego materiału zwiększa satysfakcję klientów Pamięć tłumaczeń zostaje na kolejne projekty Eliminacja niektórych cykli korekty

Czas pracy nad tłumaczeniem v.1 Pamięć tłumaczeń v.2 Pamięć tłumaczeń v.3 Pamięć tłumaczeń 0 2 4 6 8 10 12 14

Czas pracy nad tłumaczeniem

Czas pracy nad tłumaczeniem Tłumaczenie i sprawdzanie 35% Pamięć tłumaczeń 15% Pozostałe 50% Zarządzanie projektem Przygotowywanie plików Kontrola wersji Identyfikacja plików Obróbka końcowa Dostawa

Serwerowa pamięć tłumaczeń Zcentralizowana baza danych, do której dostęp mają wszyscy członkowie projektu Umożliwia pracę rozproszoną na jednym zasobie pamięci tłumaczeń (tłumacze nie muszą tworzyć własnych baz a korzystają z wspólnej) Zwiększa spójność tłumaczenia Zwiększona odporność na awarie Jednoczesna praca wielu osób na tych samych danych Wzrost efektywność zarządzania projektem lokalizacyjnym Zwiększona organizacja danych w pamięci Szybszy wzrost zawartości bazy

Serwer tłumaczeniowy Zestaw oprogramowania umożliwiający: Tworzenie i przechowywanie centralnej pamięci tłumaczeń Współdzielenie pamięci tłumaczeń Udostępnianie pamięci tłumaczeń innym podmiotom Zarządzanie/kontrola nad zawartością pamięci tłumaczeń (organizowanie danych, sprawdzanie poprawności itp.) Tworzenie projektów i możliwość zdalnego ich prowadzenia

Koniec mgr inż. Anton Smoliński