Adam Twardoch Unicode i OpenType jako nowe metody cyfrowej reprezentacji i prezentacji tekstu

Podobne dokumenty
Nowe technologie typograficznego kształtowania tekstu. ADAM TWARDOCH Fontlab Ltd. MyFonts.com Inc.

Pracownia Komputerowa wyk ad VII

Kodowanie informacji. Przygotował: Ryszard Kijanka

Komunikacja człowiek-komputer

Języki i metodyka programowania. Reprezentacja danych w systemach komputerowych

kodowanie informacji Autor prezentacji: 1 prof. dr hab. Maria Hilczer

Wprowadzenie do informatyki i użytkowania komputerów. Kodowanie informacji System komputerowy

Techniki multimedialne

12. Wprowadzenie Sygnały techniki cyfrowej Systemy liczbowe. Matematyka: Elektronika:

Pracownia komputerowa. Dariusz Wardecki, wyk. VIII

Systemy liczenia. 333= 3*100+3*10+3*1

Wstęp do Informatyki

Cel wykładu. Czcionka font. Wykład 3: MS Word cz. 2. WyŜsza Szkoła MenedŜerska w Legnicy. Informatyka w zarządzaniu Zarządzanie, zaoczne, sem.

INFORMATYKA. Zajęcia organizacyjne. Arytmetyka komputerowa.

Temat: Algorytm kompresji plików metodą Huffmana

Spis treści. Funkcje opracowane dla języków Europy Środkowej

BachoTEX Janusz S. Bień. UNICODE 4.0 Podstawowe pojęcia i terminy slajdy/jsb-gust04-s.

Dodatek Technologie internetowe 1. UTF-8 wg 2. Adresy URL

Architektura systemów komputerowych Laboratorium 5 Kodowanie liczb i tekstów

Pracownia komputerowa. Dariusz Wardecki, wyk. IV

Systemy kodowania. Jolanta Bachan

Kodowanie i kompresja Streszczenie Studia dzienne Wykład 9,

L6.1 Systemy liczenia stosowane w informatyce

PAMIĘĆ OPERACYJNA...107

Technologie Informacyjne

Technologie informacyjne

Instrukcje dla zawodników

Pracownia Komputerowa wykład IV

Dr inż. Grażyna KRUPIŃSKA. D-10 pokój 227 WYKŁAD 2 WSTĘP DO INFORMATYKI

Microsoft Excel 2003 profesjonalna analiza i raportowanie oraz prezentacja danych

Dane, informacja, programy. Kodowanie danych, kompresja stratna i bezstratna

ABC języka HTML i XHTML / Maria Sokół. wyd. 2. Gliwice, cop Spis treści

Programowanie Strukturalne i Obiektowe Słownik podstawowych pojęć 1 z 5 Opracował Jan T. Biernat

4 Standardy reprezentacji znaków. 5 Przechowywanie danych w pamięci. 6 Literatura

Antykwa Toruńska Wersja 2.0

Dla człowieka naturalnym sposobem liczenia jest korzystanie z systemu dziesiętnego, dla komputera natomiast korzystanie z zapisu dwójkowego

4. Oprogramowanie OCR do rozpoznawania znaków 39

Pracownia Komputerowa wykład V

Sposób reprezentacji informacji w systemie. Reprezentacja informacji. Dzięki kodowaniu informacji.

Kody Tunstalla. Kodowanie arytmetyczne

Ł Ł

Arytmetyka komputera

Kodowanie liczb. Kodowanie znaków. Reprezentacja liczb w systemach komputerowych Reprezentacja stałoprzecinkowa. dr inŝ.

INFORMATYKA, TECHNOLOGIA INFORMACYJNA ORAZ INFORMATYKA W LOGISTYCE

Biblioteka standardowa - operacje wejścia/wyjścia

Dlaczego akurat zera i jedynki? Otóż komputery "rozumują" w najprostszych z możliwych kategorii:

Podstawy informatyki. Reprezentacja danych w systemach cyfrowych

3. Jednym z ważniejszych pojęć w edytorach tekstu jest AKAPIT. Co to jest?

Wymagania oceniające dla klasy II 2018/2019

Komputer i urządzenia z nim współpracujące.

OKNO NA ŚWIAT - PRZECIWDZIAŁANIE WYKLUCZENIU CYFROWEMU W MIEŚCIE BRZEZINY

Krzysztof Leszczyński Adam Sosnowski Michał Winiarski. Projekt UCYF

MS Access formularze

Technika Cyfrowa i Mikroprocesorowa

Kodowanie znaków narodowych

1. Ćwiczenia z programem PowerPoint

Programowanie Niskopoziomowe

Podstawy programowania w C++

Komputer IBM PC niezależnie od modelu składa się z: Jednostki centralnej czyli właściwego komputera Monitora Klawiatury

wykład Organizacja plików Opracował: dr inż. Janusz DUDCZYK

Komputer i urządzenia cyfrowe

I. EDUKACJA WCZESNOSZKOLNA

HTML nie opisuje układu strony!!!

Algorytmy i złożoności Wykład 5. Haszowanie (hashowanie, mieszanie)

Pracownia Komputerowa wyk ad IV

Polcode Code Contest PHP-10.09

Szkolenie MS Word i MS Excel

Historia kodowania i format plików XML. Jolanta Bachan

Wykład II. Reprezentacja danych w technice cyfrowej. Studia Podyplomowe INFORMATYKA Podstawy Informatyki

Dane, informacja, programy. Kodowanie danych, kompresja stratna i bezstratna

Wymagania Uczeń zna zasady bezpiecznej pracy z komputerem. Uczeń stosuje się do regulaminu szkolnej pracowni komputerowej.

Wymagania z informatyki na poszczególne oceny przy realizacji programu i podręcznika Informatyka wyd. Operon dla klasy II.

nuevo cms księga identyfikacji wizualnej

Spis treści. Rozdział 1. Wprowadzenie, czyli kilka słów o komputerze / 11

QM65F-BR z oprogramowaniem IWB

O higienie pracy, komputerze, sieciach komputerowych i Internecie

W y m a g a n i a Z. KOMPUTEROWE KLASY II-III SP

Organizacja pamięci VRAM monitora znakowego. 1. Tryb pracy automatycznej

Komputerowa reprezentacja znaków i liczb. dr inż. Izabela Szczęch Politechnika Poznańska Podstawy informatyki

WYKŁAD 1 METAJĘZYK SGML CZĘŚĆ 1

Instrukcja dotycząca kodów kreskowych

Algorytmy zachłanne. dr inż. Urszula Gałązka

16MB - 2GB 2MB - 128MB

Języki i metody programowania I

Struktura dokumentu w arkuszu kalkulacyjnym MS EXCEL

Korekta OCR problemy i rozwiązania

WYMAGANIA EDUKACYJNE NA POSZCZEGÓLNE OCENY. Higiena pracy, komputer, sieci komputerowe i Internet

Scenariusz lekcji. wymienić najpopularniejsze formaty plików; omówić sposób kodowania znaków drukarskich;

Pracownia komputerowa

Pracownia Komputerowa wyk ad V

MS Word ćwiczenia praktyczne

- Wszelka informacja przetwarzana przez system komputerowy jest ciągiem zer i jedynek. Niczym więcej.

1. Przypisy, indeks i spisy.

Nix-Ware.com DOS printer emulator

Rok akademicki: 2014/2015 Kod: CCB s Punkty ECTS: 3. Poziom studiów: Studia I stopnia Forma i tryb studiów: -

Algorytmy i struktury danych. wykład 8

Zadanie 3 Odpowiednikiem kursora z edytora tekstu w arkuszu kalkulacyjnym jest: a) blok komórek b) komórka bieżąca c) komórka A1 d) kolumna A

Odkrywanie CAQDAS : wybrane bezpłatne programy komputerowe wspomagające analizę danych jakościowych / Jakub Niedbalski. Łódź, 2013.

Tematy lekcji informatyki klasa 4a luty/marzec 2013

Sylabus Moduł 2: Przetwarzanie tekstów

Transkrypt:

Ogonki kameleonki Adam Twardoch Unicode i OpenType jako nowe metody cyfrowej reprezentacji i prezentacji tekstu

3 Bogusław Jackowski Znaki na niebie, ziemi i gdzie indziej

4 ASCII 94 drukowalne znaki o kodach z zakresu 0-127 (7 bitów)

e quick brown fox jumps over the lazy dog. Zwei Boxkämpfer jagen Eva quer durch Sylt. 5 ASCII to za mało

6 Kodowanie ośmiobitowe (strona kodowa) Windows 1252 Western/ANSI

7 Kodowanie ośmiobitowe (strona kodowa) MacOS Roman

8 Kodowanie ośmiobitowe (strona kodowa) Windows 1250 (Central European)

9 Kodowanie ośmiobitowe (strona kodowa) MacOS Central Europe

Pięć flakonów wody Экземпляръ. tekst właściwy 10 Bałagan z kodowaniem znaków

Pięć flakonów wody Экземпляръ. tekst właściwy Pięć flakonów wody Ýęçĺěďë đú. tekst w kodowaniu Windows 1250 (Central European) Piкж flakonуw wody Экземпляръ. tekst w kodowaniu Windows 1251 (Cyrillic) 11 Bałagan z kodowaniem znaków

Pięć flakonów wody Экземпляръ. tekst właściwy Pięć flakonów wody Ýęçĺěďë đú. tekst w kodowaniu Windows 1250 (Central European) Piкж flakonуw wody Экземпляръ. tekst w kodowaniu Windows 1251 (Cyrillic) Pięć flakonów wody Экземпляръ. zastosowanie kilku fontów może pomóc, co jednak, gdy przenosimy tekst bez formatowania? 12 Bałagan z kodowaniem znaków

13 Bogusław Jackowski proponuje, by wszystkim znakom poprzydzielać nazwy Ale jak zapisać plik tekstowy na dysku?

Książęcych spóźnień czułość i /K/s/i/aogonek/zdotaccent/eogonek/c/y/c /h/space/s/p/oacute/zacute/n/i/e/nacute /space/c/z/u/lslash/o/sacute/cacute 14 Zapis przy użyciu nazw znaków nie jest zbyt efektywny

練 15 No i jak ponazywać np. znaki hanzi/kandżi? Znak oznaczający ćwiczenie, trening z chińskiego fontu MS Mincho

a g 97 0x0061 á g 225 0x00E1 ą g 261 0x0105 α g 945 0x03B1 я g 1103 0x044F א g 1488 0x05D0 g 9787 0x263B 練 g 32244 0x7DF4 16 Wszystkie znaki ponumerować!

1984 Stworzenie grupy roboczej ISO celem opracowania uniwersalnego zestawu znaków 1987 Stworzenie grupy roboczej Unicode celem opracowania uniwersalnego zestawu znaków (Apple, Xerox) 1990 Publikacja Unicode 1.0 oraz DIS-1 10646 1991 Połączenie Unicode i ISO 10646, powstaje Unicode Inc. 1993 Publikacja połączonych Unicode 1.1 oraz ISO 10646-1:1993 1996 Publikacja Unicode 2.0 zawierającego 38 885 znaków 1998 Publikacja Unicode 2.1, włączającego m.in. znak euro 1999 Publikacja Unicode 3.0 zawierającego 49 194 znaków 2000 Publikacja ISO/IEXC 10646-1:2000 2002 Publikacja Unicode 3.2 zawierającego 95 156 znaków 17 Krótka historia standardu Unicode

Uniwersalność. Zestaw znaków Unicode musi być wystarczająco duży, by zmieściły się w nim wszystkie znaki pisma używane w ogólnej komunikacji tekstowej. Efektywność. Tekst powinien być przechowywany w formie czystej, złożonej z kodów o stałym rozmiarze. Taka forma tekstu łatwo poddaje się obróbce elektronicznej. Oprogramowanie nie powinno musieć przechowywać informacji o stanie ani też przeszukiwać tekstu celem odnalezienia kodów sterujących. Jednolitość. Kod znaku powinien mieć stały rozmiar, co ułatwi przeszukiwanie, sortowanie, wyświetlanie i obróbkę tekstu. Jednoznaczność. Każdy kod zawsze powinien odpowiadać temu samemu znakowi. 18 Zasady, na których opiera się standard Unicode

Znaki pisma w standardzie Unicode zorganizowane są w tzw. obszary (planes). Istnieje 16 obszarów po 65 536 kodów każdy (razem dostępnych jest 1048576 kodów). Kody 0-65 535 przypisane są obszarowi 0, tzw. Basic Multilingual Plane. Każdy kod z tego obszaru wyrażany jest za pomocą sekwencji 16-bitowej. Kody z pozostałych obszarów wyrażane są za pomocą dwóch sekwencji 16-bitowych. 19 Zasady, na których opiera się standard Unicode

20 Fragment zestawu znaków Unicode

21 Fragment zestawu znaków Unicode

22 Fragment zestawu znaków Unicode

a g a a A a a a a a a Znak pisma. Najmniejsza cząstka logiczna języka pisanego (tekstu) posiadająca wartość semantyczną (znaczeniową). Pojęcie znaku pisma odnosi się do abstrakcyjnego znaczenia oraz formy znaku, nie zaś do konkretnej formy graficznej. Glif. Odwzorowanie znaku pisma o określonych walorach graficznych i stylistycznych. Font (czcionka). Zestaw glifów używany do odwzorowywania tekstu. 23 W Unicode kodowane są znaki pisma, nie glify

ביתי S_ł_o_w_o _ _ _ t_o 0053 0142 006F 0077 006F 0020 05D1 05D9 05EA 05D9 0020 0074 006F bet yod tav yod 24 Znaki w Unicode kodowane są w kolejności logicznej, nie graficznej

Zdanie, w którym występują wszystkie litery alfabetu, nazywamy pangramem. Autorem najstarszego polskiego pangramu Pójdźże, kiń tę chmurność w głąb flaszy! jest J. G. H. PAWLIKOWSKI. Autorem filigranowego quasi-pangramu Książęcych spóźnień czułość jest WALDEMAR PAłASZ. Ogłosił on w 1998 roku konkurs na polskie 25 Unicode nie rozwiązuje wszystkich problemów

Zdanie, w którym występują wszystkie litery alfabetu, nazywamy pangramem. Autorem najstarszego polskiego pangramu Pójdźże, kiń tę chmurność w głąb flaszy! jest J. G. H. PAWLIKOWSKI. Autorem filigranowego quasi-pangramu Książęcych spóźnień czułość jest WALDEMAR PAłASZ. Ogłosił on w 1998 roku konkurs na polskie 26 Unicode nie rozwiązuje wszystkich problemów

Zdanie, w którym występują wszystkie litery alfabetu, nazywamy pangramem. Autorem najstarszego polskiego pangramu Pójdźże, kiń tę chmurność w głąb Taszy! jet j. g. h. pawlikowski. Autorem Tligranowego quasi-pangramu Książęcych spóźnień czułość jest waldemar pałasz. Ogłosił on w 1998 roku konkurs na polskie pangramy i quasi- 27 Unicode nie rozwiązuje wszystkich problemów

0 1 2 A B C a b c 0030 0031 0032 0041 0042 0043 0061 0062 0063 a b c onum 0 1 2 smcp A B C swsh 28 Format czcionek OpenType umożliwia przypisanie kilku glifów jednemu znakowi pisma. Warianty są wywoływane przy pomocy tzw. funkcji zecerskich (Layout Features).

Font OpenType Font Type 1 fistaszki i włączenie funkcji liga i dlig fistaszki i zmiana fontu na nie posiadający ligatur (np. Type 1) fistaszki fistaszki i ręczne wstawienie ligatur fistaszki i zmiana fontu na inny (np. Type 1) MGaszki 29 OpenType umożliwia bezbolesną pracę z ligaturami

. Każdy człowiek ma prawo do życia, wolności i bezpieczeństwa swej osoby. Everyone has the right to life, liberty and security of person. 30

1 2 3 4 prawo do życia i bezpieczeństwa 31

f لحق W ل ح ق W tekst Unicode: 0x0020, 0x0642, 0x062D, 0x0644, 0x0020 g W, lam, medi, fina, W f لحق W ل ح ق W f W ل ح ق W procesor Uniscribe g W, lam (init), hah (medi), qaf (fina), W g W, lam.init, hah.medi, qaf.fina, W f لحق W لح ق W f W ل ح ق W procesor Uniscribe g W, lam.init (liga), hah.medi (liga), qaf.fina (liga), W g W, lam.init_hah.medi, qaf.fina, W f لحق W لح ق W f W لح ق W 32 użytkownik g W, lam.init_hah.medi (aalt), qaf.fina, W g W, lam.init_hah.medi.alt, qaf.fina, W

33 Alfabet polski wraz z dwuznakami u góry: Nowy karakter polski, Jan Januszowski 1594 u dołu: Fenway Italic, Matthew Carter 2001

34 Litera ł w piśmie drukowanym i odręcznym Falski 1974

35 Litera ł w piśmie odręcznym Norwid 1865

Włady ł Jagi łł Wťadysť Jagi ťť 36 Litera ł w piśmie odręcznym Caflisch Script Pro, Robert Slimbach

łť 37 OpenType umożliwia współistnienie kilku wariantów jednej litery w foncie

W³adys³aw Jagie³³o W³adys³aw Jagie³³o W³adys³aw Jagieþo 38 Litera ł w pisankach Monotype Script

Típográfica Félix Pó³tawski Toruń Típográfica Félix Pó³tawski Toruñ 39 Warianty akcentów acute i kreska Fenway, Matthew Carter 2001

óó 40 OpenType umożliwia wstawianie wariantów w zależności od języka tekstu

Ogonki kameleonki Adam Twardoch adam@twardoch.com