Dodatek Technologie internetowe 1. UTF-8 wg 2. Adresy URL

Podobne dokumenty
Komunikacja człowiek-komputer

Ó Ą ź ć Ę Ń Ę


Ł Ż

ć ć Ą Ź Ż Ą Ż ć Ą Ż Ź

Ł Ś Ś Ó ń

ż ń ń ź ź ź

Ż Ń Ś Ł Ó Ś ń Ż ń ć Ż ć ń ź Ż ć ć ć ń ń ć Ż Ż ć

ń ć Ł Ą

Ł Ż Ń Ń ć

Ą Ś Ó


Ł Ę Ż Ą Ęć Ń Ń Ł Ę

Ł ć Ł ć ć ć ć Ń ć ć

Ł Ł ń ć Ą

Ż Ż

Ę ż Ó Ł Ść ą ą ą Ą ć ż ą ż ń ą ć ż ć Ę ą ż ą ą ż ą ź ą ń ą ń ą ą ż ć

ź ć

ć

Ó Ó Ę ź

ż ż Ę Ę Ą Ó

ń ń ń ż ć Ł ż ż ń ż Ą ń Ż ż

Ę Ł Ź Ł

Ł ć Ś ć Ś ć ć Ę ź ć ć

ś ś Ż ś Ń Ń Ę Ł ć ś Ł

Ą Ó Ź Ą Ź Ź

Ł Ś Ę Ł Ś Ś Ś Ą ń ń Ó

ń ż ń ń Ą ń ż ż ń ż ż ż Ż ń Ą ń

Ś ź Ś Ś

Ł Ł Ę Ż ź

Ść ć Ż ć Ż Ś ć ż ń ż Ż ć Ś Ż ń

Ę Ł ź Ś ź ź ź

Ż ć ć Ż ź ć ć ż ć ż ć Ż ć Ą ń Ż ć Ę

ć ę ę ć ę Ś ę Ń ę ź ę ę ę Ś ę ę ę Ó Ł Ł Ę Ą ę

Ą ź Ą Ą Ś Ó Ą

Ń Ń ć ć Ł Ć Ń ć Ę

Ż Ż Ł

ć ć Ę Ó Ś ż ż Ś ż ż ż Ęć ż ć ć ż ż

Ż Ą ź ź ź ź

ć ć

ż ć Ń Ł Ż Ść Ść ć Ż Ść Ż ć ć Ż ź Ś ć ć Ó ć ć Ść

ń ż ś

ż ó ś Ą ć ó ó ó ś ś ś ó ś Ł ś

ź Ł Ą Ż Ń Ń Ś Ń ć

Ś ź ź Ł Ó Ń

ć ż Ż Ż Ą Ż Ż Ż

Ń ź ź ź ź Ś ź ź Ś ź

ć ć Ść ć Ść ć ć ć ć

ź Ż Ż Ś ć ć Ł ż Ż Ż Ż Ż Ł Ż Ł Ż Ż Ż ż ż ż ż ż ż Ż ć Ż Ś Ś Ń Ść

ż Ś ż ż ć ć Ś Ź Ą

ć Ś

ż ż Ż Ł Ż Ś ć ż ć ż Ś

Ą Ł Ę Ń Ą Ó ŚĆ Ś ć Ó ń ć ŚĆ ć ć

Ó Ó Ę

Ą Ź ć Ń Ą ć Ź Ź

Ż Ę ź Ó

Ż Ź Ź ź Ż Ż Ź Ą Ą Ż ź Ś Ż Ż Ś Ź Ś Ą

ź ź

Ó Ż ż Ć ż ż ż Ó Ę Ę Ó Ó ż Ó Ł ż Ł

Ę Ł ź ź ć ź ć Ń ć ź ź Ł

Ł Ą Ó Ł ć Ą ć ć

Ł Ś ś

ń

Ł Ń ś ń ć Ź ś ń

ć Ą ź ć ć Ż ź ź Ą ź ć ź ć ź

Ę Ę Ę Ś Ł Ł Ł Ś

Ó Ó ć

Ó Ą Ł Ń ń ć ń ń ć Ń Ń ń Ń ń Ń ć ć ć Ń ź ź

Ż ć ć Ł Ł ć ć Ł ć ć

ź Ę

ć ć Ł ć ć ć Ę Ę

ż Ż Ż Ż Ż Ż

ć ż ć Ń ć ć Ó ć ń ć ń ć ć

Ź ź Ź

ż ś ż ś Ę ś ż ś ś ś Ł ś ż Ł ż ś ś ś ż

ć ź ć Ó

ĘŚ ĘŚ Ó Ę

ść ś ń ś ś ź ś ć Ą ś Ą ś ń ś ń ń ń ń Ń ć ź ń ś ń ń Ń ć ń ś ś

Ó Ź ż ć Ą ż ż ć Ę ź Ą ż ż ż ż ż

ż ć ć ż Ś ż ż ć ć ć ż ż

ć ć ć ć ć ć ć ć ć ć ź

ź Ś Ż Ę Ś

Ę ń Ó ć ć Ó Ó

ó ó ó ó ó ó ń ó ó ó ó ń ó ó ń ń ó ó ó Ś ń ó ń ó ó ó

Ó Ń Ś Ą Ś Ń Ś Ś


Ą Ś Ń Ś Ą Ś Ń

Ó Ż ć ć ć ć ć ć ć Ę ć ć ć

Ś Ś

Ś Ń ć Ę Ą Ę Ś Ń Ó

Ć ź Ś Ż ź Ę Ś

Ą ń ź ż ż Ś ż ć Ś Ó ń ń

Ż ś

Ą Ę Ń Ą ń Ń ń ń Ą ń

Ł Ł Ó Ś Ż Ń Ł

Ó ć Ń ć ć

Ę ć ć Ń Ś ć

Ś Ó Ł

ś ó ó ż

Ą

Transkrypt:

Dodatek Technologie internetowe http://pl.wikipedia.org/wiki/utf-8 1. UTF-8 wg 2. Adresy URL 1

Dodatek Technologie internetowe http://pl.wikipedia.org/wiki/utf-8 1. UTF-8 2

Zalety i wady Zalety 1. KaŜdy tekst w ASCII jest tekstem w UTF-8. 2. śaden znak spoza ASCII nie zawiera bajtu z ASCII. 3. Zachowuje porządek sortowania UCS-4 (UTF-32) 4. Typowy tekst ISO-Latin-X rozrasta się w bardzo niewielkim stopniu po przekonwertowaniu do UTF-8. 5. Nie zawiera bajtów 0xFF i 0xFE, więc łatwo moŝna go odróŝnić od tekstu UTF-16. 6. O kaŝdym bajcie wiadomo czy jest początkiem znaku, czy teŝ leŝy w jego środku 7. Nie ma problemów z kodowaniem od najstarszego bajtu z lewej strony do prawej lub z prawej do lewej. Wady 1. Znaki z języków: chiński, japoński, koreański, zajmują po 3 bajty zamiast 2 w kodowaniach narodowych. 2. Znaki alfabetów niełacińskich zajmują po 2 bajty zamiast jednego w kodowaniach narodowych. 3. W chwili obecnej (2006 rok) większość zastosowań w Internecie (poczta elektroniczna, usenet, HTML) wymaga deklarowania UTF-8 zgodnie ze standardem MIME. Dopiero w XHTML UTF-8 jest kodowaniem domyślnym. 4. UTF-8 nie uŝywa przesunięć zasięgów, co stanowi dodatkowe utrudnienie dla implementacji UTF-8 (szczegóły dalej) 3

Sposób kodowania Mapowanie znaków Unikodu na ciągi bajtów: 0x00 do 0x7f - bity 0xxxxxxx, gdzie iksy to bity od najwyŝszego licząc 0x80 do 0x7FF - bity 110xxxxx 10xxxxxx 0x800 do 0xFFFF - bity 1110xxxx 10xxxxxx 10xxxxxx 0x10000 do 0x1FFFFF - bity 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx 0x200000 do 0x3FFFFFF - bity 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 0x4000000 do 0x7FFFFFFF - bity 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx Oznacza to, Ŝe ten sam znak moŝna zapisać na kilka sposobów. Przykładowo znak ASCII / (ukośnik 00101111) moŝna zapisać jako: 00101111 11000000 10101111 11100000 10000000 10101111 itd. 4

Znaki polskie kodowane w UTF-8 Kod duŝej litery znak Kod małej litery znak Ą Ą ą ą Ć Ć ć ć Ę Ę ę ę Ł Ł ł ł Ń Ń ń ń Ś Ś ś ś Ź Ź ź ź Ż ś ż Ŝ Ó Ó ó ó 5

http://validator.w3.org/ 6

7

8

Przykład kodowania bezposredniego znaków polskich w kodzie UTF-8 <!--Komentarz--> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/tr/xhtml1/dtd/xhtml1-strict.dtd"> <html xmlns="http://www.w3.org/1999/xhtml" xml:lang="pl" lang="pl"> <head> <meta http-equiv="content-type" content="text/html;charset=utf-8"/> <title> UTF-8 </title> </head> <body> <p>ą, ą, Ć, ć, Ę, ę, Ł, ł, Ń, ń, Ś, ś, Ź, ź, Ż, ż, Ó, ó </p> </body> </html> 9

Efekt kodowania bezpośredniego 10

Dodatek Technologie internetowe http://pl.wikipedia.org/wiki/utf-8 1. UTF-8 2. Adresy URL 11

Uniform Resource Locator -URL 1. URL (ang. Uniform Resource Locator) oznacza ujednolicony format adresowania zasobów (informacji, danych, usług), stosowany w Internecie i w sieciach lokalnych. 2. URL najczęściej kojarzony jest z adresami stron WWW, ale ten format adresowania słuŝy do identyfikowania wszelkich zasobów dostępnych w Internecie. Większość przeglądarek internetowych umoŝliwia dostęp nie tylko do stron WWW, ale takŝe do innych zasobów w Internecie, po wpisaniu do przeglądarki poprawnego adresu URL danego zasobu. 3. Standard URL opisany jest w dokumencie http://tools.ietf.org/html/rfc1738 12

Część zaleŝna od rodzaju usługi zwykle przybiera jedną z postaci: W przypadku zasobów będących plikami: //adres_serwera:port adres_serwera:port/sciezka_dost sciezka_dostępu jeŝeli port jest standardowy dla danego rodzaju zasobu, jest pomijany i stosuje się formę uproszczoną: //adres_serwera adres_serwera/sciezka_dost sciezka_dostępu Niekiedy moŝe być wymagane podanie nazwy uŝytkownika i hasła: //nazwa_u nazwa_użytkownika:has ytkownika:hasło@adres_serwera o@adres_serwera/sciezka_dost sciezka_dostępu ale najczęściej zarówno nazwa_użytkownika, jak i hasło nie są wymagane i mogą być pominięte. W przypadku zasobów nie będących plikami (konta shellowe, adresy email itp.): nazwa_uzytkownika@adres_serwera Często oprogramowanie, szczególnie przeglądarki internetowe, akceptuje takŝe niepoprawne formy adresów pominięty separator // czy określenie protokołu http://, np.: adres_serwera/sciezka_dostepu Przykładowy URL: http://www.wikipedia.com/wiki/url gdzie:http protokół dostępu do zasobu www.wikipedia.com adres serwera wiki/url ścieŝka dostępu do zasobu 2007-10-20