Jednostki informacji cyfrowej. Kodowanie znaków. Kodowanie liczb. Reprezentacja liczb w systemach komputerowych. Reprezentacja stałoprzecinkowa

Podobne dokumenty
Jednostki informacji cyfrowej. Kodowanie znaków. Kodowanie liczb. dr inż. Jarosław Forenc

dr inż. Jarosław Forenc

dr inż. Jarosław Forenc

Kodowanie liczb. Kodowanie znaków. Reprezentacja liczb w systemach komputerowych Reprezentacja stałoprzecinkowa. dr inŝ.

dr inż. Jarosław Forenc

dr inż. Jarosław Forenc

Jednostki informacji - bit. Kodowanie znaków: ASCII, ISO 8859, Unicode liczb: NKB (BCN), U2, BCD. Liczby zmiennoprzecinkowe standard IEEE 754

dr inż. Jarosław Forenc

Pracownia Komputerowa wyk ad VII

Ochrona danych osobowych. Pozycyjne systemy liczbowe. Jednostki informacji. Kodowanie znaków ASCII, ISO 8859, Unicode. Kodowanie liczb NKB, U2, BCD

Komunikacja człowiek-komputer

Kodowanie informacji. Przygotował: Ryszard Kijanka

dr inż. Jarosław Forenc

Systemy pozycyjne. Systemy niepozycyjne. Kodowanie liczb. Kodowanie znaków. dr inż. Jarosław Forenc

Jednostki informacji cyfrowej. Kodowanie znaków. Język C. dr inż. Jarosław Forenc. FLOPS (FLoating point Operations Per Second)

Podstawy informatyki. Reprezentacja danych w systemach cyfrowych

Kody liczbowe - Naturalny Kod Binarny (NKB) Kody liczbowe - Kod BCD. Kody liczbowe - Przechowywanie liczb w kodzie BCD

Informatyka 1. Wykład nr 3 ( ) Politechnika Białostocka. - Wydział Elektryczny. dr inŝ. Jarosław Forenc

Dane, informacja, programy. Kodowanie danych, kompresja stratna i bezstratna

Kody liczbowe - Naturalny Kod Binarny (NKB) Kody liczbowe - Kod BCD. Kody liczbowe - Przechowywanie liczb w kodzie BCD

Kodowanie liczb. Reprezentacja liczb całkowitych. Standard IEEE 754. dr inż. Jarosław Forenc

Architektura systemów komputerowych Laboratorium 5 Kodowanie liczb i tekstów

Informatyka 1. Wykład nr 3 ( ) Politechnika Białostocka. - Wydział Elektryczny. dr inŝ. Jarosław Forenc

konsultacje: dr inŝ. Jarosław Forenc Dydaktyka - slajdy prezentowane na wykładzie

Wprowadzenie do informatyki i użytkowania komputerów. Kodowanie informacji System komputerowy

Języki i metodyka programowania. Reprezentacja danych w systemach komputerowych

dr inż. Paweł Myszkowski

Techniki multimedialne

Sposób reprezentacji informacji w systemie. Reprezentacja informacji. Dzięki kodowaniu informacji.

Pracownia komputerowa. Dariusz Wardecki, wyk. VIII

Dane, informacja, programy. Kodowanie danych, kompresja stratna i bezstratna

Komputerowa reprezentacja znaków i liczb. dr inż. Izabela Szczęch Politechnika Poznańska Podstawy informatyki

Dla człowieka naturalnym sposobem liczenia jest korzystanie z systemu dziesiętnego, dla komputera natomiast korzystanie z zapisu dwójkowego

PODSTAWY INFORMATYKI. Informatyka? - definicja

kodowanie informacji Autor prezentacji: 1 prof. dr hab. Maria Hilczer

12. Wprowadzenie Sygnały techniki cyfrowej Systemy liczbowe. Matematyka: Elektronika:

Kodowanie informacji. Kody liczbowe

INFORMATYKA. Zajęcia organizacyjne. Arytmetyka komputerowa.

DZIESIĘTNY SYSTEM LICZBOWY

Informatyka 1. Wykład nr 3 ( ) Politechnika Białostocka. - Wydział Elektryczny. dr inŝ. Jarosław Forenc

Podstawy informatyki. Izabela Szczęch. Politechnika Poznańska

Teoretyczne Podstawy Informatyki

Systemy liczenia. 333= 3*100+3*10+3*1

4 Standardy reprezentacji znaków. 5 Przechowywanie danych w pamięci. 6 Literatura

Politechnika Białostocka, Wydział Elektryczny, Katedra Elektrotechniki Teoretycznej i Metrologii ul. Wiejska 45D, Białystok

ARCHITEKTURA SYSTEMÓW KOMPUTEROWYCH

Technologie Informacyjne

1.1. Pozycyjne systemy liczbowe

Liczby całkowite. Wstęp do Informatyki Podstawy arytmetyki komputerowej c.d. Kod BCD (Binary Coded Decimal) Arytmetyka liczb całkowitych

Dr inż. Grażyna KRUPIŃSKA. D-10 pokój 227 WYKŁAD 2 WSTĘP DO INFORMATYKI

Wprowadzenie do architektury komputerów systemy liczbowe, operacje arytmetyczne i logiczne

Pracownia Komputerowa wykład IV

Stan wysoki (H) i stan niski (L)

Podstawy programowania w C++

Arytmetyka komputera

Wstęp do informatyki. Pojęcie liczebności. Zapis liczb. Liczenie bez liczebników. Podstawy arytmetyki komputerowej. Cezary Bolek

Podstawy Informatyki. Inżynieria Ciepła, I rok. Wykład 5 Liczby w komputerze

Cyfrowy zapis informacji. 5 grudnia 2013 Wojciech Kucewicz 2

Pracownia Komputerowa wyk ad IV

Architektura komputerów

Jednostki informacji. Bajt moŝna podzielić na dwie połówki 4-bitowe nazywane tetradami (ang. nibbles).

Wstęp do informatyki. Pojęcie liczebności. Liczenie bez liczebników. Podstawy arytmetyki komputerowej. Cezary Bolek

Kodowanie liczb całkowitych w systemach komputerowych

SYSTEMY LICZBOWE. SYSTEMY POZYCYJNE: dziesiętny (arabski): 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 rzymski: I, II, III, V, C, M

ARCHITEKTURA KOMPUTERÓW. Reprezentacja danych w komputerach

Pracownia komputerowa. Dariusz Wardecki, wyk. IV

Technika Cyfrowa i Mikroprocesorowa

Wstęp do Informatyki

Architektura komputerów

RODZAJE INFORMACJI. Informacje analogowe. Informacje cyfrowe. U(t) U(t) Umax. Umax. R=(0,Umax) nieskończony zbiór możliwych wartości. Umax.

Podstawy informatyki (2)

Systemy kodowania. Jolanta Bachan

O oszczędnym dziennikarzu, czyli czym jest

Arytmetyka komputera. Na podstawie podręcznika Urządzenia techniki komputerowej Tomasza Marciniuka. Opracował: Kamil Kowalski klasa III TI

Podstawy Informatyki dla Nauczyciela

Technika cyfrowa Wprowadzenie

Systemy liczbowe. 1. Przedstawić w postaci sumy wag poszczególnych cyfr liczbę rzeczywistą R = (10).

Podstawy Informatyki. Metalurgia, I rok. Wykład 3 Liczby w komputerze

Podstawy działania układów cyfrowych...2 Systemy liczbowe...2 Kodowanie informacji...3 Informacja cyfrowa...4 Bramki logiczne...

Reprezentacja stałoprzecinkowa. Reprezentacja zmiennoprzecinkowa zapis zmiennoprzecinkowy liczby rzeczywistej

Politechnika Białostocka, Wydział Elektryczny, Katedra Elektrotechniki Teoretycznej i Metrologii ul. Wiejska 45D, Białystok

Architektura komputerów

Naturalny kod binarny (NKB)

ARYTMETYKA BINARNA. Dziesiątkowy system pozycyjny nie jest jedynym sposobem kodowania liczb z jakim mamy na co dzień do czynienia.

Pracownia Komputerowa wykład VI

L6.1 Systemy liczenia stosowane w informatyce

Programowanie Niskopoziomowe

Cyfrowy zapis informacji

Arytmetyka binarna - wykład 6

Instrukcja do ćwiczeń nr 4 typy i rodzaje zmiennych w języku C dla AVR, oraz ich deklarowanie, oraz podstawowe operatory

Liczby rzeczywiste są reprezentowane w komputerze przez liczby zmiennopozycyjne. Liczbę k można przedstawid w postaci:

Komputer IBM PC niezależnie od modelu składa się z: Jednostki centralnej czyli właściwego komputera Monitora Klawiatury

Cel wykładu. Cel wykładu. Cel wykładu, cd. Cel wykładu, cd. Cel wykładu, cd. Z. Postawa, "Podstawy Informatyki II" Strona: 1 z 6

Informatyka kodowanie liczb. dr hab. inż. Mikołaj Morzy

Technologie Informatyczne Wykład IV/V

Dodatek Technologie internetowe 1. UTF-8 wg 2. Adresy URL

Pracownia Komputerowa wykład V

Jednostki miar stosowane w sieciach komputerowych. mgr inż. Krzysztof Szałajko

POLITECHNIKA GDAŃSKA. Podstawy programowania Cz. I TYPOWE KOMPUTERY I PROCESORY OD R.1946 SYSTEMY WBUDOWANE KOMPUTERY, KTÓRYCH NIE WIDAĆ

Informatyka, Ćwiczenie Uruchomienie Microsoft Visual C++ Politechnika Rzeszowska, Wojciech Szydełko. I. ZałoŜenie nowego projektu

Transkrypt:

Rok akademicki 2012/2013, Wykład nr 2 2/65 Plan wykładu nr 2 Informatyka 1 Politechnika Białostocka - Wydział Elektryczny Elektrotechnika, semestr II, studia niestacjonarne I stopnia Rok akademicki 2012/2013 Wykład nr 2 (16.03.2013) Jednostki informacji cyfrowej bit, bajt, słowo, FLOPS Kodowanie znaków ASCII, ISO/IEC 646, ISO 8859, EBCDIC, Unicode Kodowanie liczb NKB, BCD, 2 z 5, Graya Reprezentacja liczb w systemach komputerowych Reprezentacja stałoprzecinkowa reprezentacja liczb bez znaku dr inż. Jarosław Forenc Rok akademicki 2012/2013, Wykład nr 2 3/65 Rok akademicki 2012/2013, Wykład nr 2 4/65 Jednostki informacji - bit Jednostki informacji - bit Bit (ang. binary digit) - podstawowa jednostka informacji stosowana w informatyce i telekomunikacji Wielokrotności bitów: Określa najmniejszą ilość informacji potrzebną do stwierdzenia, który z dwóch możliwych stanów przyjął układ Bit przyjmuje jedną z dwóch wartości: 0 (zero) 1 (jeden) Bit jest tożsamy z cyfrą w systemie dwójkowym Oznaczenia bitów: standard IEEE 1541 (2002) - mała litera b standard IEC 60027 - bit Przedrostki binarne - wprowadzone w 1998 roku w celu odróżnienia przedrostków o mnożniku 1000 od przedrostków o mnożniku 1024

Rok akademicki 2012/2013, Wykład nr 2 5/65 Rok akademicki 2012/2013, Wykład nr 2 6/65 Jednostki informacji - bajt Jednostki informacji - bajt Bajt (ang. byte) - najmniejsza adresowalna jednostka informacji pamięci komputerowej składająca się z bitów W pierwszych komputerach bajt mógł mieć inną liczbę bitów: 4, 6, 7, 9, 12 W praktyce przyjmuje się, że jeden bajt to 8 bitów 8-bitowy bajt: koniec 1956 r. - pierwsze zastosowanie 1964 r. - uznanie za standard (IBM System/360) Inna nazwa 8-bitowego bajtu - oktet Najczęściej stosowanym skrótem dla bajtu jest wielka litera B Za pomocą jednego bajtu można zapisać 256 różnych wartości: 0000 0000 0 0000 0001 1 1111 1101 253 0000 0010 2 1111 1110 254 11111111 255 B używane jest także do oznaczania bela - jednostki miary wielkości ilorazowych zamiast bela częściej używa się jednostki podwielokrotnej - decybela (db) więc nie ma problemu z rozróżnieniem obu jednostek Rok akademicki 2012/2013, Wykład nr 2 7/65 Rok akademicki 2012/2013, Wykład nr 2 8/65 Jednostki informacji - tetrada Jednostki informacji - bajt Bajt 8-bitowy można podzielić na dwie połówki 4-bitowe nazywane tetradami (ang. nibbles) Wielokrotności bajtów: Rozróżniamy bardziej znaczącą (górną) i mniej znaczącą (dolną) tetradę Spotyka się też określenie strefa i cyfra

Rok akademicki 2012/2013, Wykład nr 2 9/65 Rok akademicki 2012/2013, Wykład nr 2 10/65 Jednostki informacji - bajt Jednostki informacji - bajt Przedrostki binarne (dwójkowe) nie zostały przyjęte przez wszystkie środowiska zajmujące się informatyką Producenci nośników pamięci korzystają z przedrostków dziesiętnych Seagate ST1000DM003 (1 TB) Drive specification: formatted capacity: 1000 GB (1 TB) guaranteed sectors: 1,953,525,168 bytes per sector: 4096 (4K physical emulated at 512-byte sectors) Pojemność dysku: Z ulotki Dysk Desktop HDD - zestawienie danych, Seagate: w przypadku oznaczania pojemności dysków, jeden gigabajt (oznaczany także jako GB ) jest równy jednemu miliardowi bajtów, a jeden terabajt (oznaczany także jako TB ) jest równy jednemu bilionowi bajtów 1.953.525.168 512 1.000.204.886.016 bajtów 1.000.204.886.016 / (1024) 976.762.584 kb 1.000.204.886.016 / (1024 1024) 953.870 MB 1.000.204.886.016 / (1024 1024 1024) 931,5 GB Rok akademicki 2012/2013, Wykład nr 2 11/65 Rok akademicki 2012/2013, Wykład nr 2 12/65 Słowo maszynowe (słowo) FLOPS Słowo maszynowe (słowo - ang. word) - jednostka danych używana przez określony komputer (określoną architekturę) Słowo składa się odgórnie określonej liczby bitów, nazywanej długością lub szerokością słowa (najczęściej jest to potęga 2, np. 8, 16, 32, 64 bity) Zazwyczaj wielkość słowa określa: rozmiar rejestrów procesora rozmiar szyny danych i szyny adresowej Architektury: 8-bitowa: Intel 8080, Z80, Motorola 6800, Intel 8051 16-bitowa: Intel 8086, Intel 80286 32-bitowa: Intel od 80386 do i7, AMD od 5x86 do Athlona, ARM 64-bitowa: Intel Itanium, Pentium 4/EM64T, Core 2, Core i7 AMD Opteron, Athlon 64, Athlon II FLOPS (FLoating point Operations Per Second) liczba operacji zmiennoprzecinkowych na sekundę jednostka wydajności układów zmiennoprzecinkowych Przykłady wydajności procesorów (teoretyczne): Intel Core i7 975 3,46 GHz - 55,36 GFlops Intel Core2 Quad Q9650 3,00 GHz - 48 GFlops Intel Core2 Duo E8400 3,00 GHz - 24 GFlops najszybszy system równoległy na świecie: Titan, Cray XK7, Opteron 6274 16C 2.200GHz, Cray Gemini interconnect, NVIDIA K20x - 17.590.000 GFlops 560.640 processors, including 261.632 NVIDIA K20x cores www.top500.org

Rok akademicki 2012/2013, Wykład nr 2 13/65 Rok akademicki 2012/2013, Wykład nr 2 14/65 Kodowanie Kod ASCII Kodowanie - proces przekształcania jednego rodzaju postaci informacji na inną postać ASCII - American Standard Code for Information Interchange Alfanumeryczne ASCII Kody Liczbowe NKB Inne Graya 7-bitowy kod przypisujący liczby z zakresu 0-127: - literom (alfabet angielski) - cyfrom - znakom przestankowym - innym symbolom - poleceniom sterującym ISO 646 ISO 8859 EBCDIC Unicode BCD 1 z N 2 z 5 U2 Morse a kody 0-31, 127-33 kody sterujące służące do sterowania urządzeniami typu drukarka czy terminal kody 32-126 - 95 kodów tworzących zbiór znaków ASCII. Rok akademicki 2012/2013, Wykład nr 2 15/65 Rok akademicki 2012/2013, Wykład nr 2 16/65 Kod ASCII - Kody sterujące Kody sterujące - 33 kody, o numerach: 0-31, 127 Kod ASCII - Kody sterujące a język C 0 0 (16) NUL - koniec łańcucha znaków, zapis: \0 7 7 (16) BEL - alarm, dźwięk głośniczka, zapis: \a 8 8 (16) BS - klawisz Backspace, zapis: \b 9 9 (16) TAB - tabulacja (odstęp), zapis: \t 10 A (16) LF - przejście do nowego wiersza, zapis: \n 13 D (16) CR - powrót na początek wiersza, zapis: \r 27 1B (16) ESC - klawisz Escape 127 7F (16) DEL - klawisz Delete

Rok akademicki 2012/2013, Wykład nr 2 17/65 Rok akademicki 2012/2013, Wykład nr 2 18/65 Kod ASCII - Pliki tekstowe Kod ASCII - Pliki tekstowe Elementami pliku tekstowego są wiersze, mogą one mieć różną długość W systemie Windows każdy wiersz pliku zakończony jest parą znaków: CR, ang. carriage return - powrót karetki, kod ASCII - 13 0D (16) LF, ang. line feed - przesunięcie o wiersz, kod ASCII - 10 0A (16) Załóżmy, że plik tekstowy ma postać: Rzeczywista zawartość pliku jest następująca: W czasie wczytywania tekstu z pliku do pamięci komputera znaki CR i LF zastępowane są jednym znakiem - LF Znak LF w języku C reprezentowany jest przez \n, zaś CR - przez \r #include <stdio.h> int main() { printf("\\n --> %d %X\n",'\n','\n'); printf("\\r --> %d %X\n",'\r','\r'); \n --> 10 A \r --> 13 D } return 0; Wydruk zawiera: przesunięcie od początku pliku (szesnastkowo) wartości poszczególnych bajtów pliku (szesnastkowo) znaki odpowiadające bajtom pliku (traktując bajty jako kody ASCII) Przy zapisywaniu łańcucha znaków do pliku tekstowego mamy sytuację odwrotną - znak LF zastępowany jest parą CR i LF Rok akademicki 2012/2013, Wykład nr 2 19/65 Rok akademicki 2012/2013, Wykład nr 2 20/65 Kod ASCII - Pliki tekstowe ISO/IEC 646 W systemie Linux znakiem końca wiersza jest tylko LF o kodzie ASCII - 10 0A (16) Załóżmy, że plik tekstowy ma postać: ISO/IEC 646 - norma definiująca modyfikację 7-bitowego kodowania ASCII, stosowana w latach 70-tych i 80-tych W normie określono 10 pozycji na znaki w języku kraju, który przyjął tę normę oraz 2 pozycje na znaki walut Rzeczywista zawartość pliku jest następująca: Podczas przesyłania pliku tekstowego (np. przez protokół ftp) z systemu Linux do systemu Windows pojedynczy znak LF zamieniany jest automatycznie na parę znaków CR i LF Błędne przesłanie pliku tekstowego (w trybie binarnym) powoduje nieprawidłowe jego wyświetlanie: 0 1 2 3 4 5 6 7 8 9 A B C D E F 00 Znaki kontrolne 10 20 SP! " # $ % & ( ) * +, -. / 30 0 1 2 3 4 5 6 7 8 9 : ; < >? 40 @ A B C D E F G H I J K L M N O 50 P Q R S T U V W X Y Z [ \ ] ^ _ 60 ` a b c d e f g h i j k l m n o 70 p q r s t u v w x y z { } ~ Wszystkie pozostałe znaki są zgodne z ASCII żółty - znaki narodowe niebieski - znaki walut

Rok akademicki 2012/2013, Wykład nr 2 21/65 Rok akademicki 2012/2013, Wykład nr 2 22/65 ISO/IEC 646 - odmiany narodowe ISO/IEC 8859 ISO/IEC 8859 - zestaw standardów służących do kodowania znaków za pomocą 8-bitów Wszystkie zestawy ISO 8859 mają znaki 0-127 (00 (16) -7F (16) ) takie same jak w kodzie ASCII Pozycjom 128-159 (80 (16) -9F (16) ) przypisane są dodatkowe kody sterujące, tzw. C1 (obecnie nie są używane) Od czerwcu 2004 roku ISO 8859 nie jest rozwijane. Norma: BN-74/3101-01 Rok akademicki 2012/2013, Wykład nr 2 23/65 Rok akademicki 2012/2013, Wykład nr 2 24/65 ISO/IEC 8859 ISO/IEC 8859-1 Stosowane standardy ISO 8859: ISO 8859-1 (Latin-1) - alfabet łaciński dla Europy zachodniej ISO 8859-2 (Latin-2) - łaciński dla Europy środkowej i wschodniej ISO 8859-3 (Latin-3) - łaciński dla Europy południowej ISO 8859-4 (Latin-4) - łaciński dla Europy północnej ISO 8859-5 (Cyrillic) - dla cyrylicy ISO 8859-6 (Arabic) - dla alfabetu arabskiego ISO 8859-7 (Greek) - dla alfabetu greckiego ISO 8859-8 (Hebrew) - dla alfabetu hebrajskiego ISO 8859-9 (Latin-5) ISO 8859-10 (Latin-6) ISO 8859-11 (Thai) - dla alfabetu tajskiego ISO 8859-12 - brak ISO 8859-13 (Latin-7) ISO 8859-14 (Latin-8) - zawiera polskie znaki ISO 8859-15 (Latin-9) ISO 8859-16 (Latin-10) - łaciński dla Europy środkowej, zawiera polskie znaki ISO/IEC 8859-1, Latin-1 ( zachodnioeuropejskie ) kodowanie używane w Amerykach, Europie Zachodniej, Oceanii i większej części Afryki dostępne języki: albański, angielski, baskijski, duński, estoński, fiński, francuski, hiszpański, irlandzki, islandzki, kataloński, łaciński, niderlandzki, niemiecki, norweski, portugalski, retoromański, szkocki, szwedzki, włoski 191 znaków łacińskiego pisma. SP - spacja NBSP - twarda spacja SHY - miękki dywiz (myślnik)

Rok akademicki 2012/2013, Wykład nr 2 25/65 Rok akademicki 2012/2013, Wykład nr 2 26/65 ISO/IEC 8859-2 ISO/IEC 8859-2 - Kodowanie polskich znaków ISO/IEC 8859-2, Latin-2 ( środkowo, wschodnioeuropejskie ) dostępne języki: bośniacki, chorwacki, czeski, węgierski, polski, rumuński, serbski, serbsko-chorwacki, słowacki, słoweński, górno- i dolnołużycki możliwość przedstawienia znaków w języku niemieckim i angielskim 191 znaków łacińskiego pisma kody z przedziałów 00 (16) -1F (16) oraz 7F (16) -9F (16) nie są używane w ISO-8859-2 kodowanie zgodne z Polską Normą. SP - spacja NBSP - twarda spacja SHY - miękki dywiz (myślnik) 18 znaków: Ą - ą Ć - ć Ę - ę Ł - ł Ń - ń Ó - ó Ś - ś Ź - ź Ż - ż Rok akademicki 2012/2013, Wykład nr 2 27/65 Rok akademicki 2012/2013, Wykład nr 2 28/65 ISO/IEC 8859-1 i ISO/IEC 8859-2 - porównanie EBCDIC EBCDIC - Extended Binary Coded Decimal Interchange Code 8-bitowe kodowanie znaków stworzone jako rozszerzenie kodowania BCD używane głównie w systemach IBM w latach 60-tych XX wieku umożliwia zapisanie do 256 różnych symboli brak zachowania kolejności liter zgodnie z kolejnością kodów, np. po R nie ma S kody EBCDIC nie są zgodne z ASCII.

Rok akademicki 2012/2013, Wykład nr 2 29/65 Rok akademicki 2012/2013, Wykład nr 2 30/65 EBCDIC i ISO 8859-1 - porównanie Windows-1250 Windows-1250 (CP-1250) - strona kodowa używana przez system Microsoft Windows do reprezentacji tekstów w językach środkowoeuropejskich używających alfabetu łacińskiego Obsługiwane języki: albański, chorwacki, czeski, polski, rumuński, słowacki, słoweński, węgierski (ale także niemiecki) Windows-1250 jest podobny do ISO 8859-2 - posiada wszystkie jego drukowalne znaki (a także kilka dodatkowych), lecz kilka z nich zajmuje inne miejsca. Rok akademicki 2012/2013, Wykład nr 2 31/65 Rok akademicki 2012/2013, Wykład nr 2 32/65 ISO 8859-2 i Windows-1250 - porównanie Problem kodowania polskich znaków Problem z wyświetlaniem polskich znaków Tekst zapisany w standardzie ISO-8859-2: Ą Ć Ę Ł Ń Ó Ś Ź Ż ą ć ę ł ń ó ś ź ż Tekst wyświetlony w Notatniku systemu Windows (Windows-1250): ˇ Ć Ę Ł Ń Ó Ż ± ć ę ł ń ó Ľ ż

Rok akademicki 2012/2013, Wykład nr 2 33/65 Rok akademicki 2012/2013, Wykład nr 2 34/65 Problem kodowania polskich znaków Standardy kodowania polskich znaków W Polsce stosowanych było ok. 20 standardów kodowania polskich liter Dodatkowe informacje: http://www.ogonki.agh.edu.pl Próby wprowadzania standardu: Mazovia - promowany przez społeczność informatyczną (nie był pełną stroną kodową, ale określał sposób kodowania polskich liter) IBM-Latin-2 (CP-852) - wprowadzony przez IBM i Microsoft, stosowany w DOS, OS/2 i części systemu Microsoft Windows CP-1250 (Windows-1250) - wprowadzony w Microsoft Windows PL ISO-Latin-2 (ISO 8859-2) - stosowany w Internecie ISO 8859-2 jest zgodny z Polską Normą PN-93 T-42118 Technika informatyczna. Znormalizowane zbiory znaków graficznych przeznaczone do stosowania w kodach 8-bitowych (1993 rok) Litera Mazovia IBM Latin-2 Windows 1250 ISO Latin-2 Ą 143 164 165 161 Ć 149 143 198 198 Ę 144 168 202 202 Ł 156 157 163 163 Ń 165 227 209 209 Ó 163 224 211 211 Ś 152 151 140 166 Ź 160 141 143 172 Ż 161 189 175 175 ą 134 165 185 177 ć 141 134 230 230 ę 145 169 234 234 ł 146 136 179 179 ń 164 228 241 241 ó 162 162 243 243 ś 158 152 156 182 ź 166 171 159 188 ż 167 190 191 191 Rok akademicki 2012/2013, Wykład nr 2 35/65 Rok akademicki 2012/2013, Wykład nr 2 36/65 Unicode (Unikod) Unicode Unicode - komputerowy zestaw znaków mający obejmować wszystkie pisma i inne znaki (symbole muzyczne, techniczne, wymowy) używane na świecie Unicode przypisuje unikalny numer każdemu znakowi, niezależny od używanej platformy, programu czy języka Reprezentuje znaki w postaci abstrakcyjnej pozostawiając postać wizualną (rozmiar, kształt, czcionkę, styl) innemu oprogramowaniu Definiowany przez dwa standardy, w których znaki są identyczne: Unicode i ISO/IEC 10646. Rozwijany przez konsorcjum utworzone przez firmy komputerowe, producentów oprogramowania oraz grupy użytkowników Konsorcjum: http://www.unicode.org Pierwsza wersja: Unicode 1.0 (10.1991) Ostatnia wersja: Unicode 6.2.0 (09.2012) The Unicode Consortium. The Unicode Standard, Version 6.2.0, (Mountain View, CA: The Unicode Consortium, 2012) - Core Specification - PDF, 11 MB, 690 str. (wersja 6.2.0) - Code Charts - PDF, 92 MB, 2100 str. (wersja 6.2.0) http://www.unicode.org/versions/unicode6.2.0/ koduje 110.117 znaków Polska strona o Unikodzie: http://www.unikod.pl

Rok akademicki 2012/2013, Wykład nr 2 37/65 Rok akademicki 2012/2013, Wykład nr 2 38/65 Unicode - Zakresy Unicode Zakres: Znaczenie: 0000-007F Basic Latin (to samo co w ASCII) 0080-00FF Latin-1 Supplement (to samo co w ISO/IEC 8859-1) 0100-017F Latin Extended-A 0180-024F Latin Extended-B 0250-02AF IPA Extensions 02B0-02FF Spacing Modifiers Letters... 0370-03FF Greek 0400-04FF Cyrillic... 1D00-1D7F Phonetic Extensions 1D80-1DBF Phonetic Extensions Supplement 1E00-1EFF Latin Extended Additional 1F00-1FFF Greek Extended... Standard Unicode definiuje kody numeryczne przypisane poszczególnym znakom, nie określa natomiast sposobu bajtowego kodowania znaków Kodowanie określa sposób w jaki znaki ze zbioru mają być zapisane w postaci binarnej Istnieją trzy podstawowe metody kodowania: 32-bitowe: UTF-32 16-bitowe: UTF-16 8-bitowe: UTF-8 UTF - UCS Transformation Format UCS - Universal Character Set Wszystkie metody obejmują wszystkie kodowane znaki w Unicode. Rok akademicki 2012/2013, Wykład nr 2 39/65 Rok akademicki 2012/2013, Wykład nr 2 40/65 Unicode Unicode - kodowanie UTF-32 Metody kodowania różnią się liczbą bajtów przeznaczonych do opisania kodu znaku UTF-32 - sposób kodowania standardu Unicode wymagający użycia 32-bitowych słów Kod znaku ma zawsze stałą długość 4 bajtów i przedstawia numer znaku w tabeli Unikodu Kody obejmują zakres od 0 do 0x10FFFF (od 0 do 1114111) źródło: The Unicode Consortium. The Unicode Standard, Version 6.2.0 Kodowanie to jest jednak bardzo nieefektywne - zakodowane ciągi znaków są 2-4 razy dłuższe niż ciągi tych samych znaków zapisanych w innych kodowaniach.

Rok akademicki 2012/2013, Wykład nr 2 41/65 Rok akademicki 2012/2013, Wykład nr 2 42/65 Unicode - kodowanie UTF-16 Unicode - kodowanie UTF-8 UTF-16 - sposób kodowania standardu Unicode wymagający użycia 16-bitowych słów UTF-8 - kodowanie ze zmienną długością reprezentacji znaku wymagające użycia 8-bitowych słów Dla znaków z przedziału od 0 do 0xFFFF używane jest jedno słowo, którego wartość jest jednocześnie kodem znaku w Unicode Dla znaków z wyższych pozycji używa się dwóch słów: pierwsze słowo należy do przedziału: 0xD800-0xDBFF drugie słowo należy do przedziału: 0xDC00-0xDFFF. Znaki Unikodu są mapowane na ciągi bajtów 0x00 do 0x7F - bity 0xxxxxxx 0x80 do 0x7FF - bity 110xxxxx 10xxxxxx 0x800 do 0xFFFF - bity 1110xxxx 10xxxxxx 10xxxxxx 0x10000 do 0x1FFFFF - bity 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx 0x200000 do 0x3FFFFFF - bity 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 0x4000000 do 0x7FFFFFFF- bity 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx Rok akademicki 2012/2013, Wykład nr 2 43/65 Rok akademicki 2012/2013, Wykład nr 2 44/65 Unicode Unicode

Rok akademicki 2012/2013, Wykład nr 2 45/65 Rok akademicki 2012/2013, Wykład nr 2 46/65 Kody liczbowe - Naturalny Kod Binarny (NKB) Kody liczbowe - Naturalny Kod Binarny (NKB) Jeżeli dowolnej liczbie dziesiętnej przypiszemy odpowiadającą jej liczbę binarną, to otrzymamy naturalny kod binarny (NKB) W naturalnym kodzie binarnym za pomocą n-bitów można zapisać liczbę dwójkową z zakresu: n X( 2) 0, 2 1 Największe liczby dwójkowe: 1 bit 2 bity 3 bity L 8 bitów 10 bitów 16 bitów 32 bity 1 (2) 11 (2) 111 (2) 11111111 (2) 1111111111 (2) 11111111 11111111 (2) 11111111K 11111111 (2) 1 2 1 2 2 1 3 2 1 8 2 1 2 2 2 10 16 32 1 1 1 1 3 7 255 1 023 65 535 4 294 967 295 Rok akademicki 2012/2013, Wykład nr 2 47/65 Rok akademicki 2012/2013, Wykład nr 2 48/65 Kody liczbowe - Kod BCD Kody liczbowe - Kod BCD Binary-Coded Decimal - dziesiętny zakodowany dwójkowo Przykład: BCD - sposób zapisu liczb polegający na zakodowaniu kolejnych cyfr liczby dziesiętnej w 4-bitowym systemie dwójkowym (NKB) 168? (BCD) 1 } } 6 } 8 0001 0110 1000 1001 0101 1001 { 0101 { 0011 { 168 000101101000 100101010011 ( 10) 11 (BCD) ( BCD) 953 9 5 0011 3 (BCD)? W ogólnym przypadku kodowane są tylko znaki 0 9 Pozostałe kombinacje bitowe mogą być stosowane do kodowania znaku liczby lub innych znaczników. Zastosowania: urządzenia elektroniczne z wyświetlaczem cyfrowym (np. kalkulatory, mierniki cyfrowe, kasy sklepowe, wagi) przechowywania daty i czasu w BIOSie komputerów (także wczesne modele PlayStation 3) zapis części ułamkowych kwot (systemy bankowe).

Rok akademicki 2012/2013, Wykład nr 2 49/65 Rok akademicki 2012/2013, Wykład nr 2 50/65 Kody liczbowe - Kod BCD: przechowywanie liczb Kody liczbowe - Kod BCD Użycie 4 najmłodszych bitów jednego bajta, 4 starsze bity są ustawiane na jakąś konkretną wartość: Na poprzednich slajdach przedstawiono podstawową postać kodu BCD - BCD 8421 lub SBCD (Simple Binary - Coded Decimal) 0000 1111 (np. kod EBCDIC, liczby F0 (16) F9 (16) ) 0011 (tak jak w ASCII, liczby 30 (16) 39 (16) ) Zapis dwóch cyfr w każdym bajcie (starsza na starszej połówce, młodsza na młodszej połówce) - jest to tzw. spakowane BCD w przypadku liczby zapisanej na kilku bajtach, najmniej znacząca tetrada (4 bity) używane są jako flaga znaku standardowo przyjmuje się 1100 (C (16) ) dla znaku plus (+) i 1101 (D (16) ) dla znaku minus (-), np. 127 127 0001 0010 0111 1100 0001 0010 0111 1101 (127C (127D (16) (16) ) ) Istnieją inne warianty kodu BCD, w których poszczególne cyfry są kodowane w inny sposób Cyfra dziesiętna 0 1 2 3 4 5 6 7 8 9 BCD 8421 0000 0001 0010 0011 0100 0101 0110 0111 1000 1001 Excess-3 0011 0100 0101 0110 0111 1000 1001 1010 1011 1100 BCD 2421 0000 0001 0010 0011 0100 1011 1100 1101 1110 1111 BCD 84-2-1 0000 0111 0110 0101 0100 1011 1010 1001 1000 1111 IBM 1401 BCD 8421 1010 0001 0010 0011 0100 0101 0110 0111 1000 1001 Rok akademicki 2012/2013, Wykład nr 2 51/65 Rok akademicki 2012/2013, Wykład nr 2 52/65 Kody liczbowe - Kod 2 z 5 Kody liczbowe - Kod 2 z 5 Industrial (1960 r.) Kod 5-bitowy - jeden znak kodowany jest na 5 bitach (2 bity są zawsze równe jeden, a 3 bity są zawsze równe zeru) Jednowymiarowy kod kreskowy kodujący cyfry: 0 9 Można zakodować 10 znaków, koduje cyfry dziesiętne, kody nie są wzajemnie jednoznaczne (ta sama wartość może być zakodowana w różny sposób) Każdy znak składa się z 5 pasków (2 szerokich i 3 wąskich), odstępy pełnią rolę separatorów Kod stałowagowy, występuje w wielu wersjach, np. 01236, 01234, 74210 Kod detekcyjny Stosowany przede wszystkim w kodach kreskowych. Szeroki pasek jest wielokrotnością wąskiego, szerokości muszą być takie same dla całego kodu Struktura kodu: start: 11011010 numer stop: 11010110

Rok akademicki 2012/2013, Wykład nr 2 53/65 Rok akademicki 2012/2013, Wykład nr 2 54/65 Kod Graya (refleksyjny) Kod Graya Kod dwójkowy, bezwagowy, niepozycyjny Dwa kolejne słowa kodowe różnią się stanem jednego bitu Kod cykliczny - ostatni i pierwszy wyraz również różnią się stanem jednego bitu Stosowany w przetwornikach analogowo-cyfrowych, do cyfrowego pomiaru analogowych wielkości mechanicznych (przesuw liniowy, kąt obrotu) http://tams-www.informatik.uni-hamburg.de /applets/hades/webdemos/10-gates/15-graycode/dual2gray.html Rok akademicki 2012/2013, Wykład nr 2 55/65 Rok akademicki 2012/2013, Wykład nr 2 56/65 Kod Graya Reprezentacja liczb w systemach komputerowych Stosowany w przetwornikach analogowo-cyfrowych, do cyfrowego pomiaru analogowych wielkości mechanicznych (przesuw liniowy, kąt obrotu) kod Graya kod NKB

Rok akademicki 2012/2013, Wykład nr 2 57/65 Rok akademicki 2012/2013, Wykład nr 2 58/65 Liczby całkowite bez znaku Liczby całkowite bez znaku w języku C Zapis liczby w systemie dwójkowym: Używając n-bitów można zapisać liczbę z zakresu: Typy zmiennych całkowitych bez znaku stosowane w języku C: Nazwa typu Rozmiar (bajty) Zakres wartości unsigned char 1 bajt 0 255 unsigned short int 2 bajty 0 65 535 unsigned int 4 bajty 0 4 294 967 295 unsigned long int 4 bajty 0 4 294 967 295 unsigned long long int 8 bajtów 0 18 446 744 073 709 551 615 n X( 2) 0, 2 1 8 bitów 16 bitów 32 bity 64 bity 0... 255 0... 65 535 0... 4 294 967 295 0... 18 446 744 073 709 551 615 18 trylionów 446 biliardów 744 biliony 73 miliardy 709 milionów 551 tysięcy 615 W nazwach typów short i long można pominąć słowo int: unsigned short int unsigned short unsigned long int unsigned long unsigned long long int unsigned long long Rok akademicki 2012/2013, Wykład nr 2 59/65 Rok akademicki 2012/2013, Wykład nr 2 60/65 Liczby całkowite bez znaku w języku C Liczby całkowite bez znaku w języku C #include <stdio.h> unsigned char: 1 unsigned short int: 2 unsigned int: 4 unsigned long int: 4 unsigned long long int: 8 int main() { printf("unsigned char: %d\n",sizeof(unsigned char)); printf("unsigned short int: %d\n",sizeof(unsigned short int)); printf("unsigned int: %d\n",sizeof(unsigned int)); printf("unsigned long int: %d\n",sizeof(unsigned long int)); printf("unsigned long long int: %d\n", sizeof(unsigned long long int)); } return 0; Typ unsigned char (1 bajt): MSB (Most Significant Bit) - najbardziej znaczący bit, największa waga LSB (Least Significant Bit) - najmniej znaczący bit, najmniejsza waga Zakres wartości: dolna granica: 00000000 (2) 0 górna granica: 11111111 (2) 255

Rok akademicki 2012/2013, Wykład nr 2 61/65 Rok akademicki 2012/2013, Wykład nr 2 62/65 Liczby całkowite bez znaku w języku C Liczby całkowite bez znaku w języku C Typ unsigned short int (2 bajty): Typy unsigned int (4 bajty) i unsigned long int (4 bajty): Zakres wartości: Zakres wartości: dolna granica: 00000000 00000000 (2) 0 górna granica: 11111111 11111111 (2) 65 535 dolna granica: 00000000 00000000 00000000 00000000 (2) 0 górna granica: 11111111 11111111 11111111 11111111 (2) 4 294 967 295 Rok akademicki 2012/2013, Wykład nr 2 63/65 Rok akademicki 2012/2013, Wykład nr 2 64/65 Liczby całkowite bez znaku w języku C Liczby całkowite bez znaku w języku C Typ unsigned long long int (8 bajtów): Zakres wartości: dolna granica: 00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000000 (2) 0 górna granica: 11111111 11111111 11111111 11111111 11111111 11111111 11111111 11111111 (2) 18 446 744 073 709 551 615 #include <stdio.h> unsigned short int: 65535 0 1 unsigned int: 4294967295 0 1 unsigned long int: 4294967295 0 1 unsigned long long int: 18446744073709551615 0 1 int main() { unsigned short int usi 65535; unsigned int ui 4294967295; unsigned long int uli 4294967295; unsigned long long int ulli 18446744073709551615; } printf("unsigned short int: %hu %hu %hu\n",usi,usi+1,usi+2); printf("unsigned int: %u %u %u\n",ui,ui+1,ui+2); printf("unsigned long int: %lu %lu %lu\n",uli,uli+1,uli+2); printf("unsigned long long int: %llu %llu %llu\n", ulli,ulli+1,ulli+2); return 0;

Rok akademicki 2012/2013, Wykład nr 2 65/65 Koniec wykładu nr 2 Dziękuję za uwagę!