Spis treści 0. Uwagi końcowe

Podobne dokumenty
BachoTEX Janusz S. Bień. UNICODE 4.0 Podstawowe pojęcia i terminy slajdy/jsb-gust04-s.

Pracownia Komputerowa wyk ad VII

extensible Markup Language, cz. 1 Marcin Gryszkalis, mg@fork.pl

Kodowanie informacji. Przygotował: Ryszard Kijanka

Komunikacja człowiek-komputer

ROZPORZĄDZENIE RADY MINISTRÓW. z dnia 11 października 2005 r. (Dz. U. z dnia 28 października 2005 r.)

Technologie informacyjne

Opis standardu. Dokumenty w postaci czystego (niesformatowanego) zbioru znaków zapisanych w standardzie Unicode UTF-8 jako pliki typu.

Systemy kodowania. Jolanta Bachan

ROZPORZĄDZENIE RADY MINISTRÓW. z dnia 11 października 2005 r. w sprawie minimalnych wymagań dla systemów teleinformatycznych

Pracownia komputerowa. Dariusz Wardecki, wyk. VIII

Pracownia komputerowa. Dariusz Wardecki, wyk. IX

Sposób doręczania dokumentów elektronicznych. do Urzędu Gminy Zawady

HTML nie opisuje układu strony!!!

Rola języka XML narzędziem

Jak zapisać wersję elektroniczną pracy dyplomowej? - INSTRUKCJA (krok po kroku)

Podstawy Informatyki i Technologii Informacyjnej

Jacek Tomaszczyk Instytut Bibliotekoznawstwa i Informacji Naukowej Uniwersytet Śląski

Po zakończeniu rozważań na temat World Wide Web, poznaniu zasad organizacji witryn WWW, przeczytaniu kilkudziesięciu stron i poznaniu wielu nowych

Dygitalizacja i komputeryzacja słowników na przykładzie Słownika polszczyzny XVI wieku

Standard Unicode 4.0. Wybrane pojęcia i terminy

Format danych adnotacji do tytułów wykonawczych przekazywanych do organów egzekucyjnych przez epuap w związku ze zbiegiem egzekucji

Techniki multimedialne

Podstawy informatyki. Reprezentacja danych w systemach cyfrowych

Jak zapisać wersje elektroniczną pracy dyplomowej? - INSTRUKCJA (krok po kroku)

Ku elektronicznej wersji Słownika polszczyzny XVI wieku

Pracownia komputerowa. Dariusz Wardecki, wyk. IV

Technologie cyfrowe. Artur Kalinowski. Zakład Cząstek i Oddziaływań Fundamentalnych Pasteura 5, pokój 4.15 Artur.Kalinowski@fuw.edu.

UEK w Krakowie Janusz Stal & Grażyna Paliwoda-Pękosz

Autorzy opracowania (* oznacza współautorstwo):

ZMIANY I NOWOSCI W FORMACIE MARC 21 - REKORD BIBLIOGRAFICZNY 1

mgr inż. Mariusz Jarocki Forum Nauczycieli Bibliotekarzy Szkolnych

Extensible Markup Language (XML) Wrocław, Java - technologie zaawansowane

UEK w Krakowie Janusz Stal & Grażyna Paliwoda-Pękosz

Format danych adnotacji do tytułów wykonawczych przekazywanych do organów egzekucyjnych przez epuap w związku ze zbiegiem egzekucji

P E R S E C S R C I R P I T P UM

Spis treści. Funkcje opracowane dla języków Europy Środkowej

KARTA KURSU. Techniki informatyczne

Plan dzisiejszego wykładu. Narzędzia informatyczne w językoznawstwie. XML - Definicja. Zalety XML

Internacjonalizacja i lokalizowanie aplikacji internetowych wg

c TP: anything: 13 listopada 2004 roku 1

Cyfrowe formy informacji: tekst, grafika komputerowa, video, dźwięk. Technologie Informacyjne

kodowanie informacji Autor prezentacji: 1 prof. dr hab. Maria Hilczer

Dziennik Ustaw 10 Poz. 113

Kodowanie znaków narodowych

Znakowanie tekstu w epoce komputerów

Mariusz Piotrowski Węzeł Centralny OŻK- SB

TECHNOLOGIE INFORMACYJNE

O stronach www, html itp..

Student... Wydziału... Kierunek:... Wyższej Szkoły Biznesu i Przedsiębiorczości w Ostrowcu Świętokrzyskim

Poszczególne punkty napisali (* oznacza współautorstwo):

Podstawy elektronicznej wymiany danych. UEK w Krakowie Janusz Stal & Grażyna Paliwoda-Pękosz

3 grudnia Sieć Semantyczna

WYKŁAD 1 METAJĘZYK SGML CZĘŚĆ 1

Technologie informacyjne - wykład 10 -

Wstęp do Informatyki

Wprowadzenie do informatyki i użytkowania komputerów. Kodowanie informacji System komputerowy

Komunikacja i wymiana danych

PL URZĄD MIASTA SZCZECIN N NOF WPiOL/1111/W/123456/2013 KOWALSKI JAN, FELCZAKA 1A SZCZECIN PLN

Tom 6 Opis oprogramowania

Janusz S. Bieñ. Kodowanie tekstów polskich w systemach komputerowych 4 POSTSCRIPTUM Multimedia w nauczaniu jêzyka rodzimego jako obcego

Humanistyka cyfrowa w Katedrze Lingwistyki Formalnej UW

TECHNOLOGIE INFORMACYJNE

Internacjonalizacja i lokalizowanie aplikacji internetowych wg

Wprowadzenie do technologii XML

Wprowadzenie do XML. Tomasz Przechlewski

Książki elektroniczne

Pracownia komputerowa. Dariusz Wardecki, wyk. X

12. Wprowadzenie Sygnały techniki cyfrowej Systemy liczbowe. Matematyka: Elektronika:

XML i nowoczesne metody zarządzania treścią

XML extensible Markup Language. Paweł Chodkiewicz

Środowisko XML (Extensible Markup Language).

Kodowanie liczb. Kodowanie znaków. Reprezentacja liczb w systemach komputerowych Reprezentacja stałoprzecinkowa. dr inŝ.

Sieci komputerowe i bazy danych

Cel wykładu. MS Word - historia. Wykład 1: MS Word cz. 1. Wyższa Szkoła Menedżerska w Legnicy. Informatyka Transport, sem. 2.

WSKAZÓWKI DLA AUTORÓW REFERATÓW

dr hab. inż. Lidia Jackowska-Strumiłło, prof. PŁ Instytut Informatyki Stosowanej, PŁ

Typy plików, opracował Jan Biernat Strona 1 z 12. Typy plików

Historia kodowania i format plików XML. Jolanta Bachan

KARTA KURSU. Przetwarzanie dokumentów XML i zaawansowane techniki WWW

Krajowe Ramy Interoperacyjności - sprawna (?) komunikacja prawnotechnologiczna. informacyjnym

Reprezentacja symboli w komputerze. Znaki alfabetu i łańcuchy znakowe. Programowanie Proceduralne 1

Systemy liczenia. 333= 3*100+3*10+3*1

dlibra 3.0 Marcin Heliński

Dokumenty strukturalne: teoria i zastosowania

Kodowanie tekstów polskich w systemach komputerowych

1 XML w bazach danych

WITRYNY I APLIKACJE INTERNETOWE

Ośrodek Adaptacji Materiałów Dydaktycznych

Przeszłość i przyszłość Słownika języka polskiego PAN

XHTML - Extensible Hypertext Markup Language, czyli Rozszerzalny Hipertekstowy Język Oznaczania.

Języki i metodyka programowania. Reprezentacja danych w systemach komputerowych

Wykład 1: Tekstowe dokumenty elektroniczne strona 1. Wykład 1: Tekstowe dokumenty elektroniczne

XPath XML Path Language. XPath. XSLT część 1. XPath data model. Wyrażenia XPath. Location paths. Osie (axes)

METAJĘZYKI

mgr inż. Jacek Staniec Język XML

INFORMATYKA. Zajęcia organizacyjne. Arytmetyka komputerowa.

GML w praktyce geodezyjnej

Komputery przemysłowe i systemy wbudowane

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Transkrypt:

Spis treści -1 LXI Zjazd PTJ, Tarnów 12-13.09.2003 Teksty i dokumenty Teksty i dokumenty Teksty i dokumenty Teksty i dokumenty Kodowanie tekstów w komputerze Kodowanie tekstów w komputerze Kodowanie tekstów w komputerze Kodowanie tekstów w komputerze Kodowanie tekstów w komputerze Kodowanie tekstów w komputerze Kodowanie tekstów w komputerze Unicode 4.0 Unicode Consortium (www.unicode.org) Terminologia Unicode Unicode 4.0 Alfabety i symbole Alfabety i symbole Zunifikowane znaki hanowskie

Spis treści 0 Koreańskie znaki sylabiczne Koreańskie znaki sylabiczne Terminologia Unicode Terminologia Unicode Kodowanie tekstów w komputerze Reprezentacja struktury tekstu SGML SGML/XML Emblem Project Utrecht GNU Emacs (psgml, xxml) SGML w Polsce T. Piotrowski, Z. Saloni Uwagi końcowe

LXI Zjazd PTJ, Tarnów 12-13.09.2003 1 Janusz S. Bień Adekwatna reprezentacja elektroniczna tekstów pisanych 12.09.2003

Teksty i dokumenty 2 Inny słownik języka polskiego PWN: tekst ciąg zapisanych słów i zdań, zwłaszcza tworzących pewną całość artystyczną lub logiczną

Teksty i dokumenty 3 Wielki słownik wyrazów obcych PWN: dokument 3. «plik komputerowy, w szczególności tekstowy, zawierający informacje zapisane w odpowiednim formacie»

Teksty i dokumenty 4 J. S. Bień dokument (elektroniczny) Traktowany jako jedna całość w szczególności opublikowany lub przeznaczony do opublikowania w sposób tradycyjny lub za pomocą Internetu np. na stronach WWW plik lub zbiór plików komputerowych zawierających pewną informację, w szczególności tekstową, w odpowiednim formacie, np. HTML.

Teksty i dokumenty 5 Nietekstowe składniki dokumentów: ilustracje formuły matematyczne formuły chemiczne...

Kodowanie tekstów w komputerze 6 Rodzaje kodowania: akustyczne wizualne symboliczne technologiczne

Kodowanie tekstów w komputerze 7 Kodowanie akustyczne: książka mówiona DAISY (Digital Accessible Information SYstem) Dostępny [dla niewidomych] cyfrowy system informacyjny http://www.daisy.org norma amerykańska od 2002 r.

Kodowanie tekstów w komputerze 8 Odtwarzacz DAISY

Kodowanie tekstów w komputerze 9 Kodowanie wizualne: skanowanie Proces dokładnej i systematycznej analizy pewnych danych wejściowych przez program lub urządzenie. Mówi się o skanowaniu obrazu przez kamery telewizyjne i skanery,... Ang. to scan dawn. wchodzić, robić coś krok po kroku.

Kodowanie tekstów w komputerze 10 Kodowanie wizualne: Przykład tekstu wskanowanego Polska Akademia Nauk Słownik języka polskiego pod redakcją Witolda Doroszewskiego Wiedza Powszechna Państwowe Wydawnictwo Naukowe 1958-1969

Kodowanie tekstów w komputerze 11 Litterae s.c. dla Wydawnictwa Naukowego PWN: Przedruk elektroniczny (1997) Koordynator: Janusz S. Bień Redaktor prowadzący: Jadwiga Linde-Usiekniewicz

Kodowanie tekstów w komputerze 12

Kodowanie tekstów w komputerze 13 Kodowanie technologiczne: PostScript PDF Portable Document Format RTF Rich Text Format format Microsoft Word i inne

Kodowanie tekstów w komputerze 14 Kodowanie symboliczne: czysty tekst (plain text) tekst adiustowany (marked-up text)

Kodowanie tekstów w komputerze 15 Czysty tekst kodowany symbolicznie: ciąg znaków piśmiennych znaki piśmienne (characters) reprezentowane przez liczby naturalne

Kodowanie tekstów w komputerze 16 Kodowe zestawy znaków (strony kodowe): CP 852 (DOS) CP 1250 (MS Windows) Latin 2 (Unix i Linux) Różne repertuary!

Unicode 4.0 17

Unicode 4.0 18 The Unicode Standard Version 4.0 1504 strony plus CD-ROM Addison-Wesley 27.08.2003

Unicode Consortium (www.unicode.org) 19

Terminologia Unicode 20 Znaki (piśmienne) (abstract) character

Terminologia Unicode 21 repertuar znaków piśmiennych abstract character repertoire

Terminologia Unicode 22 współrzędna kodowa znaku character code point

Unicode 4.0 23 96 246 znaków: alfabety i symbole ok. 14 000 zunifikowane znaki hanowskie ok. 20 000 dodatkowe znaki hanowskie ok. 50 000 koreańskie znaki sylabiczne ok. 11 000

Alfabety i symbole 24 CYRILLIC CAPITAL LETTER KOMI ZJE

Alfabety i symbole 25 EIGHT PETALLED OUTLINED BLACK FLORETTE

Zunifikowane znaki hanowskie 26 Unified Han Ideographs dynastia hanowska dynastia Han od 206 r. p.n.e. pismo hanowskie: Chiny wersja tradycyjna Chiny wersja uproszczona Japonia Korea

Zunifikowane znaki hanowskie 27

Koreańskie znaki sylabiczne 28 Pismo koreańskie (hangul) alfabetyczne ale znaki są wpisywane w prostokąt!

Koreańskie znaki sylabiczne 29

Terminologia Unicode 30 LATIN SMALL LETTER A WITH OGONEK ą ą ą ą ą ą ą ą ą ą ą ą ą ą ą 261 (heksadecymalnie 0105)

Terminologia Unicode 31 Glify (glyphs) ą ą ą ą ą ą ą ą ą ą ą ą ą ą ą Znak piśmienny (abstract character) 261 (heksadecymalnie 0105) LATIN SMALL LETTER A WITH OGONEK

Terminologia Unicode 32 Znak czy glif? A (alfabet łaciński) A (alfabet grecki) A (cyrylica)

Kodowanie tekstów w komputerze 33 Kodowanie symboliczne: czysty tekst (plain text) tekst adiustowany (marked-up text)

Reprezentacja struktury tekstu 34 języki adiustacyjne markup languages

SGML 35 ISO International Organisation for Standarization Information processing Text and office systems Standard Generalized Markup Language (SGML) ISO 8879:1986 ISO 8879:1986/Cor 1:1996 ISO 8879:1986/Cor 2:1999 ISO 8879:1986/Amd 1:1988

SGML 36

SGML/XML 37 W3C World Wide Web Consortium Tim Bray, Jean Paoli, C. M. Sperberg-McQueen, Eve Maler Extensible Markup Language (XML) 1.0 Second Edition W3C Recommendation 6 October 2000 http://www.w3.org/tr/rec-xml

SGML/XML 38 Sperberg-McQueen, C.M.. and Burnard, L. (eds.) TEI P4: Guidelines for Electronic Text Encoding and Interchange. Text Encoding Initiative Consortium. XML Version Oxford, Providence, Charlottesville, Bergen 2002 Dwa tomy: 590 i 498 stron. http://www.tei-c.org/guidelines2/index.html

Emblem Project Utrecht 39 <TEI.2> <teiheader> <filedesc> <titlestmt> <title>emblemata Amatoria 1608</title> <author><name>daniël Heinsius</name></author> <editor><name id="jb">jan de Boer</name></editor> <editor><name>els Stronks</name></editor> <editor><name>peter Boot</name></editor> <respstmt> <resp>translations by </resp><name>jan Bloemendal</name> <resp> in cooperation with </resp><name>boukje Thijs and Pim van Tent</name> </respstmt> </titlestmt> <editionstmt> <edition>a web edition</edition> </editionstmt> <publicationstmt> <pubplace>utrecht</pubplace> <date>january 2002</date> <publisher>emblem Project Utrecht</publisher> </publicationstmt> <sourcedesc> <p>het door ons gebruikte exemplaar komt uit Utrecht (LBKUN: RAR LMY Heinsius 2 Conv 1), en verscheen gebundeld met Spiegel van de doorluchtige, eerlicke, cloucke, deuchtsame ende verstandege vrouwen.</p> </sourcedesc>

GNU Emacs (psgml, xxml) 40

GNU Emacs (psgml, xxml) 41

SGML w Polsce 42 INCO COPERNICUS PL96 113 STEEL Specialised Translation/foreign language understanding tools for Eastern Europe Languages Specjalistyczne narzędzia do tłumaczenia i rozumienia tekstów obcojęzycznych dla języków Europy Wschodniej 1997 1999

T. Piotrowski, Z. Saloni 43

Uwagi końcowe 44 Kontakt: jsbien@uw.edu.pl Adres strony domowej: http://www.mimuw.edu.pl/~jsbien/ Niniejsze slajdy dostępne pod adresem: http://www.mimuw.edu.pl/~jsbien/slajdy/ JSB-PTJ03-s.pdf Referat z poprzedniego zjazdu PTJ: http://www.mimuw.edu.pl/~jsbien/publikacje/ JSB-BPTJ02e.pdf