Znakowanie tekstu w epoce komputerów



Podobne dokumenty
extensible Markup Language, cz. 1 Marcin Gryszkalis, mg@fork.pl

Sprawy organizacyjne. XML i nowoczesne technologie zarządzania treścią. Plan wykładu. Zawartość zajęć. empolis. O mnie

Plan wykładu. O mnie

Sprawy organizacyjne. XML i nowoczesne technologie zarządzania treścią. Zawartość zajęć. Plan wykładu. empolis. O mnie

Historia rozwoju technik znakowania tekstu

Historia rozwoju technik znakowania tekstu

Sprawy organizacyjne. Zawartość zajęć. Plan wykładu. O mnie. empolis. XML i nowoczesne technologie zarządzania treścią

Sprawy organizacyjne. Zawartość zajęć. Plan wykładu. O mnie. Moje projekty. XML i nowoczesne technologie zarządzania treścią

METAJĘZYKI

XML Extensible Markup Language

XML i nowoczesne metody zarządzania treścią

Rola języka XML narzędziem

XML i nowoczesne metody zarządzania treścią

Środowisko XML (Extensible Markup Language).

Implementacja standardu GML w oprogramowaniu firmy INTERGRAPH

Model semistrukturalny

WYKŁAD 1 METAJĘZYK SGML CZĘŚĆ 1

mgr inż. Jacek Staniec Język XML

Extensible Markup Language (XML) Wrocław, Java - technologie zaawansowane

Plan dzisiejszego wykładu. Narzędzia informatyczne w językoznawstwie. XML - Definicja. Zalety XML

Po zakończeniu rozważań na temat World Wide Web, poznaniu zasad organizacji witryn WWW, przeczytaniu kilkudziesięciu stron i poznaniu wielu nowych

Blok I6 Nowoczesne postaci dokumentów - tworzenie i wymiana dokumentów komputerowych

Tomasz Grześ. Systemy zarządzania treścią

Rok akademicki: 2013/2014 Kod: ZZIP IN-s Punkty ECTS: 2. Kierunek: Zarządzanie i Inżynieria Produkcji Specjalność: Informatyka w zarządzaniu

Rozdział 1. Informacje podstawowe

Wprowadzenie do technologii XML

HTML nie opisuje układu strony!!!

XPath XML Path Language. XPath. XSLT część 1. XPath data model. Wyrażenia XPath. Location paths. Osie (axes)

XML extensible Markup Language. Paweł Chodkiewicz

Źródła. cript/1.5/reference/ Ruby on Rails: AJAX: ssays/archives/

Narzędzia informatyczne w językoznawstwie

Wprowadzenie do XML. Joanna Jędrzejowicz. Instytut Informatyki

c TP: anything: 13 listopada 2004 roku 1

Wprowadzenie do arkuszy stylistycznych XSL i transformacji XSLT

Bazy danych i strony WWW

ROZPORZĄDZENIE RADY MINISTRÓW. z dnia 11 października 2005 r. (Dz. U. z dnia 28 października 2005 r.)

Języki formatowania dokumentów strukturalnych. XSL przekształcenia XML-a. XSL a XSLT. XSL części składowe. Zasada działania przekształcenia XSLT

Komunikacja i wymiana danych

Semantic Web Internet Semantyczny

Programowanie obiektowe zastosowanie języka Java SE

UEK w Krakowie Janusz Stal & Grażyna Paliwoda-Pękosz

Lab.1. Praca z tekstem: stosowanie arkuszy stylów w dokumentach OO oraz HTML/CSS

ECDL/ICDL Web Editing Moduł S6 Sylabus - wersja 2.0

Programowanie w Internecie

3 grudnia Sieć Semantyczna

29. Poprawność składniowa i strukturalna dokumentu XML

ROZPORZĄDZENIE RADY MINISTRÓW. z dnia 11 października 2005 r. w sprawie minimalnych wymagań dla systemów teleinformatycznych

O stronach www, html itp..

Języki programowania wysokiego poziomu WWW

LAB 7. XML EXtensible Markup Language - Rozszerzalny Język Znaczników XSD XML Schema Definition Definicja Schematu XML

Przedmiot: Grafika komputerowa i projektowanie stron WWW

Programowanie internetowe

ABC języka HTML i XHTML / Maria Sokół. wyd. 2. Gliwice, cop Spis treści

Ogólna struktura dokumentu XSL-FO. Model formatowania. Ogólna struktura dokumentu XSL-FO C.d. Przykład Hello World Użycie szablonu strony

Generated by Foxit PDF Creator Foxit Software For evaluation only. System Szablonów

Otwarte protokoły wymiany informacji w systemach ITS

Programowanie obiektowe. Literatura: Autor: dr inŝ. Zofia Kruczkiewicz

Wykorzystanie standardów serii ISO oraz OGC dla potrzeb budowy infrastruktury danych przestrzennych

Jak wygląda XML? Definiowanie typów dokumentów Część 1. DTD, XML Schema. Struktura logiczna dokumentu XML. Składnia XML. Encje predefiniowane.

E.14.1 Tworzenie stron internetowych / Krzysztof T. Czarkowski, Ilona Nowosad. Warszawa, Spis treści

Prezentacja dokumentów XML

Część I -ebxml. UEK w Krakowie Janusz Stal & Grażyna Paliwoda-Pękosz. UEK w Krakowie Janusz Stal & Grażyna Paliwoda-Pękosz

Sposób doręczania dokumentów elektronicznych. do Urzędu Gminy Zawady

Relacyjne bazy danych a XML

Część II. UEK w Krakowie Janusz Stal & Grażyna Paliwoda-Pękosz. UEK w Krakowie Janusz Stal & Grażyna Paliwoda-Pękosz

Podstawy elektronicznej wymiany danych. UEK w Krakowie Janusz Stal & Grażyna Paliwoda-Pękosz

SYSTEM ZARZĄDZANIA TREŚCIĄ (CMS) STRONY INTERNETOWEJ SZKOŁY PRZEWODNIK

WITRYNY I APLIKACJE INTERNETOWE

Sylabus Moduł 2: Przetwarzanie tekstów

Sprawy organizacyjne. Zawartość zajęć. Plan wykładu. O mnie. Moje projekty (wybór) XML i nowoczesne technologie zarządzania treścią

Flex 3. Piotr Strzelczyk Wydział EAIiE Katedra Automatyki. Kraków, 2008

URL:

Jak wygląda XML? Definiowanie typów dokumentów Część 1. DTD, XML Schema. Struktura logiczna dokumentu XML. Składnia XML. Encje predefiniowane.

Cel ogólny lekcji: Wprowadzenie do tworzenia stron WWW w języku HTML. Wprowadzenie pojęć: strona WWW, język HTML, dokument HTML.

Elektroniczna wymiana danych (EDI) jest to: - wymiana informacji pomiędzy komputerami, z użyciem powszechnie akceptowanych standardów

Pla$orma edukacyjna czy to wystarczy? Przygotował: Artur Dyro, Prezes Learnetic S.A.

Systemy obiegu informacji i Protokół SWAP "CC"

NIEZAWODNE ROZWIĄZANIA SYSTEMÓW AUTOMATYKI. asix. Aktualizacja pakietu asix 4 do wersji 5 lub 6. Pomoc techniczna

Zakres treści Czas. 2 Określenie charakteru i tematyki strony. Rodzaje witryn. Projekt graficzny witryny. Opracowanie skryptów

LABORATORIUM 5 WSTĘP DO SIECI TELEINFORMATYCZNYCH WPROWADZENIE DO XML I XSLT

STRONY INTERNETOWE mgr inż. Adrian Zapała

KARTA KURSU. Przetwarzanie dokumentów XML i zaawansowane techniki WWW

Opis standardu. Dokumenty w postaci czystego (niesformatowanego) zbioru znaków zapisanych w standardzie Unicode UTF-8 jako pliki typu.

Historia kodowania i format plików XML. Jolanta Bachan

JAK W SYSTEMIE MS WINDOWS PRZYGOTOWAĆ PRACĘ DYPLOMOWĄ W WERSJI PDF?

Technologie informacyjne

Jak wygląda XML? Definiowanie typów dokumentów. Struktura logiczna dokumentu XML. Podstawy składni XML. Definiowanie języków. Poprawność dokumentów

Copyright wersji angielskiej: The European Computer Driving Licence Foundation Ltd. Copyright wersji polskiej: Polskie Towarzystwo Informatyczne

Cel wykładu. Literatura. WyŜsza Szkoła MenedŜerska w Legnicy. Wykład 1. Informatyka w zarządzaniu Zarządzanie, zaoczne, sem. 3

The Office of Scientific and Technical Information (OSTI)

5-6. Struktura dokumentu html. 2 Określenie charakteru i tematyki strony. Rodzaje witryn. Projekt graficzny witryny. Opracowanie skryptów

Programowanie komponentowe

INFORMATYKA, TECHNOLOGIA INFORMACYJNA ORAZ INFORMATYKA W LOGISTYCE

Informatyka kl. 1. Semestr I

Kurs HTML 4.01 TI 312[01]

PLAN WYNIKOWY PROGRAMOWANIE APLIKACJI INTERNETOWYCH. KL III TI 4 godziny tygodniowo (4x30 tygodni =120 godzin ),

Szczegółowy opis języka HTML5 znajdziemy w specyfikacji, która jest dostępna pod adresem

Jak wygląda XML? Definiowanie typów dokumentów Część 1. DTD. Struktura logiczna dokumentu XML. Podstawy składni XML. Definiowanie języków

Spis treści Informacje podstawowe Predykaty Przykłady Źródła RDF. Marek Prząda. PWSZ w Tarnowie. Tarnów, 6 lutego 2009

2 Podstawy tworzenia stron internetowych

Transkrypt:

Historia rozwoju technik znakowania tekstu Znakowanie tekstu Markup: the process of marking manuscript copy for typesetting with directions for use of type fonts and sizes, spacing, indentation, etc. The Chicago Manual Of Style wytłuszczyć wcięcie Hamlet odstęp Być albo nie być. Oto jest pytanie. 2008-10-02 Historia rozwoju technik znakowania tekstu 2 1

Znakowanie tekstu w epoce komputerów Treść Hamlet Być albo nie być. Oto jest pytanie Formatowanie, adjustacja {nowy_wiersz} {bold} {wyłącz_bold} {wcięcie} Dokument Hamlet {bold}hamlet{wyłącz_bold}{nowy_wiersz}{wcięcie} Być albo nie być. Oto jest pytanie. Być albo nie być. Oto jest pytanie. + = 2008-10-02 Historia rozwoju technik znakowania tekstu 3 Przykłady języków znakowania Frame (MIF) <Font <FTag `B >> <String `Hamlet > QuarkXPress <B>Hamlet<B> RTF {\b\f5\cf1 Hamlet} Ventura <B>Hamlet<D> TeX/LaTeX \textbf{hamlet} PostScript /Times-BoldR 900 ff (Hamlet)W HTML <B>Hamlet</B> 2008-10-02 Historia rozwoju technik znakowania tekstu 4 2

Rozwój języków uogólnionego znakowania tekstu 1969: GML Generalized Markup Language (IBM; Goldfarb, Mosher, Laurie). 1986: SGML Standard Generalized Markup Language, ISO 8879:1986. 1991: powstaje World Wide Web. 1994: HTML 2.0 zdefiniowany jako zastosowanie SGML-a. 1998: XML Extensible Markup Language, World Wide Web Consortium. 2008-10-02 Historia rozwoju technik znakowania tekstu 5 Korzenie Lata 60-te XX wieku: 1967 William Tunnicliffe, prezes Graphic Communications Association, podczas spotkania w Canadian Government Printing Office przedstawia ideę oddzielenia zawartości informacyjnej dokumentów od ich formatu, Stanley Rice proponuje uŝycie uniwersalnych znaczników do znakowania struktury tekstu, projekt GenCode definiuje sposób oznaczania tekstu ukierunkowany na jego strukturę. 2008-10-02 Historia rozwoju technik znakowania tekstu 6 3

Korzenie: INTIME INTIME INteractive Textual Information Management Experiment: projekt badawczy Charlesa Goldfarba (IBM Cambridge Scientific Center, koniec lat 60-tych XX wieku), prototyp zintegrowanego systemu przetwarzania tekstu: edycja tekstu, repozytorium dokumentów, wyszukiwanie; wykorzystane technologie: maszyny wirtualne na mainframie IBM 360, concurrent access to a disk file, context editors. 2008-10-02 Historia rozwoju technik znakowania tekstu 7 Edytor kontekstowy LOCATE /researchers/ researchers. A system which integrates CHANGE /researchers/analysts/ analysts. A system which integrates CHANGE /edit/edit/ * In online systems, text editing is are known as "context" editors. They NEXT provide a retrieval capability: e.g., QUIT 2008-10-02 Historia rozwoju technik znakowania tekstu 8 4

Wnioski z projektu INTIME Wyszukiwanie jest efektywniejsze gdy znana jest struktura i przeznaczenie poszczególnych fragmentów tekstu. Opracowano heurystykę odgadującą strukturę tekstu, ale zauwaŝono potrzebę oznaczania struktury w dokumencie źródłowym. Istniejące (wówczas) języki znakowania tekstu koncentrują się na wyglądzie, a nie strukturze czy znaczeniu tekstu. Na podst.: C. Goldfarb, SGML: The Reason Why and the First Published Hint, Journal of the American Society for Information Science, Volume 48, Number 7 (July 1997) 2008-10-02 Historia rozwoju technik znakowania tekstu 9 GML i SGML GML: 1969, Charles Goldfarb, Edward Mosher, Raymond Lorie, powstał jako język makr do edytora IBM SCRIPT: opisujących strukturę dokumentu, zamienianych na znaczniki formatujące. moŝliwe było rozszerzanie początkowego zbioru znaczników. narzędzie pozwalało na definiowanie wielu profili wizualizujących dokument. SGML: pierwsze wersje robocze w 1980. standard ISO w 1986. rozwinięty potomek GML. 2008-10-02 Historia rozwoju technik znakowania tekstu 10 5

Wokół SGML-a Pierwsze szerzej znane zastosowania SGML-a: Electronic Manuscript Project, Association of American Publishers, 1987, CALS Computer-Aided Acquisition and Logistic Support, US Department of Defense, MIL-M-28001, February 1988. Standardy pokrewne: DSSSL Document Style Semantics and Specification Language, HyTime: meta-notacja dla linków, opis struktur multimedialnych, rozciągniętych w czasie. 2008-10-02 Historia rozwoju technik znakowania tekstu 11 World Wide Web Consortium (W3C) Kuźnia standardów internetowych, np.: HTML Hyper Text Markup Language, HTTP Hyper Text Transfer Protocol, CSS Cascading StyleSheets,... XML Extensible Markup Language: najwaŝniejsza rekomendacja ostatnich lat, twórcy: Tim Bray (Netscape), Jean Paoli (Microsoft), C.M. Sperberg-McQueen (University of Illinois). Obecne dominują prace nad standardami związanymi z XML-em. 2008-10-02 Historia rozwoju technik znakowania tekstu 12 6

Programy i ich formaty Prawie kaŝda aplikacja wprowadza swój wewnętrzny format. Nowe wersje tej samej aplikacji wprowadzają zmiany do uŝywanego formatu: wsteczna kompatybilność, brak moŝliwości zapisu do formatu poprzednich wersji. Aplikacje dostarczają konwerterów: tylko do najpopularniejszych formatów, moŝliwość utraty danych podczas konwersji. 2008-10-02 Historia rozwoju technik znakowania tekstu 13 Standardy Nie istnieją uznane standardy. Istnieją substandardy w róŝnych dziedzinach: dokumenty biurowe: Microsoft Word, teksty naukowe: Postscript, TeX, Internet: HTML, GIF, JPG, elektroniczna wymiana danych: EDIFACT. Standard musi być: własnością publiczną, otwarty i jawny, niezaleŝny od konkretnego producenta oprogramowania. 2008-10-02 Historia rozwoju technik znakowania tekstu 14 7

Potrzeba struktury Masa informacji cyfrowej powoduje potrzebę struktury: jeden format dokumentu nie wystarczy dla 5 miliardów ludzi, ale nie moŝemy operować milionami niekompatybilnych formatów. 2008-10-02 Historia rozwoju technik znakowania tekstu 15 Ewolucja Internetu człowiek człowiek człowiek aplikacja aplikacja człowiek aplikacja aplikacja czas start dzisiaj 2008-10-02 Historia rozwoju technik znakowania tekstu 16 8

Idea SGML/XML (1) Oddzielenie znaczenia tekstu od sposobu prezentacji <OSOBA MÓWIĄCA>Hamlet</OSOBA MÓWIĄCA> <WYPOWIEDŹ>Być albo nie być. Oto jest pytanie.</wypowiedź> 2008-10-02 Historia rozwoju technik znakowania tekstu 17 Sposób prezentacji OSOBA MÓWIĄCA nowy akapit do lewej wytłuszczenie WYPOWIEDŹ nowy akapit wcięcie na 2 cm do lewej Hamlet Być albo nie być. Oto jest pytanie. 2008-10-02 Historia rozwoju technik znakowania tekstu 18 9

Inny sposób prezentacji OSOBA MÓWIĄCA na marginesie tekst pionowo niebieski hiperlink do opisu postaci na początku dramatu WYPOWIEDŹ nowy akapit kursywa ew. uŝyj syntezatora mowy z ustawieniami dla OSOBY MÓWIĄCEJ Hamlet Być albo nie być. Oto jest pytanie. 2008-10-02 Historia rozwoju technik znakowania tekstu 19 Idea SGML/XML (2) Stworzenie najodpowiedniejszego modelu dla naszych własnych dokumentów. <OSOBA MÓWIĄCA>Hamlet</OSOBA MÓWIĄCA> <WYPOWIEDŹ> <NUDA> Być albo nie być. Oto jest pytanie. </NUDA> </WYPOWIEDŹ> 2008-10-02 Historia rozwoju technik znakowania tekstu 20 10

Najodpowiedniejszy model Przykłady: encyklopedia: <nazwisko>, <imie>, <ur>, <zm>, <wymowa>, <etymologia>, <liczba-mieszk> prawo: <promulgator>, <rocznik>, <poz>, <art> <sąd>, <sygn-wyroku>, <teza> dokument techniczny: <part-number>, <function-name> patenty: <wynalazca>, <nr-zgłoszenia> ubezpieczenia: <data-polisy>, <wartość-polisy> 2008-10-02 Historia rozwoju technik znakowania tekstu 21 Język metajęzyk Stan wyjściowy: WieŜa Babel (brak wspólnego języka), czy w ogóle moŝliwy jeden wspólny język? Wspólny metajęzyk: znana gramatyka, jednolita metodologia, takie same narzędzia. Dowolnie wiele języków specyficznych dla zastosowań. 2008-10-02 Historia rozwoju technik znakowania tekstu 22 11

Genealogia XML-a... CDF RDF XML SGML GML SVG HTML VRML... 2008-10-02 Historia rozwoju technik znakowania tekstu 23 Co to jest XML? XML to nie język programowania. XML to sposób zapamiętywania danych wraz z ich strukturą w dokumencie tekstowym: otwarty, elastyczny, bezpłatny, niezaleŝny od platformy sprzętowej. XML to rama składniowa do tworzenia języków specyficznych dla zastosowań. UŜycie XML-a nie zwalnia od myślenia (analizy, projektowania,...) 2008-10-02 Historia rozwoju technik znakowania tekstu 24 12

Jak wygląda XML? <?xml version= 1.0?> <zeznanie-sprawcy nr= 1313/2001 > <autor>st. asp. Jan Łapówka</autor> <miejsce>dołowice Górne</miejsce> <treść>wypadek dnia <data>13.10.2001r</data> o godzinie <godzina>13:13</godzina> (<dzien-tygodnia>piątek </dzien-tygodnia>) miał miejsce nie z mojej winy. <poszkodowany>alojzy M.</poszkodowany> nie miał Ŝadnego pomysłu w którą stronę uciekać, więc go przejechałem.</treść> </zeznanie-sprawcy> Deklaracja XML Element główny Atrybut Element Znacznik początkowy Znacznik końcowy Zawartość tekstowa 2008-10-02 Historia rozwoju technik znakowania tekstu 25 HTML XML Znaczenie elementów i ich atrybutów z góry określone. Znaczenie elementów i ich atrybutów określa uŝytkownik lub aplikacja. Interpretację elementów określa standard, a w praktyce przeglądarki internetowe. <p> moŝe w jednym dokumencie oznaczać paragraf, w drugim pomoc, a w trzecim pismo odręczne. To, co jest poprawne równieŝ określają przeglądarki internetowe. Poprawność XML-a jest ściśle określona przez specyfikację. 2008-10-02 Historia rozwoju technik znakowania tekstu 26 13

SGML XML Filozofia: jeden duŝy system zarządzania treścią. Konieczność definiowania struktury. Skomplikowana składnia, wiele opcji. Trudność tworzenia parserów. Bardzo drogie narzędzia. Filozofia: wiele małych komunikujących się ze sobą modułów. Opcjonalne definiowanie struktury. Uproszczona składnia. Łatwość tworzenia parserów. Darmowe narzędzia. 2008-10-02 Historia rozwoju technik znakowania tekstu 27 Klasy zastosowań XML-a Zarządzanie dokumentami, treścią, wiedzą: Pierwotne zastosowanie SGML-a. Dokumenty tworzone przez człowieka i przeznaczone dla człowieka. Długi czas Ŝycia dokumentów. Typowy model mieszany zawartości. Elektroniczna wymiana danych, integracja aplikacji: Nowa klasa zastosowań XML-a. Dokumenty tworzone oraz przetwarzane automatycznie Dokumenty tworzone tylko na czas komunikacji. Konieczność dokładnego kontrolowania struktury i zawartości. 2008-10-02 Historia rozwoju technik znakowania tekstu 28 14

Dwie twarze XML-a Dokument tekstowy: <zeznanie-sprawcy> Wypadek dnia <data> 13.01.2001 r.</data> o godzinie <godzina>13.13 </godzina> (<dzientygodnia>piątek </dzien-tygodnia>) miał miejsce nie z mojej winy. <poszkodowany>alojzy M.</poszkodowany> nie miał Ŝadnego pomysłu w którą stronę uciekać, więc go przejechałem. </zeznanie-sprawcy> Baza danych: <zamowienie> <pozycja> <nazwa>papier</nazwa> <jednostka>ryza </jednostka> <ilosc>3</ilosc> </pozycja> <zamawiajacy id= 123456 > <imie>szymon</imie> <nazwisko>zioło </nazwisko> <firma>abg Ster-Projekt </firma> </zamawiajacy> </zamowienie> 2008-10-02 Historia rozwoju technik znakowania tekstu 29 Literatura: historia XML-a Charles F. Goldfarb's SGML Source Home Page: www.sgmlsource.com Wypych, W., Na początku był rękopis, czyli o historii XML-a: Software 2.0, 6/2001 2008-10-02 Historia rozwoju technik znakowania tekstu 30 15