Historia rozwoju technik znakowania tekstu

Podobne dokumenty
Historia rozwoju technik znakowania tekstu

Znakowanie tekstu w epoce komputerów

extensible Markup Language, cz. 1 Marcin Gryszkalis, mg@fork.pl

Sprawy organizacyjne. XML i nowoczesne technologie zarządzania treścią. Plan wykładu. Zawartość zajęć. empolis. O mnie

XML i nowoczesne metody zarządzania treścią

Plan wykładu. O mnie

Sprawy organizacyjne. XML i nowoczesne technologie zarządzania treścią. Zawartość zajęć. Plan wykładu. empolis. O mnie

Sprawy organizacyjne. Zawartość zajęć. Plan wykładu. O mnie. empolis. XML i nowoczesne technologie zarządzania treścią

WYKŁAD 1 METAJĘZYK SGML CZĘŚĆ 1

Sprawy organizacyjne. Zawartość zajęć. Plan wykładu. O mnie. Moje projekty. XML i nowoczesne technologie zarządzania treścią

Rola języka XML narzędziem

29. Poprawność składniowa i strukturalna dokumentu XML

XML i nowoczesne metody zarządzania treścią

Po zakończeniu rozważań na temat World Wide Web, poznaniu zasad organizacji witryn WWW, przeczytaniu kilkudziesięciu stron i poznaniu wielu nowych

2 Podstawy tworzenia stron internetowych

Przedmiot: Grafika komputerowa i projektowanie stron WWW

O stronach www, html itp..

Plan dzisiejszego wykładu. Narzędzia informatyczne w językoznawstwie. XML - Definicja. Zalety XML

XML extensible Markup Language. Paweł Chodkiewicz

XPath XML Path Language. XPath. XSLT część 1. XPath data model. Wyrażenia XPath. Location paths. Osie (axes)

Zakres treści Czas. 2 Określenie charakteru i tematyki strony. Rodzaje witryn. Projekt graficzny witryny. Opracowanie skryptów

mgr inż. Jacek Staniec Język XML

URL:

Wprowadzenie do arkuszy stylistycznych XSL i transformacji XSLT

METAJĘZYKI

XML Extensible Markup Language

Extensible Markup Language (XML) Wrocław, Java - technologie zaawansowane

5-6. Struktura dokumentu html. 2 Określenie charakteru i tematyki strony. Rodzaje witryn. Projekt graficzny witryny. Opracowanie skryptów

Źródła. cript/1.5/reference/ Ruby on Rails: AJAX: ssays/archives/

Copyright wersji angielskiej: The European Computer Driving Licence Foundation Ltd. Copyright wersji polskiej: Polskie Towarzystwo Informatyczne

KATEGORIA OBSZAR WIEDZY

HTML nie opisuje układu strony!!!

Tomasz Grześ. Systemy zarządzania treścią

ABC języka HTML i XHTML / Maria Sokół. wyd. 2. Gliwice, cop Spis treści

Narzędzia informatyczne w językoznawstwie

Technologie informacyjne

Prezentacja dokumentów XML

Historia kodowania i format plików XML. Jolanta Bachan

Programowanie internetowe

Wprowadzenie do XML. Joanna Jędrzejowicz. Instytut Informatyki

Implementacja standardu GML w oprogramowaniu firmy INTERGRAPH

Elementarz HTML i CSS

LAB 7. XML EXtensible Markup Language - Rozszerzalny Język Znaczników XSD XML Schema Definition Definicja Schematu XML

Rok akademicki: 2013/2014 Kod: ZZIP IN-s Punkty ECTS: 2. Kierunek: Zarządzanie i Inżynieria Produkcji Specjalność: Informatyka w zarządzaniu

Format HTML. Wybrane działy Informatyki Stosowanej. Definicja i przeznaczenie Struktura dokumentu Znaczniki Formularze i komponenty

Model semistrukturalny

Prezentacja dokumentów XML

Informatyka kl. 1. Semestr I

Struktura języka HTML ZNACZNIKI. Oto bardzo prosta strona WWW wyświetlona w przeglądarce: A tak wygląda kod źródłowy takiej strony:

Rozdział 1. Informacje podstawowe

Zaawansowana Pracownia Komputerowa - Ćwiczenia. Krzysztof Miernik

Sylabus Moduł 2: Przetwarzanie tekstów

INFORMATYKA KLASA IV

Wprowadzenie do technologii XML

KARTA KURSU. Przetwarzanie dokumentów XML i zaawansowane techniki WWW

Teraz bajty. Informatyka dla szkoły podstawowej. Klasa 4 Wymagania edukacyjne na poszczególne oceny szkolne dla klasy 4

Teraz bajty. Informatyka dla szkoły podstawowej. Klasa IV

Prezentacja dokumentów XML

Sylabus Moduł 4: Grafika menedżerska i prezentacyjna

Środowisko XML (Extensible Markup Language).

Technologie informacyjne. semestr I, studia niestacjonarne I stopnia Elektrotechnika rok akademicki 2013/2014 Pracownia nr 2 dr inż.

ECDL/ICDL Web Editing Moduł S6 Sylabus - wersja 2.0

XHTML - Extensible Hypertext Markup Language, czyli Rozszerzalny Hipertekstowy Język Oznaczania.

GML w praktyce geodezyjnej

LABORATORIUM 5 WSTĘP DO SIECI TELEINFORMATYCZNYCH WPROWADZENIE DO XML I XSLT

Języki programowania wysokiego poziomu WWW

Konspekt lekcji informatyki 2003/2004

KATEGORIA OBSZAR WIEDZY

ECDL/ICDL Przetwarzanie tekstów Moduł B3 Sylabus - wersja 5.0

Generated by Foxit PDF Creator Foxit Software For evaluation only. System Szablonów

Oprogramowanie typu CAT

Wprowadzenie do XML. Tomasz Przechlewski

Spis treści 3. Spis treści

1 XML w bazach danych

<html> </html> <body> </body> <p> [</p>] <br> <html> <head> </head> <body> </body> </html> Materiały dydaktyczne 1/5

DTD - encje ogólne i parametryczne, przestrzenie nazw

Microsoft Office 2016 Krok po kroku

Jak wygląda XML? Definiowanie typów dokumentów Część 1. DTD, XML Schema. Struktura logiczna dokumentu XML. Składnia XML. Encje predefiniowane.

Tworzenie Stron Internetowych. odcinek 6

Komunikacja i wymiana danych

Zadanie 1. Stosowanie stylów

1. Narzędzia główne: WORD 2010 INTERFEJS UŻYTKOWNIKA. wycinamy tekst, grafikę

Pierwsza strona internetowa

Ćwiczenie 4 Konspekt numerowany

Wykorzystanie standardów serii ISO oraz OGC dla potrzeb budowy infrastruktury danych przestrzennych

Temat 10 : Poznajemy zasady pracy w edytorze tekstu Word.

Języki formatowania dokumentów strukturalnych. XSL przekształcenia XML-a. XSL a XSLT. XSL części składowe. Zasada działania przekształcenia XSLT

Elektroniczna wymiana danych (EDI) jest to: - wymiana informacji pomiędzy komputerami, z użyciem powszechnie akceptowanych standardów

Lab.1. Praca z tekstem: stosowanie arkuszy stylów w dokumentach OO oraz HTML/CSS

Z nowym bitem Zajęcia komputerowe dla szkoły podstawowej. Wymagania na poszczególne oceny szkolne dla klasy IV

ECDL/ICDL Przetwarzanie tekstów Moduł B3 Sylabus - wersja 6.0

Opis założonych osiągnięć ucznia wymagania na poszczególne oceny szkolne dla klasy VIII. Opracowano w oparciu o pomoce naukowe Migra (

używane skróty: HTTP - protokół do transferu tekstu, hipertekstu, zbiorów binarnych URL - jednolity lokalizator zasobów

Kurs programowania. Wykład 7. Wojciech Macyna. 25 kwietnia 2017

Curtis D. Frye. Microsoft Excel Krok po kroku. Przekład: Leszek Biolik

STRONY INTERNETOWE mgr inż. Adrian Zapała

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA realizacja w roku akademickim 2016/2017

Hot Potatoes. Zdania z lukami Przyporządkowanie. Tworzy spis wszystkich zadań. Krzyżówki

Transkrypt:

Historia rozwoju technik znakowania tekstu Patryk Czarnik Instytut Informatyki UW XML i nowoczesne technologie zarzadzania treścia 2007/08 Idea znakowania Prehistoria Kategorie znakowań Historia Historyczne pomysły Droga do SGML Droga do XML Idee SGML i XML SGML XML

To jest XML (1) <wykład tytuł="historia technik znakowania tekstu"> <slajd tytuł="to jest XML (1)"> <par> XML jest standardem do zapisywania danych tekstowych <ważne>wraz z ich strukturą</ważne>. </par> </slajd> </wykład> To jest XML (2) <?xml version="1.0" encoding="iso-8859-2"?> <!-- Komentarz --> <element_glowny> <podelement atrybut= Wartość atrybutu inny-atrybut="123"> Zawartość tekstowa <elem>i zanurzony element</elem>. <element_pusty moze_miec="atrybut"/> </podelement> Zawartość tekstowa &encja; Ƕ <![CDATA[x < 5 & x > -5]]> </element_glowny>

Znakowanie tekstu źródła Markup znakowanie. Źródła: ręczne znakowanie tekstu przeznaczonego do druku. Znakowanie tekstu kategorie Znakowanie interpunkcyjne i prezentacyjne. Znakowanie proceduralne. Znakowanie opisowe. Znakowanie referencji.

Znakowanie interpunkcyjne i prezentacyjne Nawet piszac płaski tekst (np. nieformatowany email) używamy znaczników: znaki interpunkcyjne, wielkość liter, odstępy w poziomie i pionie, ręczne wypunktowania, numeracje itp. Informacja ta może być wykorzystana do odtworzenia (także automatycznego) struktury tekstu. Znakowanie proceduralne Znaczniki powoduja określone zachowanie programu czytajacego, zazwyczaj zastosowanie określonego formatowania. Przykłady: Postscript, TeX, częściowo LaTeX, np. \tt, \center, bezpośrednie formatowanie w Wordzie, znaczniki HTML takie jak <B> czy <BR>.

Wady bezpośredniego formatowania Dokument w danej chwili posiada tylko jedno formatowanie, zmiana formatowania wymaga zmian w dokumencie. Brak pewnego sposobu na automatyczne rozróżnienie różnych znaczeniowo fragmentów tekstu o tym samym formatowaniu. Przykład: zarówno cytaty jak i wyróżnienia oznaczamy kursywa, następnie chcemy wszystkie wyróżnienia oznaczyć pogrubieniem. Znakowanie opisowe (strukturalne, semantyczne) Znaczniki opisuja rolę fragmentów tekstu: struktura dokumentu (rozdział, paragraf, lista), znaczenie fragmentów tekstu (definicja, cytat, osoba). Przykłady: częściowo LaTeX, np. \section, \theorem, style w Wordzie, znaczniki HTML takie jak <H1>, <P>, <Q>, <DFN>.

Zalety znakowania opisowego Znajomość struktury znacznie ułatwia analizę i wyszukiwanie (możliwe wyszukiwanie kontekstowe). Możliwość stosowania wielu formatowań do tego samego dokumentu. Możliwość wykorzystania danego formatowania do wielu dokumentów. Znakowanie referencji Zastosowania: wstawianie znaków i fragmentów tekstu, właczanie fragmentów z zewnętrznych źródeł bez kopiowania, odnośniki do dokumentów i miejsc w dokumentach. Zalety: możliwa zmiana wstawianych znaków i tekstów w zależności od kontekstu czy wybranego formatowania, uaktualnianie fragmentów z zewnętrznych źródeł.

Historia komputerowego znakowania tekstu Znakowanie zorientowane na wyglad Program RUNOFF (1964), następnie nroff i troff w pierwszych systemach UNIXowych. Edytory typu WYSWIG (tekstowe koniec lat 60-tych, graficzne lata 80-te). TeX (Donald Knuth, koniec lat 70-tych), LaTeX (poczatek lat 80-tych). Postscript (połowa lat 80-tych). RTF (1987).

W.Tunnicliffe i GenCode Pierwsze głosy dot. znakowania opisowego 1967 William Tunnicliffe, prezes Graphic Communications Association, podczas spotkania w Canadian Government Printing Office przedstawia ideę oddzielenia zawartości informacyjnej dokumentów od ich formatu, Stanley Rice proponuje użycie uniwersalnych znaczników do znakowania struktury tekstu. Projekt GenCode definiuje sposób oznaczania tekstu ukierunkowany na jego strukturę. B.Reid i Scribe Alternatywna droga Brian Reid, pod koniec lat 70-tych opracowuje, a w 1981 przedstawia Scribe: język znaczników i system przetwarzania tekstu, wyraźne oddzielenie treści od formatu, idea arkusza stylu, podobno pomysły wzięte pod uwagę przy projektowaniu SGML.

INTIME INteractive Textual Information Management Experiment Projekt badawczy Charlesa Goldfarba (IBM, koniec lat 60-tych XX wieku), Prototyp zintegrowanego systemu przetwarzania tekstu: edycja tekstu, repozytorium dokumentów, wyszukiwanie. (Oczywiście) obsługa za pomoca konsoli tekstowej i ręcznie wpisywanych poleceń. Wnioski z projektu INTIME Wyszukiwanie jest efektywniejsze gdy znana jest struktura (znaczenie poszczególnych fragmentów) tekstu. Opracowano heurystykę odgadujac a strukturę tekstu, ale zauważono potrzebę oznaczania struktury w źródle. Istniejace (wówczas) języki znakowania tekstu koncentruja się na wygladzie, a nie strukturze czy znaczeniu. Charles Goldfarb bierze udział w pracach nad standardem GML a później SGML.

GML Generalized Markup Language Poczatki: 1969; Charles Goldfarb, Edward Mosher, Raymond Lorie. Powstał jako język makr do edytora IBM SCRIPT: opisujacych strukturę dokumentu, zamienianych na znaczniki formatujace. Możliwe było rozszerzanie poczatkowego zbioru znaczników. Narzędzie pozwalało na definiowanie wielu profili wizualizujacych dokument. SGML Standard Generalized Markup Language Pierwsze wersje robocze w 1980. Standard ISO w 1986. Rozwinięty potomek GML. Domyślnie w SGML znaczniki z trójkatnymi nawiasami. Dopuszczalne także znaczniki jak w GML: :ol :li.ordered lists (like this one), :li.unordered lists, and :li.definition lists :eol.

SGML Ważne zastosowania Pierwsze szerzej znane zastosowania: Electronic Manuscript Project, Association of American Publishers, 1987, CALS Computer-Aided Acquisition and Logistic Support, US Department of Defense, 1988. HTML 2.0 zdefiniowany jako zastosowanie SGML w 1991. DocBook (poczatki 1991). Standardy zwiazane z SGML: DSSSL Document Style Semantics and Specification Language, HyTime meta-notacja dla linków oraz opis struktur multimedialnych rozciagniętych w czasie. Ewolucja internetu 1. człowiek człowiek, 2. człowiek aplikacja, 3. aplikacja aplikacja. Elektroniczna wymiana danych wymaga dobrze określonego, uniwersalnego i taniego w obsłudze standardu.

Dlaczego nie SGML? Spodziewane użycie SGML: duże scentralizowane systemy przetwarzajace dokumenty, przetwarzanie tekstu i publikacje, człowiek ręcznie edytujacy dokumenty. Nowe wyzwania (XML): architektura rozproszona, lekkie komponenty, sposób reprezentacji danych elektroniczna wymiana danych, bazy danych, dokumenty przetwarzane wyłacznie automatycznie. World Wide Web Consortium (W3C) Kuźnia standardów internetowych, np.: HTML Hyper Text Markup Language, HTTP Hyper Text Transfer Protocol, CSS Cascading StyleSheets, XML Extensible Markup Language: najważniejsza rekomendacja ostatnich lat, twórcy: Tim Bray (Netscape), Jean Paoli (Microsoft), C.M. Sperberg-McQueen (University of Illinois). Obecnie głównie prace nad standardami zwi azanymi z XML.

Idea SGML i XML znaczniki opisowe Znaczniki mówia o znaczeniu a nie wygladzie tekstu. Znaczniki otwierajace i zamykajace. <OSOBA MÓWIĄCA>Hamlet</OSOBA MÓWIĄCA> <WYPOWIEDŹ>Być albo nie być. Oto jest pytanie.</wypowiedź> Idea SGML i XML formatowanie Informacja o wygladzie poza treścia dokumentu. OSOBA MÓWIĄCA Arial 14 pogrubiony, WYPOWIEDŹ Times 12 normaly, wcięcie 1.5 cm.

Idea SGML i XML model Można i należy dostosować zestaw znaczników do problemu. Model definiuje słownik pojęć i zależności między nimi (analogia: klasy w UML). SGML i XML pozwala na ograniczenie struktury dokumentu zgodnie z opracowanym modelem (Definicja Typu Dokumentu). <OSOBA MÓWIĄCA>Hamlet</OSOBA MÓWIĄCA> <WYPOWIEDŹ><NUDA>Być albo nie być. Oto jest pytanie.<nuda></wypowiedź> Najodpowiedniejszy model encyklopedia: <nazwisko>, <imie>, <ur>, <zm>, <wymowa>, <etymologia>, <liczba-mieszk> prawo: <promulgator>, <rocznik>, <poz>, <art>, <sąd>, <sygn-wyroku>, <teza> dokument techniczny: <part-number>, <function-name> patenty: <wynalazca>, <nr-zgłoszenia>

Język metajęzyk Stan wyjściowy: Wieża Babel (brak wspólnego języka). Wspólny metajęzyk: znana gramatyka, jednolita metodologia, takie same narzędzia. Dowolnie wiele języków specyficznych dla zastosowań. SGML/XML a HTML HTML Zestaw znaczników określony przez standard i zamknięty. Znaczenie znaczników określone przez standard. Wyglad znaczników określony przez standard lub przegladarki. Poprawność w praktyce weryfikowana przez przegladarki (ile stron się waliduje?...). XML/SGML Możliwość definiowania nowych znaczników. Ta sama nazwa znacznika może mieć różne znaczenie w różnych zastosowaniach, np. kod kod źródłowy programu, kod pocztowy. Można przypisać dowolny wyglad do określonych znaczników (jeśli w ogóle potrzeba). Poprawność ściśle określona przez standard.

XML uproszczenie SGML Każdy poprawny strukturalnie dokument XML jest też dokumentem SGML. Uproszczenie składni i uproszczenie procesu parsowania. Nie sa dopuszczalne pewne konstrukcje ułatwiajace ręczne tworzenie dokumentów w SGML. Ten sam dokument zapisany w składni XML może zajmować więcej miejsca niż w składni SGML. Dwie twarze XML Dokumenty, publikacje... Pierwotne zastosowanie SGML. Człowiek tworzy i czyta dokument. Typowy mieszany model zawartości z wieloma opcjami. Dokumenty przechowywane przez dłuższy czas. Elektroniczna wymiana danych Nowe zastosowanie XML. Dokumenty przetwarzane automatycznie. Precyzyjna bazodanowa struktura. Dokumenty tworzone na czas komunikacji.