Modele dostępu do dokumentu XML Wykorzystanie XML-a we własnych aplikacjach Pozwalają programistom na wysokopoziomowy dostęp do zawartości dokumentów XML : korzystamy z abstrakcyjnych obiektów, nie troszczymy się o analizę leksykalną i składniową. SAX Simple API for XML: model zdarzeniowy. DOM Document Object Model: obiektowy model drzewa struktury, zwykle implementowany przy użyciu SAX. XML data binding wiązanie XML-a. Pull parsing przetwarzanie strumieniowe. 2005-12-01 Wykorzystanie XML-a we własnych aplikacjach 2 Implementacja modelu parser Parser (procesor) XML-a moduł programistyczny analizujący dokument XML i udostępniający jego zawartość w postaci abstrakcyjnego modelu. Funkcjonalność parsera: analiza leksykalna i składniowa, sprawdzenie poprawności strukturalnej (opcjonalnie). Generyczność niezależność od konkretnego języka! Po co abstrakcyjne modele: jednolity sposób programowania, niezależnie od użytego parsera, możliwość wymiany parsera, możliwość porównywania parserów. SAX Simple API for XML Idea: dokument XML jako ciąg zdarzeń, program reaguje na wybrane zdarzenia. Status: 1998: SAX 1.0, 2000: SAX 2.0 najważniejsze rozszerzenia: obsługa przestrzeni nazw, cechy (features) wartości logiczne, właściwości (properties) - dowolne biekty, zmiany nazw wielu obiektów. 2005-12-01 Wykorzystanie XML-a we własnych aplikacjach 3 2005-12-01 Wykorzystanie XML-a we własnych aplikacjach 4 Działanie modelu SAX przykład SAX2 pakiet org.xml.sax <?xml version="1.0"?> <wiersz bialy="nie"> <autor> William Shakespeare </autor> </tytul> </wiersz> Parser setdocumenthandler Aplikacja startdocument() startelement("wiersz", [bialy="nie" ]) ignorablewhitespace(spacje) startelement("autor",[]) characters("william...") endelement("autor") ignorablewhitespace(spacje) throw SAXException Interfejsy implementowane przez parser: XMLReader parse (2 metody), setcontenthandler,... Attributes getlength, getlocalname, getqname, getvalue (2 metody). Opcjonalny: Locator Interfejsy implementowane przez użytkownika parsera: ContentHandler zdarzenia: characters, ignorablewhitespace, startdocument, enddocument, startelement, endelement, processinginstruction, setdocumentlocator. ErrorHandler, DTDHandler, EntityResolver. 2005-12-01 Wykorzystanie XML-a we własnych aplikacjach 5 2005-12-01 Wykorzystanie XML-a we własnych aplikacjach 6 1
SAX2 pakiet org.xml.sax SAX kroki implementacji Standardowa klasa: org.xml.sax.inputsource może pobierać dane z InputStream, Reader, String. Wyjątek: SAXException podnoszony w przypadku wystąpienia błędu. Klasy pomocnicze (pakiet org.xml.sax.helpers): DefaultHandler implementujemy podklasy tej klasy, XMLReaderFactory, AttributesImpl, LocatorImpl. Tworzymy podklasę klasy org.xml.sax.helpers.defaulthandler. Pobieramy obiekt org.xml.sax.xmlreader z fabryki. Rejestrujemy stworzoną podklasę w parserze (XMLReader) metodami set...handler. Wywołujemy metodęparse. 2005-12-01 Wykorzystanie XML-a we własnych aplikacjach 7 2005-12-01 Wykorzystanie XML-a we własnych aplikacjach 8 Filtry SAX Implementują interfejs org.xml.sax.xmlfilter. Rozszerzają klasęorg.xml.sax.helpers.xmlfilterimpl. Specyficzne implementacje interfejsów: ContentHandler, DTDHandler, EntityResolver, ErrorHandler. Można je łączyć w łańcuchy: XMLReader reader;... XMLFilterImpl f1 = new XMLFilterImpl(reader); XMLFilterImpl f2 = new XMLFilterImpl(f1); f2.parse(...); Model DOM Dostęp do całego dokumentu (HTML lub XML), z wyjątkiem DTD. Części składowe: DOM Level 1 (październik 1998): podstawowe metody dostępu do struktury dokumentu, DOM Level 2 (listopad 2000): nowe cechy XML-a, np. przestrzenie nazw, Views widoki dokumentu po zastosowaniu stylów CSS, Events obsługa zdarzeń, Style manipulowanie arkuszami stylów, Traversal and Range podróżowanie po dokumencie XML. DOM Level 3 (2004): Load and Save ładowanie i zapisywanie dokumentu, Validation dostęp do definicji struktury dokumentu (DTD). 2005-12-01 Wykorzystanie XML-a we własnych aplikacjach 9 2005-12-01 Wykorzystanie XML-a we własnych aplikacjach 10 DOM Core Drzewo DOM - przykład Bazowa cześć specyfikacji DOM. Umożliwia: budowanie dokumentów, nawigację po strukturze dokumentów, dodawanie elementów i atrybutów, modyfikacje elementów i atrybutów, usuwanie elementów/atrybutów i ich zawartości. Wady: pamięciożerność, niska efektywność. <?xml version="1.0"?> <wiersz> <autor>william Shakespeare </autor> <tytul>sonet 102</tytul> <zwrotka> <wers>...</wers>... </zwrotka> </wiersz> <autor> <wiersz> <tytul> <zwrotka> William Shakespeare Sonet 102 <wers> 2005-12-01 Wykorzystanie XML-a we własnych aplikacjach 11 2005-12-01 Wykorzystanie XML-a we własnych aplikacjach 12 2
DOM najważniejsze interfejsy Node Document Element Comment Attr Text CDATA Section Processing Instruction Interfejs Node Dostęp do zawartości: getattributes() getchildnodes() getfirstchild() getlastchild() getnextsibling() getprevioussibling() getnodename() getnodevalue() getnodetype() getownerdocument() getparentnode() haschildnodes() Manipulacja zawartością: appendchild(node) insertbefore(node, Node) removechild(node) replacechild(node, Node) setnodevalue(string) setnodename(string) Klonowanie: clonenode(boolean) 2005-12-01 Wykorzystanie XML-a we własnych aplikacjach 13 2005-12-01 Wykorzystanie XML-a we własnych aplikacjach 14 Klasy pomocnicze DOM SAX DOM NamedNodeMap: tablica haszująca obiektów Node (np. atrybutów). NodeList: wektor obietków Node (np. dzieci danego węzła). DOMException: wyjątek podnoszony w przypadku błędnej modyfikacji węzła. Przetwarzanie wsadowe. Oszczędny czasowo i pamięciowo. Dobry do wyławiania z dokumentu wybranych elementów. Całe drzewo dokumentu ładowane do pamięci. Kosztowny czasowo i pamięciowo. Pozwala wędrować po drzewie dokumentu. Dokument tylko do odczytu Pozwala tworzyć i modyfikować dokumenty. 2005-12-01 Wykorzystanie XML-a we własnych aplikacjach 15 2005-12-01 Wykorzystanie XML-a we własnych aplikacjach 16 XML Data Binding Dokumenty XML a obiekty Javy: DTD/schemat odpowiada definicji klasy, dokument XML (instancja schematu) odpowiada obiektowi (instancji klasy). Pomysł: automatyczne generowanie klas z DTD/schematów. Różnice w stosunku do modelu generycznego (np. DOM): zestaw typów/klas i funkcji/metod zależy od typu dokumentu, struktura mniej kosztowna pamięciowo, intuicyjny interfejs dostępu do zawartości, modyfikacja struktury i wartości tylko w ramach tego samego typu dokumentu. Przykład (biblioteka DXML) <!ELEMENT Phonebook (Person*)> <!ELEMENT Person (Name, Phone*)> <!ELEMENT Name (Firstname, Lastname)> <!ELEMENT Firstname (#PCDATA)> <!ELEMENT Lastname (#PCDATA)> <!ELEMENT Phone (#PCDATA)> public interface IPerson extends com.objectspace.xml.idxmlinterface { // element Name public IName getname(); public void setname(iname arg0); // element Phone public void addphone(string arg0); public int getphonecount(); public void setphones(vector arg0); public String[] getphones(); public void setphones(string[] arg0); public Enumeration getphoneelements(); public String getphoneat(int arg0); public void insertphoneat (String arg0, int arg1); public void setphoneat (String arg0, int arg1); public boolean removephone (String arg0); public void removephoneat(int arg0); public void removeallphones(); } 2005-12-01 Wykorzystanie XML-a we własnych aplikacjach 17 2005-12-01 Wykorzystanie XML-a we własnych aplikacjach 18 3
DXML: jak z tego korzystać Przygotowanie DTD. Wygenerowanie klas. Korzystanie w kodzie w Javie: import com.objectspace.xml.*;... xmldocument = Xml.openDocument(new File("phonebook.xml")); IPhonebook phonebook = (IPhonebook) xmldocument.getroot(); Przetwarzanie strumieniowe (pull parsing) Alternatywa dla modelu SAX: aplikacja wyciąga kolejne zdarzenia z parsera, przetwarzanie kontrolowane przez aplikację, a nie parser, parser działa podobnie jak iterator, kursor lub strumień danych, zachowane cechy modelu SAX: duża wydajność, możliwość przetwarzania dowolnie dużych dokumentów. Standaryzacja: Java Community Process, JSR 173: Streaming API for XML, Common API for XML Pull Parsing. 2005-12-01 Wykorzystanie XML-a we własnych aplikacjach 19 2005-12-01 Wykorzystanie XML-a we własnych aplikacjach 20 SAX a Pull parsing Pull parsing korzyści SAX: aplikacja mycontenthandler parser parse() Pull parsing: aplikacja parser Jeszcze większa wydajność niż w (i tak już wydajnym) modelu SAX, dzięki: możliwości przerwania przetwarzania przed końcem pliku, gdy potrzebujemy z niego tylko część danych, możliwości zmniejszenia liczby kopiowań obiektów typu String, szybszemu filtrowaniu zdarzeń. Możliwość prostej obróbki wielu dokumentów jednocześnie. Bardziej proceduralny styl programowania, co daje: mniej stanów do pamiętania, możliwość użycia rekursji, zwiększone powtórne użycie kodu (reusability). Źródło: Plechawski, M., Nie pozwól się popychać, Software 2.0, 6/2003 2005-12-01 Wykorzystanie XML-a we własnych aplikacjach 21 2005-12-01 Wykorzystanie XML-a we własnych aplikacjach 22 DOM czy data binding co wybrać? Kiedy używać modelu pamięciowego: nieduże dokumenty (muszą mieścić się w pamięci), operacje wymagające jednoczesnego dostępu do wielu węzłów, tworzenie, edycja i zapisywanie dokumentów w kodzie. DOM sprawdza się, gdy: struktura dokumentów jest nieznana, niedoprecyzowana lub zmienna, dopuszczalna jest niższa efektywność. Data binding sprawdza się, gdy: struktura dokumentu jest ustalona i znana (XML Schema/DTD), obiekty w aplikacji są czytanie z dokumentów XMLi zapisywane do dokumentów XML (np. w zastosowaniach związanych z wymianą danych). SAX czy pull parsing co wybrać? Kiedy używać modelu wsadowego: potencjalnie duże dokumenty, stosunkowo proste, lokalne operacje, ważna jest efektywność. Pull parsing sprawdza się, gdy: kończymy przetwarzanie po wystąpieniu poszukiwanych danych, przetwarzanie zdarzenia zależy od kontekstu (np. od tego, czy jesteśmy wewnątrz pewnego elementu), przetwarzamy równolegle więcej niż jeden plik (np. porównujemy pliki). SAX sprawdza się, gdy: chcemy odfiltrować dokument interesują nas tylko wybrane elementy za jednym przebiegiem dokonujemy kilka niezależnych rodzajów przetwarzania. 2005-12-01 Wykorzystanie XML-a we własnych aplikacjach 23 2005-12-01 Wykorzystanie XML-a we własnych aplikacjach 24 4
XML i Java JAXP Ideologia: Java umożliwia uruchamianie raz napisanych programów na wielu platformach sprzętowych/systemowych, XML stanowi międzyplatformowy nośnik danych. Praktyka: wsparcie dla Unicode i różnych standardów kodowania, wsparcie dla XML już w bibliotece standardowej (JAXP), wiele narzędzi wspierających i używających XML w Javie: JAXB, SJSXP, JAXR (rejestry w XML), XML Signature (podpis elektroniczny), JAX-RPC, SOAP (programowanie rozproszone). Java API for XML Processing: definicja interfejsów, za pomocą których programiści mogą przetwarzać XML we własnych aplikacjach, wzorcowa implementacja, możliwość podmiany implementacji wybranego modułu (np. parsera). Wersja 1.3 (wrzesień 2004), zawarta w J2SE (1.)5.0: parsery (DOM Level 3 i SAX 2), procesor XSLT 1.0, ewaluator XPath 1.0, procesor XMLSchema i DTD. W kolejnych wersjach zapewne: XQuery, przetwarzanie strumieniowe (?). 2005-12-01 Wykorzystanie XML-a we własnych aplikacjach 25 2005-12-01 Wykorzystanie XML-a we własnych aplikacjach 26 Parsery XML przegląd Parsery XML przegląd Xerces: Java, C++, Perl, komponent COM XML Schema, SAX 2.0, DOM level 1, 2 i częściowo 3, XInclude. XP (Java) i Expat (C) Jamesa Clarka: model zdarzeniowy (w XP zgodny z SAX), nie sprawdzają poprawności strukturalnej. Oracle XML Parser: SAX, DOM, XPath, Java, C, C++, PL/SQL. Perl: XML::Parser pakiet wykorzystujący parser Expat J. Clarka napisany w C, XML::DOM. Python: PyXML. Microsoft XML Core Services (MSXML 4.0, komponent COM): SAX, DOM, Schema Object Model, możliwość dostępu z różnych języków programowania: JavaScript, Java, Perl, Python, SQL, Visual Basic. XML w.net: SAX, DOM, XPath, XMLReader (pull parsing). 2005-12-01 Wykorzystanie XML-a we własnych aplikacjach 27 2005-12-01 Wykorzystanie XML-a we własnych aplikacjach 28 Parsery XML przegląd Gdzie szukać dalej Implementacje XML data binding: Dynamic XML, ObjectSpace, JAXB Java Architecture for XML Binding, Sun Microsystems, Castor, Exolab,... Implementacje przetwarzania strumieniowego: Sun Java Streaming XML Parser,.Net XmlReader, Microsoft, XmlPull API i jego implementacje (XNI 2 XmlPull, XPP3/MXP1), BEA XML Stream API. SAX Home Page: www.saxproject.org Document Object Model (DOM): www.w3.org/dom xml.coverpages.org/dom.html Common API for XML Pull Parsing www.xmlpull.org IBM alphaworks: www.alphaworks.ibm.com Free XML tools and software Lars Marius Garshol: www.garshol.priv.no/download/xmltools/ XML w Javie: java.sun.com/xml 2005-12-01 Wykorzystanie XML-a we własnych aplikacjach 29 2005-12-01 Wykorzystanie XML-a we własnych aplikacjach 30 5
Gdzie szukać dalej Gajda, P., SAX i DOM, czyli XML w naszych aplikacjach Software 2.0, nr 6/2001, Wydawnictwo Software Brauncajs, T., JAXB i Castor wiązanie XML-a w Javie Software 2.0, nr 6/2002, Wydawnictwo Software Plechawski, M., Nie pozwól się popychać Software 2.0, nr 6/2003, Wydawnictwo Software Czarnik, P., Alternatywne źródła zdarzeń SAX Software 2.0, nr 6/2004, Wydawnictwo Software 2005-12-01 Wykorzystanie XML-a we własnych aplikacjach 31 6