Grupowanie dokumentów XML ze względu na ich strukturę, z wykorzystaniem XQuery

Podobne dokumenty
Analiza rodzajów skutków i krytyczności uszkodzeń FMECA/FMEA według MIL STD A

Analiza danych OGÓLNY SCHEMAT. Dane treningowe (znana decyzja) Klasyfikator. Dane testowe (znana decyzja)

ANALIZA PREFERENCJI SŁUCHACZY UNIWERSYTETU TRZECIEGO WIEKU Z WYKORZYSTANIEM WYBRANYCH METOD NIESYMETRYCZNEGO SKALOWANIA WIELOWYMIAROWEGO

Krzysztof Borowski Zastosowanie metody wideł cenowych w analizie technicznej

Wielokategorialne systemy uczące się i ich zastosowanie w bioinformatyce. Rafał Grodzicki

RÓWNOWAGA STACKELBERGA W GRACH SEKWENCYJNYCH

Plan wykładu: Typowe dane. Jednoczynnikowa Analiza wariancji. Zasada: porównać zmienność pomiędzy i wewnątrz grup

Problem plecakowy (KNAPSACK PROBLEM).

ZESZYTY NAUKOWE INSTYTUTU POJAZDÓW 2(88)/2012

Podstawy teorii falek (Wavelets)

SZACOWANIE NIEPEWNOŚCI POMIARU METODĄ PROPAGACJI ROZKŁADÓW

Rozwiązywanie zadań optymalizacji w środowisku programu MATLAB

Wykład 2: Uczenie nadzorowane sieci neuronowych - I

KURS STATYSTYKA. Lekcja 6 Regresja i linie regresji ZADANIE DOMOWE. Strona 1

Grupowanie. Wprowadzenie. Metody hierarchiczne. Modele mieszane (mixture models) Metody najmniejszych kwadratów. Zastosowania

STATYSTYKA MATEMATYCZNA WYKŁAD 5 WERYFIKACJA HIPOTEZ NIEPARAMETRYCZNYCH

Zapis informacji, systemy pozycyjne 1. Literatura Jerzy Grębosz, Symfonia C++ standard. Harvey M. Deitl, Paul J. Deitl, Arkana C++. Programowanie.

Ćwiczenie 10. Metody eksploracji danych

Zaawansowane metody numeryczne Komputerowa analiza zagadnień różniczkowych 1. Układy równań liniowych

Wykład 2: Uczenie nadzorowane sieci neuronowych - I

Rola informatyki w naukach ekonomicznych i społecznych Innowacje i implikacje interdyscyplinarne. redakcja ZBIGNIEW E. ZIELIŃSKI

ZESZYTY NAUKOWE INSTYTUTU POJAZDÓW 5(96)/2013

STATECZNOŚĆ SKARP. α - kąt nachylenia skarpy [ o ], φ - kąt tarcia wewnętrznego gruntu [ o ],


WikiWS For Business Sharks

Algorytmy. i podstawy programowania. eci. Proste algorytmy sortowania tablic. 4. Wskaźniki i dynamiczna alokacja pami

SZTUCZNA INTELIGENCJA

Weryfikacja hipotez dla wielu populacji

ZESTAW ZADAŃ Z INFORMATYKI

5. OPTYMALIZACJA GRAFOWO-SIECIOWA

Dotyczy: opinii PKPP lewiatan do projektow dwoch rozporzqdzen z 27 marca 2012 (pismo P-PAA/137/622/2012)

WPŁYW PARAMETRÓW DYSKRETYZACJI NA NIEPEWNOŚĆ WYNIKÓW POMIARU OBIEKTÓW OBRAZU CYFROWEGO

Analiza rezerw na niewypłacone odszkodowania i świadczenia z tytułu ubezpieczeń pozostałych osobowych i majątkowych w oparciu o trójkąty szkód

ANALIZA PORÓWNAWCZA WYNIKÓW UZYSKANYCH ZA POMOCĄ MIAR SYNTETYCZNYCH: M ORAZ PRZY ZASTOSOWANIU METODY UNITARYZACJI ZEROWANEJ

TRANZYSTOR BIPOLARNY CHARAKTERYSTYKI STATYCZNE

Dobór procesora sygnałowego w konstrukcji regulatora optymalnego

Analiza alternatywnych systemów zaopatrzenia w energię budynków na etapie przygotowania inwestycji zgodnie z wymaganiami art. 5 Dyrektywy UE/91/2002

KRZYWA BÉZIERA TWORZENIE I WIZUALIZACJA KRZYWYCH PARAMETRYCZNYCH NA PRZYKŁADZIE KRZYWEJ BÉZIERA

ANALIZA WPŁYWU OBSERWACJI NIETYPOWYCH NA WYNIKI MODELOWANIA REGIONALNEJ WYDAJNOŚCI PRACY

Sztuczne sieci neuronowe

ZASTOSOWANIE KLASYCZNEGO ALGORYTMU GENETYCZNEGO DO ROZWIĄZANIA ZBILANSOWANEGO ZAGADNIENIA TRANSPORTOWEGO

Badania operacyjne w logistyce i zarządzaniu produkcją

Przykład 5.1. Kratownica dwukrotnie statycznie niewyznaczalna

ANALIZA HARMONOGRAMÓW POWYKONAWCZYCH W BUDOWNICTWIE

Procedura normalizacji

ANALIZA WARIANCJI (ANOVA) Spis treści

Analiza porównawcza rozwoju wybranych banków komercyjnych w latach

Twierdzenie Bezouta i liczby zespolone Javier de Lucas. Rozwi azanie 2. Z twierdzenia dzielenia wielomianów, mamy, że

Szymon Chojnacki MODELOWANIE KONIUNKTURY GOSPODARCZEJ Z WYKORZYSTANIEM DANYCH TEKSTOWYCH

Zarządzanie ryzykiem w przedsiębiorstwie i jego wpływ na analizę opłacalności przedsięwzięć inwestycyjnych

Evaluation of estimation accuracy of correlation functions with use of virtual correlator model

WSKAŹNIK OCENY HIC SAMOCHODU OSOBOWEGO W ASPEKCIE BEZPIECZEŃSTWA RUCHU DROGOWEGO

Multifraktalne cechy przep³ywu lokalnej sejsmicznoœci indukowanej na terenie KWK Katowice (GZW)

POJAZDY SZYNOWE 2/2014

Za: Stanisław Latoś, Niwelacja trygonometryczna, [w:] Ćwiczenia z geodezji II [red.] J. Beluch

Wykład 1 Zagadnienie brzegowe liniowej teorii sprężystości. Metody rozwiązywania, metody wytrzymałości materiałów. Zestawienie wzorów i określeń.

MATEMATYKA POZIOM ROZSZERZONY Kryteria oceniania odpowiedzi. Arkusz A II. Strona 1 z 5

Komórkowy model sterowania ruchem pojazdów w sieci ulic.

Prawdziwa ortofotomapa

Opracowanie schematu funkcyjnego systemu zarządzania organizacją edukacyjną w warunkach ODL

Zadanie na wykonanie Projektu Zespołowego

-Macierz gęstości: stany czyste i mieszane (przykłady) -równanie ruchu dla macierzy gęstości -granica klasyczna rozkładów kwantowych

ZASTOSOWANIE WYBRANYCH ELEMENTÓW ANALIZY FUNDAMENTALNEJ DO WYZNACZANIA PORTFELI OPTYMALNYCH

1. Relacja preferencji

Zastosowanie procedur modelowania ekonometrycznego w procesach programowania i oceny efektywności inwestycji w elektroenergetyce

BADANIE DRGAŃ WŁASNYCH NAPĘDU ROBOTA KUCHENNEGO Z SILNIKIEM SRM

Minister Edukacji Narodowej Pani Katarzyna HALL Ministerstwo Edukacji Narodowej al. J. Ch. Szucha Warszawa Dnia 03 czerwca 2009 r.

Matematyka Starzenia (Się) Andrzej Świerniak Politechnika Śląska, Instytut Automatyki

WYZNACZANIE WSPÓŁCZYNNIKA LEPKOŚCI CIECZY METODĄ STOKESA

IDENTYFIKACJA POWIĄZAŃ POMIĘDZY KATEGORIAMI WIKIPEDII Z UŻYCIEM MIAR PODOBIEŃSTWA ARTYKUŁÓW

Zmodyfikowana technika programowania dynamicznego

KURS STATYSTYKA. Lekcja 1 Statystyka opisowa ZADANIE DOMOWE. Strona 1

METODA UNITARYZACJI ZEROWANEJ Porównanie obiektów przy ocenie wielokryterialnej. Ranking obiektów.

METODY PLANOWANIA EKSPERYMENTÓW. dr hab. inż. Mariusz B. Bogacki

Kształtowanie się firm informatycznych jako nowych elementów struktury przestrzennej przemysłu

ZAGADNIENIE TRANSPORTOWE

Wielokryterialny Trójwymiarowy Problem Pakowania

WYZNACZENIE ROZKŁADU TEMPERATUR STANU USTALONEGO W MODELU 2D PRZY UŻYCIU PROGRMU EXCEL

Kierownik Katedry i Kliniki: prof. dr hab. Bernard Panaszek, prof. zw. UMW. Recenzja

EFEKTYWNE ZARZĄDZANIE MOCĄ FARM WIATROWYCH

4.1. Komputer i grafika komputerowa

Sortowanie szybkie Quick Sort

DWUFAZOWY ALGORYTM DOPASOWANIA W POSZUKIWANIU PODOBIEŃSTWA STRUKTUR BIAŁKOWYCH

ZESZYTY NAUKOWE UNIWERSYTETU SZCZECI SKIEGO

WYKORZYSTANIE METODY MNOŻNIKÓW LAGRANGE A DO OCENY EFEKTYWNOŚCI PRODUKCJI NA PRZYKŁADZIE WYBRANYCH GRUP GOSPODARSTW ROLNYCH

KOINCYDENTNOŚĆ MODELU EKONOMETRYCZNEGO A JEGO JAKOŚĆ MIERZONA WARTOŚCIĄ WSPÓŁCZYNNIKA R 2 (K)

nauczyciel Media społecznościowe i praca w chmurze oraz przygotowanie na ich potrzeby materiałów graficznych i zdjęciowych Artur Kurkiewicz

Teoria niepewności pomiaru (Rachunek niepewności pomiaru) Rodzaje błędów pomiaru

11/22/2014. Jeśli stała c jest równa zero to takie gry nazywamy grami o sumie zerowej.

OPTYMALIZACJA WARTOŚCI POLA MAGNETYCZNEGO W POBLIŻU LINII NAPOWIETRZNEJ Z WYKORZYSTANIEM ALGORYTMU GENETYCZNEGO

Metody analizy obwodów

Strukturalne podobieństwo dokumentów hipertekstowych

7. Wykład VII: Warunki Kuhna-Tuckera

Programowanie Równoległe i Rozproszone

Badanie współzależności dwóch cech ilościowych X i Y. Analiza korelacji prostej

Jakość cieplna obudowy budynków - doświadczenia z ekspertyz

XXX OLIMPIADA FIZYCZNA ETAP III Zadanie doświadczalne

KONCEPCJA OCENY HYBRYDOWYCH SYSTEMÓW ENERGETYCZNYCH

Instrukcja do ćwiczeń laboratoryjnych z przedmiotu: Badania operacyjne. Temat ćwiczenia: Problemy rozkroju materiałowego, zagadnienia dualne

Tworzenie stron WWW. Kurs. Wydanie III

Transkrypt:

Rozdzał 44 Grupowane dokumentów XML ze względu na ch strukturę, z wykorzystanem XQuery Streszczene. Popularność ęzyka XML oraz ego powszechne użyce spowodowały rozwó systemów przechowuących dokumenty XML. Istnee węc możlwość mplementac algorytmów eksplorac danych w bazach danych XML. Opracowane przedstawa analzę metod grupowana dokumentów XML ze względu na ch strukturę oraz wnosk z mplementac ednego z rozwązań w środowsku bazy danych XML, w ęzyku XQuery. 1 Wstęp XML (ang. extensble Markup Language) [14] est od klku lat powszechne wykorzystywanym standardem strukturalnego opsu danych. Duża popularność standardu ego lczne zastosowana stworzyły potrzebę wykorzystana systemów składowana przetwarzana dokumentów XML oraz zawarte w nch nformac. W odpowedz na stneące zapotrzebowane zaczęły powstawać nowe systemy zarządzana bazam danych dedykowane dla XML, a funkconalność stneących systemów relacynych baz danych est stopnowo dostosowywana do specyfk standardu XML [3], [12]. Stale rosnąca lczba dokumentów XML oraz stnene poważnych systemów pozwalaących na ch składowane sprawa, że coraz bardze nteresuące stae sę zastosowane algorytmów eksplorac danych do dokumentów XML. Interesuąca może być równeż ocena zastosowana do eksplorac danych stneących w bazach danych XML narzędz oraz mplementowanych w nch standardów zwązanych z przetwarzanem dokumentów XML, takch, ak np. ęzyk zapytań XQuery [15]. W przypadku dokumentów XML analze mogą podlegać zarówno dane opsane w dokumence ak same dokumenty XML traktowane ako szczególna postać danych o charakterystyczne drzewaste strukturze. Jedną z metod eksplorac danych, która ma zastosowane do dokumentów XML est grupowane dokumentów XML ze względu na ch strukturę. Analzy tego typu mogą meć następuące zastosowana: tworzene ndeksów w systemach zarządzana bazam danych dedykowanym dla XML, automatyczna ekstrakca defnc typu dokumentu (DTD) lub ego schematu (XML Schema), Mchał Kozelsk: Poltechnka Śląska, Instytut Informatyk, ul. Akademcka 16, 44-100 Glwce, Polska emal: Mchal.Kozelsk@polsl.pl

M. Kozelsk gdze δ oznacza sumaryczny koszt wykonanych operac dla porównywanych dokumentów, doc C k określa k-ty dokument w grupe C, C oznacza lczbę dokumentów w grupe C. Metody podobne lub rozwaące podeśce zaprezentowane w [11] przedstawone są w [1], [8] Przykładem odmennego podeśca do wyznaczana odległośc mędzy dokumentam XML są prezentowane w lteraturze [4], [10], [18] metody wykorzystuące analzę wektora cech odzwercedlaącego strukturę dokumentu. Metoda zaprezentowana w [4] sprowadza grupowane dokumentów XML względem struktury do analzy porównawcze sygnałów. Wektor cech charakteryzuący strukturę do podnesene efektywnośc transformac danych ze struktury dokumentu XML do struktury relacyne bazy danych [10], wstępne grupowane dokumentów XML wyszukwanych w sec Internet w celu ch dalszego przetworzena, wyszukwane źródeł take same nformac w sec Internet, analza struktur protenowych, danych geoprzestrzennych lub nnych danych o strukturze herarchczne opsanych, w drzewaste strukturze dokumentu XML. W dalsze częśc rozdzału przedstawone są metody stosowane do grupowana dokumentów XML względem ch struktury (podrozdzał 2) oraz szersze omówene metody wybrane do mplementac z wykorzystanem ęzyka XQuery (podrozdzał 3). Przedstawoną analzę kończą wynk przeprowadzonych badań oraz wycągnęte wnosk. 2 Grupowane dokumentów XML ze względu na ch strukturę Rezultat wykonanego grupowana dokumentów XML względem ch struktury zależy od następuących czynnków: od metody wyznaczana podobeństwa lub odległośc mędzy dokumentam, od metody grupowana wykorzystane do wyznaczena grup dokumentów XML. Kolene punkty przedstawaą metody wykorzystywane do realzac wymenonych zagadneń. 2.1 Wyznaczane podobeństwa struktury dokumentów XML Metody wyznaczana podobeństwa struktury dokumentów XML można podzelć na wykorzystuące odległość transformac (ang. edt dstance) pomędzy dokumentam XML oraz wykorzystuące odległość wyznaczaną na podstawe kodowana dokumentów XML. Odległość mędzy dwoma dokumentam XML, zwana odległoścą transformac (ang. edt dstance) [11], wyznaczana est poprzez określene, aka lczba ak rodza modyfkac ednego z dokumentów est potrzebna do stworzena dokumentów sobe równoważnych. Dla te metody wartość odległośc mędzy dwema grupam dokumentów, która może być wykorzystana w algorytme grupowana wyznaczana est zgodne ze wzorem: dst ( C, C ) C C ( doc doc ) C C δ k, k= l= = 1 1 C C l (1) 438

Grupowane dokumentów XML ze względu na ch strukturę, z wykorzystanem XQuery kumentu XML wyznaczany est ako szereg czasowy zaweraący wartośc odpowadaące koleno poawaącym sę w dokumence elementom. Postać wektora cech est wynkem złożena dwóch funkc, z których edna defnue sposób kodowana na pozome znacznków, druga określa sposób kodowana na pozome dokumentu. Podeśce to pozwala na uchwycene cech dokumentu zarówno na pozome poszczególnych elementów ak na pozome globalnym całego dokumentu. Odległość mędzy dwoma dokumentam d d o strukturze zakodowane ako sygnał est wyznaczana zgodne z ponższym wzorem: dst 1 2 2, = 1 2 k= 1 M / 2 ( d d ) ([ DFT( h )]( k) ) ( [ DFT( h )]( k) ) gdze DFT est nterpolacą transformaty Fourera do wyznaczonych dla obydwu dokumentów częstotlwośc, M est całkowtą lczbą nterpolowanych punktów, h est zakodowanym sygnałem. Wektor cech odzwercedlaący strukturę dokumentu XML może meć równeż postać łańcucha btów [10], [18], gdze każdy bt odpowada wystąpenu lub braku wystąpena w strukturze analzowanego dokumentu wybranego fragmentu struktury XML. Wektor cech dokumentu XML może być w takm przypadku tworzony np. na podstawe występuących w dokumence śceżek (ang. path-based method) lub par węzłów (ang. nodeparbased method). Odległość dwóch dokumentów XML może zostać dla tak przedstawonych metod wyznaczona zgodne z ednym z ponższych wzorów: dst ( d d ) (, d ) ( d, d ) (2) xor d, = (3) max gdze xor(d,d ) oznacza lczbę śceżek lub par węzłów, którym różną sę dokumenty d d, d oznacza lczbę edynek występuących w wektorze cech dokumentu d, dst ( d, d ) d d = 1 (4) max ( d, d ) gdze d d oznacza lczbę wspólnych śceżek lub par węzłów dla dokumentów d d, d oznacza lczbę edynek występuących w wektorze cech dokumentu d. 2.2 Wykorzystywane algorytmy grupowana Maąc możlwość merzena odległośc mędzy dokumentam XML można zastosować wybrany algorytm grupowana w celu wyznaczena grup dokumentów. Do napopularneszych algorytmów grupowana danych należą algorytmy podzałowe oraz algorytmy herarchczne [6], [7], [9]. Algorytmy podzałowe cechue mnesza złożoność, ednakże dla danych o wymarach opsywanych przez wartośc necągłe lub kategore właścwsze może być użyce algorytmów herarchcznych pozwalaących na korzystane edyne z macerzy podobeństwa (ang. smlarty matrx). Możlwe est równeż wykorzystane algorytmów stworzonych specalne dla danych, których wymary są opsane przy pomocy kategor [1], [5]. 439

M. Kozelsk 3 S-GRACE algorytm grupowana dokumentów XML ze względu na ch strukturę Do analzy akośc grupowana dokumentów XML względem ch struktury wybrany został algorytm S-GRACE [10] wykorzystuący btowe kodowane par węzłów [10] dokumentu XML oraz algorytm grupowana ROCK [5]. Wybór algorytmu, który ne wymaga złożonych przekształceń matematycznych est uzasadnony przez wykorzystane do mplementac ęzyka XQuery. Interesuące wydawało sę równeż wykorzystane algorytmu grupowana stworzonego dla danych opsanych przez kategore. 3.1 Wyznaczane wektorów cech ako łańcuchów btów Metoda wykorzystuąca btowe kodowane par węzłów w dokumence XML [10] defnue parę węzłów ako parę element-element w relac rodzc-dzecko lub ako parę elementatrybut. a) <Pracowncy> <Pracownk> <Nazwsko> Jaworek </Nazwsko> <PESEL> 56022812345 </PESEL> <Zespol> Proektowana </Zespol> </Pracownk> </Pracowncy> b) <Pracowncy> <Pracownk> <Nazwsko> Jaworek </Nazwsko> <Data_ur> 28.02.1956 </Data_ur> <Zespol> Proektowana </Zespol> </Pracownk> </Pracowncy> Rys. 1. Przykładowe dokumenty XML Przykładowo, dla dokumentów z rys. 1.a) rys. 1.b) można wyróżnć następuące pary węzłów oraz odpowadaące m kodowane dokumentów przedstawone w tabel 1. Tabela 1. Kodowane par węzłów dla dokumentów przedstawonych na rys. 1 Para węzłów Dokument 1a Dokument 1b Pracowncy -> Pracownk 1 1 Pracownk -> Nazwsko 1 1 Pracownk -> PESEL 1 0 Pracownk -> Data_ur 0 1 Pracownk -> Zespol 1 1 Algorytm grupowana dokumentów XML o tak wyznaczonych wektorach cech może wykorzystać odległość dokumentów oblczaną np. zgodne ze wzorem (4). 440

3.2 Grupowane algorytmem ROCK Grupowane dokumentów XML ze względu na ch strukturę, z wykorzystanem XQuery W przypadku btowego kodowana dokumentu XML uzasadnone est traktowane dokumentu XML o pewne strukturze ako obektu danych opsanego ne w sposób numeryczny, lecz przy pomocy kategor. Przedstawone wcześne algorytmy grupowana ne operuą na danych o atrybutach opsanych przez kategore. Dane o takm charakterze mogą być grupowane stosuąc algorytm o nazwe ROCK zaproponowany w [5]. Algorytm ROCK dzała podobne do algorytmów herarchcznych scalaących traktuąc początkowo każdy analzowany obekt danych ako osobną grupę. W procese grupowana, do wyznaczena grup, które maą zostać połączone, wykorzystue on ednak ne odległość mędzy grupam, lecz lczbę wspólnych sąsadów wyznaczoną dla każde pary grup. Dwa obekty danych są sąsadam, eżel ch podobeństwo est wększe od ustalonego progu θ. Incalzaca algorytmu polega na wyznaczenu lsty wspólnych sąsadów dla każde pary grupowanych obektów danych. W każdym kroku algorytmu łączone są dwe grupy, dla których nawększą wartość przymue mara dobroc wyznaczana zgodne ze wzorem: ( C C ) = lnk ( C, C ) g, + 2 1+ 2 f ( γ ) 1+ 2 f ( γ ) 1 f ( γ ) ( n + n ) n n gdze lnk(c,c ) est lczbą wspólnych sąsadów dla grup C oraz C, n est lczbą dokumentów tworzących grupę C. Manownk przedstawonego wyrażena est heurystycznym oszacowanem spodzewane lczby wspólnych sąsadów dla rozważanych grup. Funkca f(γ) ma postać: (5) 1 γ f ( γ ) = (6) 1 + γ gdze γ est doberanym przez użytkownka parametrem. Normalzaca w przedstawonym wzorze ma na celu zapobegane nezrównoważonemu scalanu grup. 4 Wynk Algorytm S-GRACE został zamplementowany w ęzyku XQuery [15], [16], [17] w środowsku bazy danych XML X-Hve [13]. Testy dzałana algorytmu zostały przeprowadzone na dwóch zborach danych: SIGMOD oraz RSS. Zbór danych SIGMOD, analogczny do zboru, na który powoływal sę autorzy metody S-GRACE [10], tworzyło 55 dokumentów XML zaweraących dane artykułów, prac magsterskch doktorskch, stron WWW publkac (ang. proceedngs, nproceedngs). Algorytm utworzył 20 wektorów cech analzowanych dokumentów XML. Dwa wektory cech zostały uznane za wartośc skrane, poneważ ne posadały wspólnych sąsadów z nnym wektoram. Pozostałe wektory cech zostały prawdłowo rozdzelone na cztery grupy zaweraące artykuły, prace magsterske, prace doktorske, publkace (proceedngs). Cechą charakterystyczną analzowanych dokumentów ze zboru SIGMOD est fakt, że zbory par węzłów tworzone dla poszczególnych grup danych (np. artykułów prac doktorskch) są rozłączne. Poprawny wynk grupowana należy w takm przypadku uznać za warunek koneczny, lecz newystarczaący dla zaakceptowana analzowanego algorytmu. 441

M. Kozelsk Zbór danych RSS tworzyło 39 dokumentów XML. RSS est ęzykem znacznków wykorzystywanym do opsu krótkch wadomośc (ang. news) publkowanych przez portale nternetowe. Algorytm utworzył 14 wektorów cech analzowanych dokumentów XML. Intucyne można pogrupować otrzymane wektory cech w sposób przedstawony na rys. 2. a) lub b). a) b) Rys. 2. Intucyne utworzone grupy wektorów cech dokumentów XML ze zboru RSS Wynk grupowana algorytmem ROCK zależą od dwóch parametrów θ γ. Proces grupowana został powtórzony welokrotne dla różnych wartośc parametrów θ γ w celu wyznaczena zależnośc wynków grupowana od tych wartośc. Do porównana wynków wykorzystany został parametr IS zaproponowany w [10] określaący średne podobeństwo mędzy param utworzonych grup. Im mnesza wartość parametru IS tym wyże należy ocenć rezultat grupowana. W przeprowadzonych testach parametr γ ne wpływał w sposób znaczący na otrzymywane wynk. Zależność akośc grupowana od wartośc parametru θ przedstawona est na rys. 3. 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0,4 0,5 0,6 0,7 0,8 Wartość parametru theta Rys. 3. Zależność wartośc parametru akośc grup IS od parametru θ, dla γ=0,7 442

Grupowane dokumentów XML ze względu na ch strukturę, z wykorzystanem XQuery Z przedstawonego wykresu wynka, że nalepszy efekt grupowana został otrzymany dla wartośc θ=0.6. Ilustraca otrzymanego podzału na grupy dla wartośc θ=0.6 została przedstawona na rys. 4. Rys. 4. Rezultat podzału na grupy dla wartośc θ=0,6, γ=0,7 Jak wdać na powyższym rysunku otrzymany podzał est bardzo nezrównoważony odbega od oczekwań przedstawonych na rys. 2. Porównane wartośc parametru IS dla rezultatów grupowana przedstawonych na rys. 3. z wartoścam wyznaczonym dla podzału ntucynego zostało przedstawone na rys. 5. 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0,4 0,5 0,6 0,7 Rys. 5. Porównane wartośc parametru akośc grup IS dla wynków algorytmu grupowana (kolor cemneszy) z wartoścam wyznaczonym dla grupowana ntucynego Przedstawone porównane ne wskazue na znaczące różnce w rezultatach grupowana, które w rzeczywstośc stneą. Porównane zostało węc powtórzone z wykorzystanem nnego parametru akośc tworzonych grup. Nowy parametr, oznaczony ako ISIS, est wyznaczany ako stosunek średnego podobeństwa par utworzonych grup do średnego podobeństwa wektorów wewnątrz grup. Im mnesza wartość parametru ISIS tym wyże należy ocenć rezultat grupowana. Porównane z rys. 5. powtórzone dla wartośc parametru ISIS przedstawone zostało na rys. 6. 443

M. Kozelsk Rys. 6. Porównane wartośc parametru akośc grup ISIS dla wynków algorytmu grupowana (kolor cemneszy) z wartoścam wyznaczonym dla grupowana ntucynego 5 Wnosk Rezultaty przeprowadzonych badań pokazuą, że zamplementowana metoda grupowana dokumentów XML względem ch struktury ne dae satysfakconuących rezultatów dla wszystkch zborów analzowanych danych. Ponadto, zastosowany początkowo parametr oceny akośc grup IS wydae sę być zbyt mało ekspresyny, by można było w oparcu o ego wartośc dokonywać doboru parametrów algorytmu. Zastosowane nnego parametru oceny akośc grupowana, np. ISIS pownno pozwolć na lepsze sterowane procesem grupowana. Wykonana mplementaca pozwala równeż na ocenę ęzyka XQuery ako narzędza do analzy struktury dokumentów XML. Język ten ne spełnł pokładanych w nm nadze, ego użyce do grupowana dokumentu XML względem ch struktury ne było wygodne, a brak defnc funkc realzuących operace matematyczne (np. potęgowane) w znaczący sposób ograncza ego wykorzystane do mplementac przedstawonych algorytmów. Równeż warunk analzy rozbudowanego kodu, pommo wykorzystana środowska komercyne bazy danych, ne były nestety łatwe. Lteratura 1. Barbara D., Couto J., L Y., COOLCAT: An entropy-based algorthm for categorcal clusterng, CIKM 02, McLean, USA, ACM, 2002. 2. Dalamagas T., et al., Clusterng XML Documents usng Structural Summares EDBT Workshop on Clusterng Informaton over the Web (ClustWeb04), Heraklon, Greece, 2004. 3. Duszeńko A., Kozelsk M., w: Bazy danych XML, Bazy danych: Modele, technologe, narzędza, WKŁ, Warszawa, 2005. 4. Flesca S. et al., Fast Detecton of XML Structural Smlarty, IEEE Transactons on Knowledge and Data Engneerng, Vol. 17, No. 2, February 2004. 5. Guha S., Rastog R., Shm K., ROCK: A Robust Clusterng Algorthm for Categorcal Attrbutes, 15th Internatonal Conference on Data Engneerng (ICDE'99), 1999. 6. Han J., Kamber M., Data Mnng: Concepts and Technques, Morgan Kaufmann Publshers, Academc Press, San Francsco, 2001. 444

Grupowane dokumentów XML ze względu na ch strukturę, z wykorzystanem XQuery 7. Hand D., Mannla H., Smyth P., Eksploraca danych, WNT, Warszawa, 2005. 8. Jabłońsk B., Zakrzewcz M., Ocena podobeństwa dokumentów XML, I Kraowa Konferenca Naukowa Technologe Przetwarzana Danych, Poznań, 2005. 9. Jan A. K., Murty M. N., Flynn P. J., Data Cluterng: A revew, ACM Computng Surveys, Vol. 31, No. 3, September, 1999. 10. Lan W. et al., An Effcent and Scalable Algorthm for Clusterng XML Documents by Structure, IEEE Transactons on Knowledge and Data Engneerng, Vol. 16, No. 1, January 2004. 11. Nerman A., Jagadsh H. V., Evaluatng Structural Smlarty n XML Documents, Ffth Internatonal Workshop on the Web and Databases (WebDB 2002), Madson, Wsconsn - June 6-7, 2002 http://www.eecs.umch.edu/~andrewdn/papers/webdb2002.pdf, 2002. 12. Vakal A., Catana B., Maddalena A., XML Data Stores: Emergng Practces, IEEE Internet Computng, March Aprl, 2005. 13. X-Hve Corporaton B.V.: X-Hve/DB 6.1 Manual, release 6.1.0 - Oct 18 2004. 14. XML Core Workng Group: Extensble Markup Language (XML) 1.0 (Thrd Edton), W3C Recommendaton 04 February 2004, http://www.w3.org/tr/2004/rec-xml-20040204 (04.02.2004). 15. XML Query Workng Group and XSL Workng Group: XQuery 1.0: An XML Query Language, W3C Workng Draft 15 September 2005, http://www.w3.org/tr/2005/wd-xquery-20050915/ (05.10.2005). 16. XML Query Workng Group and XSL Workng Group: XQuery 1.0 and XPath 2.0 Data Model, W3C Workng Draft 29 October 2004, http://www.w3.org/tr/2004/wd-xpath-datamodel- 20041029/ (29.10.2004). 17. XML Query Workng Group and XSL Workng Group: XQuery 1.0 and XPath 2.0 Functons and Operators, W3C Workng Draft 15 September 2005, http://www.w3.org/tr/2005/wdxpath-functons-20050915/, (05.10.2005). 18. Yoon J.P., Raghavan V., Chaklam V., Btmap Indexng-based Clusterng and Retreval of XML Documents, Proceedngs of ACM SIGIR Workshop on Mathematcal/Formal Methods n Informaton Retreval, New Orleans, LA, Sept. 2001. 445