Zastosowanie bezpośredniej analizy semantycznej (ESA) do indeksowania, grupowania i etykietowania artykułów naukowych

Wielkość: px
Rozpocząć pokaz od strony:

Download "Zastosowanie bezpośredniej analizy semantycznej (ESA) do indeksowania, grupowania i etykietowania artykułów naukowych"

Transkrypt

1 Zastosowanie bezpośredniej analizy semantycznej (ESA) do indeksowania, grupowania i etykietowania artykułów naukowych Marcin Szczuka Instytut Matematyki Wydział Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski Seminarium RS&PN, Rzeszów, M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

2 Plan prezentacji 1 Wprowadzenie 2 Explicit Semantic Analysis Idea ESA Wybrane aspekty implementacyjne 3 Przykłady zastosowań Grupowanie artykułów z dziedziny zbiorów przybliżonych Etykietowanie i indeksowanie dokumentów biomedycznych Etykietowanie, klasyfikacja i konkurs JRS 4 Podsumowanie M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

3 Minuta dla sponsora :) SYNAT Utworzenie uniwersalnej, otwartej, repozytoryjnej platformy hostingowej i komunikacyjnej dla sieciowych zasobów wiedzy dla nauki, edukacji i otwartego społeczeństwa wiedzy. W ramach strategicznego programu badań naukowych i prac rozwojowych pt. Interdyscyplinarny system interaktywnej informacji naukowej i naukowo technicznej finansowanego przez Narodowe Centrum Badań i Rozwoju. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

4 Projekt SYNAT Nasze zadania w projekcie: stworzenie sytemu wspierającego wyszukiwanie, syntezę i wizualizację informacji i wiedzy SONCA; wsparcie dla semantycznego indeksowania, klasyfikacji i grupowania; odkrywanie powiązań (relacji) między różnymi rodzajami obiektów; wykorzystanie wiedzy dziedzinowej, szczególnie ontologicznej. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

5 SONCA Search based on ONtologies and Compound Analytics OCR, PDFminer Matching SYNAT PLATFORM Local document repository Parser, Loader Analytic Index Server Semantic Indexer SYNAT PLATFORM QTaxonomy Editor NLQ Procesor Snippet Clustering QUERY INTERFACE GUI/Dialog Search Index Server M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

6 Cele i możliwe zastosowania: Cel: Poprawa reprezentacji dokumentów tekstowych w celu lepszego rozpoznania ich semantyki. 1 Wzbogacenie informacji o dokumencie przez przypisywanie dokumentom pojęć związanych z ich tematyką. 2 Stworzenie indeksu odwrotnego przypisującego pojęciom listę dokumentów z nimi związanych. 3 Wspomaganie etykietowania (tagowania) dokumentów. 4 Umożliwienie semantycznego grupowania dokumentów, poprawa interpretowalności wyników grupowania. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

7 Indeksowanie semantyczne Typowe metody indeksowania: słowami, N-gramami, frazami, (pół)-manualne tworzenie bytów semantycznych (pojęć). Czy można zautomatyzować indeksowanie semantyczne? Pożytki z indeksowania semantycznego: wydobywanie informacji (information retrieval) na dużą skalę, wsparcie dla osób etykietujących manualnie, punkt startowy do np. grupowania, wizualizacji, klasyfikacji. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

8 Plan prezentacji 1 Wprowadzenie 2 Explicit Semantic Analysis Idea ESA Wybrane aspekty implementacyjne 3 Przykłady zastosowań Grupowanie artykułów z dziedziny zbiorów przybliżonych Etykietowanie i indeksowanie dokumentów biomedycznych Etykietowanie, klasyfikacja i konkurs JRS 4 Podsumowanie M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

9 Plan prezentacji 1 Wprowadzenie 2 Explicit Semantic Analysis Idea ESA Wybrane aspekty implementacyjne 3 Przykłady zastosowań Grupowanie artykułów z dziedziny zbiorów przybliżonych Etykietowanie i indeksowanie dokumentów biomedycznych Etykietowanie, klasyfikacja i konkurs JRS 4 Podsumowanie M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

10 Schemat oryginalnego modelu ESA E. Gabrilovich, S. Markovitch, Computing Semantic Relatedness using Wikipedia-based Explicit Semantic Analysis, Proceedings of the 20 th IJCAI, 2007, pp M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

11 Co robi ESA? Wejście Korpus (repozytorium) dokumentów. Na przykład kolekcja prac z czasopism i konferencji (PDF, HTML, XML) z (opcjonalnymi) wyróżnionymi własnościami. Baza wiedzy. Zbiór pojęć wraz z ich opisami (definicjami) oraz (opcjonalnie) strukturą powiązań między pojęciami. Na przykład: Wikipedia/DBpedia, MeSH, ACM classification. Wyjście Indeks semantyczny. Struktura powiązań między dokumentami (elementami korpusu), a semantycznie odpowiednimi pojęciami z bazy wiedzy. Technicznie, jest to bardzo duża macierz rzadka przechowująca stopień powiązania między dokumentem, a pojęciem. Narzędzia Statystyczne metody przetwarzania języka, tf-idf, indeks odwrotny,... M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

12 Wektorowa reprezentacja dokumentów 1 Początkowo zarówno dokumenty z korpusu, jak i z bazy wiedzy są konwertowane do postaci bag-of-words. Dla wyznaczenia wartości współrzędnych wektora słownikowego dla dokumentu posługujemy się zmodyfikowaną miarą tf-idf, w której czynnik tf jest np. brany z pierwiastkiem. 2 Budujemy indeks odwrotny w którym dokumenty z korpusu są kojarzone z pojęciami z bazy wiedzy w których występują. Za pomocą tego indeksu tworzymy nową reprezentację wektorową dla każdego z dokumentów w korpusie. Ta reprezentacja, nazywana bag-of-concepts wiąże dokumenty z korpusu z pojęciami wydobytymi z bazy wiedzy. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

13 Ściągawka: tf-idf tf-idf = term frequency - inverse document frequency. Niech T = w i n i=1 będzie dokumentem w reprezentacji bag-of-words, D zbiorem (korpusem) dokumentów. gdzie: tf idf(w, T, D) = tf(w, T ) idf(w, D) idf(w, D) = log D {T D : w T } M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

14 Reprezentacja bag-of-concepts Dla tekstu (dokumentu) T = w i n i=1 reprezentowanego przez wektor (tf-idf) v 1,..., v n : v i jest wagą dla słowa w i w reprezentacji bag-of-words. k ij jest pozycją w odwróconym indeksie dla słowa w i. Wartość k ij reprezentuje siłę skojarzenia (asocjacji) w i z pojęciem c j (j {1,..., N}) z bazy wiedzy. Nowa reprezentacja wektorowa dla T jest wyznaczana przez: i:w i T v i k ij N j=1. (1) M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

15 Plan prezentacji 1 Wprowadzenie 2 Explicit Semantic Analysis Idea ESA Wybrane aspekty implementacyjne 3 Przykłady zastosowań Grupowanie artykułów z dziedziny zbiorów przybliżonych Etykietowanie i indeksowanie dokumentów biomedycznych Etykietowanie, klasyfikacja i konkurs JRS 4 Podsumowanie M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

16 Realizacja ESA w SONCA By związać dokumenty (np. artykuły z PubMed) w SONCA z pojęciami z bazy wiedzy (np. terminami z MeSH) korzystając z ESA, potrzebujemy wykonywać skomplikowane zapytania na dużych, relacyjnych hurtowniach danych. U Π (R.doc_id,T.concept,measure) ( τ (measuredesc) ( γ ( R.doc_id,S.concept,SUM( R.tf S.assoc T.idf ) measure) ( ))) R S T 2 stem=stem stem=stem Takie zapytanie zwraca (wylicza) poziom powiązania pomiędzy dokumentami, a pojęciami. I dokumenty i pojęcia są przechowywane w tabelach relacyjnej bazy danych. Wykonanie zapytania wiąże się tutaj z koniecznością łączenia (join) bardzo dużych struktur. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

17 ESA w SONCA Zapytania takie, jak to na poprzednim slajdzie, zwracają kompletną informację tj. dla każdego dokumentu wyliczają poziom powiązania ze wszystkimi pojęciami z ontologii (bazy wiedzy). To jednak jest niepotrzebne, a nawet szkodliwe w praktycznych zadaniach. Idea: Wiemy, że potrzebujemy tylko k=30 najbardziej adekwatnych pojęć. Zatem ograniczmy zapytanie do top-k wyników. Trudność: Aby przyciąć zapytanie do top-k wyników musimy w naszym modelu użyć operatora LIMIT wewnątrz GROUP BY. Nie wszystkie RDBMS to wspierają i często jest to kiepsko zrealizowane. Rozwiązanie: Ponieważ wiemy, że obrabiane dokumenty są od siebie niezależne (w sensie ESA), możemy wykonywać na nich niezależne obliczenia. To pozwala na wykorzystanie współbieżności i/lub równoległego przetwarzania. Dekomponujemy nasze zadanie na kawałki (shards), którymi możemy się zająć w bardziej efektywny sposób. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

18 Sharding - rezultaty Obliczanie wektora pojęć Typ bazy Bez shardnig Sharding 1 Infobright 22 h 22 m 0.39 s 8 h 42 m 6.74 s 2 PostgreSQL 24 h brak wyniku 7 h 3 m 1.74 s 3 MonetDB MALException error 8 h 17 m s Obliczanie wektora pojęć z LIMIT k = 30 1 Infobright NA 0 h 29 m s 2 PostgreSQL 16 h 58 m s 1 h 27 m s z LOOP w PL/pgSQL 3 PostgreSQL 17 h 22 m 30 s 1 h 27 m s WINDOWING FUNCTION 4 MonetDB NA 0 h 35 m s word_document ; word_stem 76108; stem_concept M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

19 Plan prezentacji 1 Wprowadzenie 2 Explicit Semantic Analysis Idea ESA Wybrane aspekty implementacyjne 3 Przykłady zastosowań Grupowanie artykułów z dziedziny zbiorów przybliżonych Etykietowanie i indeksowanie dokumentów biomedycznych Etykietowanie, klasyfikacja i konkurs JRS 4 Podsumowanie M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

20 Plan prezentacji 1 Wprowadzenie 2 Explicit Semantic Analysis Idea ESA Wybrane aspekty implementacyjne 3 Przykłady zastosowań Grupowanie artykułów z dziedziny zbiorów przybliżonych Etykietowanie i indeksowanie dokumentów biomedycznych Etykietowanie, klasyfikacja i konkurs JRS 4 Podsumowanie M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

21 Plan eksperymentu Text corpus for tests Initial text processing (filtering, stemming, stop words removal) Final cluster quality evaluation Clustering with semantic representation Similarity Matrix Vector representation Vector representation Semantic representation verification & similarity assessment Reverse index Semantic interpretation (concept filtering, association assessment) New vector representation (using concepts) M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

22 Baza wiedzy: DBpedia (3.5.1 en) Czym jest DBpedia? Obraz Wikipedii o zachowanej strukturze, lecz zredukowanej zawartości. Format DBpedii ułatwia jej automatyczne przetwarzanie. Strony Wikipedii reprezentowane są jedynie przez abstrakty. DBpedia zawiera informacje na temat kategoryzacji pojęć. Liczba pojęć - 3,257,133. Średnia długość abstraktu słów (min 0, max 16,850). Wielkość korpusu - 316,631,010 słów (2,818,483 unikatowych). Liczba kategorii - 560,049 (449,140 bezpośrednich nadkategorii pojęć). M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

23 Korpus dokumentów 349 artykułów naukowych opublikowanych w latach przez autorów związanych z Zakładem Logiki WMIM UW. Wybór obejmuje tylko standardowe artykuły, odpowiadające kategoriom BibTEX: article, inproceedings i incollection. Usunęliśmy artykuły bardzo krótkie (extended abstract) i bardzo długie (mini-monografie). Niektóre artykuły pominęliśmy ze względu na problemy techniczne przy konwersji z formatu PDF. W wyniku konwersji na format tekstowy i wstępnego przetwarzania (NLP, stemming) otrzymaliśmy korpus tekstowy: unikatowych słów przed stemmingiem unikatowych stemów. Średnio dokument zawiera 3524 stemów, minimum 362, maksimum M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

24 Przykładowe listy asocjacji pojęć (LTF-C): Architecture, Training Algorithm and Applications of New Neural Classifier [1] 9.19 Neural_Lab [2] 9.17 Echo_state_network [3] 8.75 Auto-encoder [4] 8.30 Interneuron [5] 8.09 Oja s_rule [6] 8.08 Multilayer_perceptron [7] 8.06 Biological_neural_network [8] 8.06 Artificial_neural_network [9] 8.00 Artificial_neuron [10] 7.84 Neuroevolution Judgment of satisfiability under incomplete information [1] 8.21 Definable_set [2] 8.08 Schaefer s_dichotomy_theorem [3] 7.96 Formal_semantics_of_programming_languages [4] 7.85 Empty_domain [5] 7.78 Tautology_(logic) [6] 7.68 Equisatisfiability [7] 7.54 Method_of_analytic_tableaux [8] 7.38 Conditional_quantifier [9] 7.36 Model_checking [10] 7.32 Satisfiability_and_validity Combination of Metric-Based and Rule-Based Classification [1] 8.92 K-nearest_neighbor_algorithm [2] 6.19 Backmarking [3] 6.08 Wolfe_conditions [4] 5.90 Evolutionary_data_mining [5] 5.66 Event_condition_action [6] 5.64 Transduction_(machine_learning) [7] 5.63 Soft_independent_modelling_of_class_analogies [8] 5.63 Ground_truth [9] 5.56 Proximity_problems [10] 5.50 M. Szczuka (MIM UW) Dominating_decision_rule ESA - zastosowania Rzeszów, / 50

25 Porównanie wyników grupowania ( Silhouette plot ) Penalized silhouette width Optimal number of groups for clustering using the representation by concepts Number of clusters Objects in consecutive clusters (sorted by the silhouette width) Silhouette plot for clustering into 73 groups using the representation concepts n = clusters C j Silhouette width s i Average silhouette width : 0.2 Penalized silhouette width Optimal number of groups for clustering using the representation by words Number of clusters Objects in consecutive clusters (sorted by the silhouette width) Silhouette plot for clustering into 73 groups using the representation words n = clusters C j Silhouette width s i Average silhouette width : 0.18 M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

26 Przycięte drzewo grupowania wg. pojęć Truncated clustering tree Cluster Cluster 1: 2: member Cluster 3: 1 member member Cluster 4: 4 members Cluster Cluster 5: 6: 1 member member Cluster 7: 5 members Cluster Cluster 8: 9: 1 member member Cluster 10: 3 members Cluster 11: 2 members Cluster 12: 3 members Cluster 13: 3 members Cluster 14: 2 members Cluster 15: 2 members Cluster 16: 2 members Cluster 17: 1 member Cluster 18: 3 members Cluster 19: 1 member Cluster 20: 4 members Cluster 21: 13 members Cluster 22: 1 member Cluster 23: 4 members Cluster 24: 4 members Cluster 25: 8 members Cluster 26: 2 members Cluster 27: 3 members Cluster 28: 1 member Cluster 29: 3 members Cluster 30: 1 member Cluster 31: 9 members Cluster 32: 2 members Cluster 33: 19 members Cluster 34: 24 members Cluster 35: 8 members Cluster 36: 11 members Cluster 37: 13 members Cluster 38: 1 member Cluster 39: 14 members Cluster 40: 3 members Cluster 41: 10 members Cluster 42: 4 members Cluster 43: 5 members Cluster 44: 4 members Cluster 45: 2 members Cluster 46: 4 members Cluster 47: 2 members Cluster 48: 3 members Cluster 53: 2 members Cluster 55: 2 members Cluster 49: 2 members Cluster 50: 1 member Cluster 51: 2 members Cluster 52: 1 member Cluster 54: 1 member Cluster 56: 1 member Cluster 57: 4 members Cluster 58: 8 members Cluster 59: 10 members Cluster 60: 4 members Cluster 61: 4 members Cluster 62: 13 members Cluster 63: 4 members Cluster 64: 3 members Cluster 65: 3 members Cluster 66: 3 members Cluster 67: 3 members Cluster 68: 13 members Cluster 69: 1 member Cluster 70: 13 members Cluster 71: 1 member Cluster 72: 3 members Cluster 73: 27 members M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

27 Przycięte drzewo grupowania wg. słów Truncated clustering tree Cluster 1: 2 members Cluster Cluster 2: 3: member Cluster 4: member Cluster 5: member Cluster 6: member Cluster 7: member Cluster 8: 1 member member Cluster 9: 6 members Cluster Cluster 10: 11: member Cluster 12: member Cluster 13: member Cluster 14: member Cluster 15: 1 member member Cluster 16: 3 members Cluster 17: 3 members Cluster 18: 2 members Cluster Cluster 19: 20: member Cluster 21: 1 member member Cluster 22: 2 members Cluster 23: 2 members Cluster 24: 4 members Cluster 25: 8 members Cluster 26: 1 member Cluster 27: 4 members Cluster Cluster 28: 29: 1 member member Cluster 30: 3 members Cluster 31: 1 member Cluster 32: 2 members Cluster 33: 6 members Cluster 34: 3 members Cluster 35: 3 members Cluster 36: 2 members Cluster 37: 4 members Cluster 38: 7 members Cluster 39: 2 members Cluster 40: 2 members Cluster 41: 1 member Cluster 42: 8 members Cluster Cluster 43: 44: 1 member member Cluster 45: 7 members Cluster 46: 1 member Cluster 47: 3 members Cluster 48: 28 members Cluster 49: 3 members Cluster 50: 3 members Cluster 51: 6 members Cluster 52: 5 members Cluster 53: 23 members Cluster 54: 13 members Cluster 55: 1 member Cluster 56: 7 members Cluster 57: 1 member Cluster 58: 3 members Cluster 59: 2 members Cluster 60: 5 members Cluster 61: 8 members Cluster 62: 17 members Cluster 63: 9 members Cluster 64: 2 members Cluster 65: 60 members Cluster 66: 1 member Cluster 67: 22 members Cluster Cluster 68: 69: 1 member member Cluster 70: 2 members Cluster 71: 2 members Cluster 72: 4 members Cluster 73: 8 members M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

28 Analiza wybranych grup Cluster 21: Neurocomputing and Artificial Neural Networks [1] (LTF-C): Architecture, Training Algorithm and Applications of New Neural Classifier [2] Rough Neurons: Petri Net Models and Applications [3] Rough-Neural Computing: An Introduction [4] Toward Rough Neural Computing Based on Rough Membership Functions: Theory and Application [5] Rough Neurocomputing: A Survey of Basic Models of Neurocomputation [6] Design of rough neurons: Rough set foundation and Petri net model [7] Constructing Extensions of Bayesian Classifiers with use of Normalizing Neural Networks [8] Refining decision classes with neural networks [9] Harnessing Classifier Networks - Toward Hierarchical Concept Construction [10] Feedforward concept networks [11] Neural network design: Rough set approach to real-valued data [12] Hyperplane-based neural networks for real-valued decision tables [13] Rough Sets and Artificial Neural Networks Cluster 39: Logical Satisfiability and Validity of Formulas [1] Judgment of satisfiability under incomplete information [2] A graded applicability of rules [3] Toward rough applicability of rules [4] Satisfiability and meaning in approximation spaces [5] Satisfiability Judgment Under Incomplete Information [6] Reasoning Based on Information Changes in Information Maps [7] Rough validity, confidence, and coverage of rules in approximation spaces [8] Satisfiability and meaning of formulas and sets of formulas in approximation spaces [9] On rough judgment making by socio-cognitive agents [10] Rauszer s R-logic for multiagent systems [11] Rough rule-following by social agents [12] Satisfiability of formulas from the standpoint of object classification [13] Construction of rough information granules [14] Patterns in Information Maps Cluster 60: Instance-based Learning [1] Combination of Metric-Based and Rule-Based Classification [2] Rough Set Approach to CBR [3] Local Attribute Value Grouping for Lazy Rule Induction M. Szczuka [4] Granulation (MIM UW) in Analogy-based Classification ESA - zastosowania Rzeszów, / 50

29 Przypisywanie pojęć do grup dokumentów Cluster 21: Neurocomputing and Artificial Neural Networks [1] ADALINE [2] Artificial_neural_network [3] Artificial_neuron [4] Auto-encoder [5] Delta_rule [6] Multilayer_perceptron [7] Universal_approximation_theorem [8] Echo_state_network [9] Neural_Lab Cluster 39: Logical Satisfiability and Validity of Formulas [1] Empty_domain [2] Formal_theorem [3] Limit-preserving_function_(order_theory) [4] Satisfiability_and_validity [5] Schaefer s_dichotomy_theorem [6] Tautology_(logic) [7] Well-definition Cluster 60: Instance-based Learning [1] Attribute_(computing) [2] Attribute_(network_management) [3] Integrity_constraints [4] K-nearest_neighbor_algorithm [5] Online_machine_learning [6] Relation_(database) [7] Structured_SVM M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

30 Plan prezentacji 1 Wprowadzenie 2 Explicit Semantic Analysis Idea ESA Wybrane aspekty implementacyjne 3 Przykłady zastosowań Grupowanie artykułów z dziedziny zbiorów przybliżonych Etykietowanie i indeksowanie dokumentów biomedycznych Etykietowanie, klasyfikacja i konkurs JRS 4 Podsumowanie M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

31 Semantyczne indeksowanie literatury biomedycznej Zadanie: Automatycznie przypisać etykiety MeSH dokumentom z (dużego) repozytorium. Wyszukiwarki w biomedycynie: PubMed Search, BabelMeSH, GoPubMed, etblast, Anne O Tate, i inne... Motywacja: dostępność danych i wyników porównawczych, większość istniejących indeksów polega na MEDLINE, nawet niewielkie polepszenie aktualnych wyników jest pożyteczne. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

32 PubMed i MeSH PubMed i PubMed Central Internetowa baza danych obejmująca artykuły i inne materiały (ok. 22,5M) z dziedziny medycyny i nauk biologicznych. Założona w 1996 roku przez National Center for Biotechnology Information, będący częścią National Library of Medicine. PubMed zapewnia bezpłatny dostęp do artykułów znajdujących się w bazie MEDLINE oraz niektórych artykułów z czasopism nienależących do niej. Ponadto podzbiór PubMed Central Open Access jest dostępny w postaci pełnych tekstów (około 0,5M). MeSH - Medical Subject Headings System metadanych (baza wiedzy, ontologia) którego celem jest indeksowanie artykułów medycznych i książek o tej tematyce. Stworzony i ulepszany przez NLM, jest używany w bazach danych MEDLINE i PubMed. Zawiera (wersja 2009) pojęć (subject headings, descriptors) powiązanych zależnościami (hierarchiami) i opatrzonych opisami. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

33 ESA na dokumentach PubMed Tytuł dokumentu MeSH tagi z PubMed MeSH tagi z SONCA Cockroaches (Ectobius Cockroaches*, Insect Control*, Cockroaches, Intensive Care vittientris) in an intensive Intensive Care Units*, Units, Klebsiella Infections, care unit, Switzerland. Cross Infection, Insect Vectors Pest Control, Cross Infection Serotonin transporter genotype, Depressive Disorder*, Gene- Depressive Disorder, Genomeand morning cortisol tic Predisposition to Disease*, Wide Association Study, Mul- subsequent depression Serotonin Plasma Membrane tilevel Analysis, Cohort Studies, in adolescents. Transport Proteins*, Genoty- pe, Multilevel Analysis Adolescent Psychiatry Capacity of Thailand to contain an emerging influenza pandemic. Disaster Planning*, Health Policy*, Disease Outbreaks, Health Resources, Influenza Human Health Care Rationing, Health Resources, Epidemics, Evidence-Based Medicine, Influenza B virus średni recall dla top 10 najlepszych tagów: 0.2; top 30 tagów: 0.26; wiele ściśle powiązanych pojęć (headings) nieodnotowanych przez ekspertów; dokładność jest ściśle powiązana z jakością opisów pojęć. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

34 Ustawienia eksperymentu Idea: labels assigned by experts can be used to improve labelling, semantic index can be updated by analogy to a back-propagation algorithm from neural networks, various types of user feedback can also be utilized. ESA Semantic index Adaptive module User feedback Experiments: a corpus of 40K articles from PMC, corresponding MeSH headings were acquired from MEDLINE, data divided into training and test sets, evaluation by F 1 -score and Recall. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

35 Adaptacyjne poprawianie (uczenie) tagów Algorytm poprawiania: Input: INV - macierz żadka o N wierszach i K kolumnach; T op C (T ) - top pojęcia z ESA; Exp(T ) - pojęcia eksperckie (od użytkowników); begin Zainicjuj ( macierz INV ; ) ( ) for c k T op C (T ) Exp(T ) Exp(T ) \ T op C (T ) do zwiększ wartość INV odpowiadających słowom występującym w T i mającym niezerowe wagi w k-tej kolumnie INV, proporcjonalnie do częstości występowania w T ; end ( ) for c k T op C (T ) \ Exp(T ) do zmniejsz odpowiednie wartości w k-tej kolumnie INV ; end return INV = INV + INV end algorytm może być używany tak on-line, jak i wsadowo; można stosować różne formuły na zmianę wag. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

36 Rezultaty uczenia: F 1 -score i Recall average F1 score training score test score Iteration number a) F 1- score b) Recall average Recall Iteration number training score test score M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

37 Rezultaty uczenia: rozmiar danych i zbieżność average Recall stopping criterion score training set maximum test set maximum Training set size Training set size a) Recall b) Number of iteration Iteration number stopping criterion trigger training set maximum test set maximum M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

38 Plan prezentacji 1 Wprowadzenie 2 Explicit Semantic Analysis Idea ESA Wybrane aspekty implementacyjne 3 Przykłady zastosowań Grupowanie artykułów z dziedziny zbiorów przybliżonych Etykietowanie i indeksowanie dokumentów biomedycznych Etykietowanie, klasyfikacja i konkurs JRS 4 Podsumowanie M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

39 Kontekst MEDLINE zatrudnia zastępy ekspertów by indeksowali ich zasoby pojęciami z MeSH. MeSH zawiera ponad pojęć. Pojęcia są umieszczane w kontekście za pomocą 83 kwalifikatorów (subheadings). Lekarze używają par heading/subheading z MeSH do szukania informacji. Do 2007 zostało (na poły ręcznie) zindeksowanych artykuły. Eksperci potrzebują pilnej pomocy. Oczekiwania: milion artykułów w M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

40 Konkurs JRS 2012 JRS 2012 Data Mining Competition Topical Classification of Biomedical Research Papers JRS 2012, Chengdu, Chiny, sierpnia. Cele: sprawdzić SONCA w roli indeksera semantycznego; oszacować możliwości automatycznego przewidywania par heading/subheading z MeSH dla dokumentów PubMed. Plan wykonania: 1 Pozyskanie danych. 2 Zaindeksowanie semantyczne za pomocą SONCA pojęciami (headings) z MeSH. 3 Predykcja MeSH subheadings związanych z dokumentami. 4 Stworzenie par heading/subheading. 5 Uruchomienie adaptacyjnego mechanizmu douczania się i poprawy systemu. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

41 Dane konkursowe Formuła przygotowania danych Dokumenty z PubMed + SONCA (ESA) + Etykiety z MEDLINE = Dane konkursowe Kroki w przygotowaniu danych: 1 Standardowe przetwarzanie tekstów. 2 Indeksowanie z użyciem ESA. 3 Pozyskanie etykiet referencyjnych z MEDLINE. 4 Wybór 20K documents. 5 Top-30 skojarzonych etykiet rozszerzone o ich sąsiadów w hierarchii MeSH. Uzyskane dane bardzo rzadka macierz danych (< 1% niezerowych wartości), atrybutów, 83 bardzo niezbalansowane etykiety, wstępna ocena na 10% danych testowych, wymaganie dostarczenia krótkiego raportu. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

42 Summary of the Results Metoda oceny: uśredniony F 1 -score z przewidywań. P recision i = T ruet opics i P redt opics i P redt opics i, Recall i = T ruet opics i P redt opics i T ruet opics i, F 1 -score i = 2 P recision i Recall i P recision i +Recall i, AvgF 1 -score = N i=1 F 1 -score i N. Statystyka konkursu: 396 zespołów = 533 uczestników; zespoły z 50 krajów; 124 aktywne zespoły; 5964 przysłanych rozwiązań; 39 zespołów powyżej kreski (99 na danych wstępnych); rozwiązanie referencyjne poprawione o 125%. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

43 Przykład rozwiązania: podejście CBR Zestaw etykiet dla testowanego dokumentu jest ustalany na podstawie znanych etykiet dla podobnych dokumentów z próbki uczącej. Właściwości: pojedynczy model, intuicyjnie zrozumiały, skalowalny ze względu na liczbę etykiet, rozsądna jakość predykcji ( 0.50 dla double-weighted k-nn). M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

44 Przykład rozwiązania: podejście z wieloma modelami Model 1 Model 2 Model 3 Data set... Model 82 Model 83 Niezależne modele są skonstruowane dla każdej z etykiet, a ich odpowiedzi są agregowane tworząc ostateczne wyjście. Label 1 Label 2 Label 3... Label 82 Label Label 3, Label 7, Label 67 Label 2, Label 43, Label 78, Label 80 Label 3, Label Label 13, Label 36, Label 75 Właściwości: najpopularniejsze podejście, elastyczność w wyborze modeli składowych, dobra jakość predykcji ( u zwycięzcy). M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

45 Zespoły klasyfikatorów (predykatorów) Ensemble learning: użycie (zespołu) wielu modeli do uzyskania poprawy jakości klasyfikacji. model 1 model 2 Do stworzenia dobrego zespołu potrzeba dokładnych ale zróżnicowanych klasyfikatorów składowych. model 3 concept C Przykład: Zespół stworzony z 5 najlepszych rozwiązań osiągnął jakość M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

46 Podsumowanie Możliwe zastosowania: indeksy semantyczne, wsparcie dla bibliotekarzy, jako wejście w grupowaniu, analiza semantyczna korpusów tekstowych. Dalsze kierunki badań: poprawienie podstawowej metody tagowania, uwzględnienie struktury MeSH w klasyfikacji, współpraca z ekspertami, udoskonalanie metod klasyfikacji wieloetykietowej. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

47 Plan prezentacji 1 Wprowadzenie 2 Explicit Semantic Analysis Idea ESA Wybrane aspekty implementacyjne 3 Przykłady zastosowań Grupowanie artykułów z dziedziny zbiorów przybliżonych Etykietowanie i indeksowanie dokumentów biomedycznych Etykietowanie, klasyfikacja i konkurs JRS 4 Podsumowanie M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

48 Wnioski ESA okazuje się być użytecznym narzędziem do tworzenia indeksów semantycznych, które mogą być potem wykorzystane do etykietowania, grupowania, klasyfikacji i wizualizacji korpusów dokumentów. Przy wykorzystywaniu ESA można wiele osiągnąć przez: właściwy preprocessing tak korpusu jak i bazy wiedzy; właściwy dobór miar i kryteriów do zadania; wbudowanie mechanizmu poprawiania rozwiązania, w sczególności w interakcji z użytkownikiem. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

Wybrane problemy zarządzania wiedzą

Wybrane problemy zarządzania wiedzą Zakład Zaawansowanych Technik Informacyjnych (Z-6) Wybrane problemy zarządzania wiedzą Zadanie nr 1 Praktyczne aspekty zarządzania wiedzą Praca nr 06300017 Warszawa, grudzień 2007 Wybrane problemy zarządzania

Bardziej szczegółowo

KATEDRA ARCHITEKTURY SYSTEMÓW KOMPUTEROWYCH Proponowane tematy prac dyplomowych mgr rok akademicki 2011/2012

KATEDRA ARCHITEKTURY SYSTEMÓW KOMPUTEROWYCH Proponowane tematy prac dyplomowych mgr rok akademicki 2011/2012 KATEDRA ARCHITEKTURY SYSTEMÓW KOMPUTEROWYCH Proponowane tematy prac dyplomowych mgr rok akademicki 2011/2012 1. Integracja systemu kategorialnego z siecią pojęciową 2. Metody tworzenia znaczeń na podstawie

Bardziej szczegółowo

TEXT MINING JAKO NARZĘDZIE POZYSKIWANIA INFORMACJI Z DOKUMENTÓW TEKSTOWYCH

TEXT MINING JAKO NARZĘDZIE POZYSKIWANIA INFORMACJI Z DOKUMENTÓW TEKSTOWYCH TEXT MINING JAKO NARZĘDZIE POZYSKIWANIA INFORMACJI Z DOKUMENTÓW TEKSTOWYCH Paweł Lula Akademia Ekonomiczna w Krakowie, Katedra Informatyki Stale i szybko rosnące zasoby informacyjne są jedną z cech współczesności.

Bardziej szczegółowo

Wykrywanie wiedzy w dużych zbiorach danych: przykład personalizacji inżynierii ontologicznej

Wykrywanie wiedzy w dużych zbiorach danych: przykład personalizacji inżynierii ontologicznej Cezary Chudzian, Janusz Granat, Edward Klimasara, Jarosław Sobieszek, Andrzej P. Wierzbicki W artykule, po przedyskutowaniu szeroko rozumianego pojęcia inżynierii wiedzy, a w szczególności inżynierii ontologicznej,

Bardziej szczegółowo

red. naukowa Jarosław Protasiewicz

red. naukowa Jarosław Protasiewicz Procedury recenzowania i doboru recenzentów Tom drugi red. naukowa Jarosław Protasiewicz Projekt współfinansowany przez Unię Europejską z Europejskiego Funduszu Rozwoju Regionalnego 1 Procedury recenzowania

Bardziej szczegółowo

INFORMATYKA EKONOMICZNA

INFORMATYKA EKONOMICZNA INFORMATYKA EKONOMICZNA BUSINESS INFORMATICS 1(31) 2014 Wydawnictwo Uniwersytetu Ekonomicznego we Wrocławiu Wrocław 2014 Redaktorzy Wydawnictwa: Elżbieta Macauley, Tim Macauley, Jadwiga Marcinek Redaktor

Bardziej szczegółowo

Zakład Zaawansowanych Technik Informacyjnych (Z-6)

Zakład Zaawansowanych Technik Informacyjnych (Z-6) Zakład Zaawansowanych Technik Informacyjnych (Z-6) Sprawozdanie dla grupy tematycznej PBZ i. Systemy wspomagania decyzji regulacyjnych: Wykrywanie wiedzy w dużych zbiorach danych telekomunikacyjnych PBZ

Bardziej szczegółowo

Wykorzystanie projektu R w zadaniach eksploracji danych

Wykorzystanie projektu R w zadaniach eksploracji danych Wykorzystanie projektu R w zadaniach eksploracji danych Artur Gramacki, Jarosław Gramacki Uniwersytet Zielonogórski Instytut Informatyki i Elektroniki ul. Podgórna 50, 65-246, Zielona Góra e-mail: a.gramacki@iie.uz.zgora.pl,

Bardziej szczegółowo

Eksploracja złożonych typów danych Text i Web Mining

Eksploracja złożonych typów danych Text i Web Mining Eksploracja złożonych typów danych Text i Web Mining Jerzy Stefanowski Instytut Informatyki Politechniki Poznańskiej Wykład AiED, Poznań 2002 Co będzie? Eksploracja danych tekstowych Wyszukiwanie informacji

Bardziej szczegółowo

Oracle Data Mining odkrywanie wiedzy w dużych wolumenach danych

Oracle Data Mining odkrywanie wiedzy w dużych wolumenach danych Oracle Data Mining odkrywanie wiedzy w dużych wolumenach danych Mikołaj Morzy Instytut Informatyki Politechniki Poznańskiej e-mail: Mikolaj.Morzy@cs.put.poznan.pl Abstrakt. Duże wolumeny danych zawierają

Bardziej szczegółowo

Ontologie jako narzędzie budowy modeli w ubezpieczeniowych systemach informacyjnych ekstrakcja wiedzy ubezpieczeniowej ze źródeł internetowych

Ontologie jako narzędzie budowy modeli w ubezpieczeniowych systemach informacyjnych ekstrakcja wiedzy ubezpieczeniowej ze źródeł internetowych Ontologie jako narzędzie budowy modeli WITOLD ABRAMOWICZ PIOTR STOLARSKI KRZYSZTOF WĘCEL Ontologie jako narzędzie budowy modeli w ubezpieczeniowych systemach informacyjnych ekstrakcja wiedzy ubezpieczeniowej

Bardziej szczegółowo

MODEL UŻYTKOWNIKA W INTERNETOWYCH SYSTEMACH WYSZUKIWANIA INFORMACJI

MODEL UŻYTKOWNIKA W INTERNETOWYCH SYSTEMACH WYSZUKIWANIA INFORMACJI Wydziałowy Zakład Systemów Informacyjnych Wydział Informatyki i Zarządzania Politechnika Wrocławska MODEL UŻYTKOWNIKA W INTERNETOWYCH SYSTEMACH WYSZUKIWANIA INFORMACJI (praca doktorska) Agnieszka Indyka

Bardziej szczegółowo

INFORMATYKA EKONOMICZNA

INFORMATYKA EKONOMICZNA INFORMATYKA EKONOMICZNA BUSINESS INFORMATICS 1(31) 2014 Wydawnictwo Uniwersytetu Ekonomicznego we Wrocławiu Wrocław 2014 Redaktorzy Wydawnictwa: Elżbieta Macauley, Tim Macauley, Jadwiga Marcinek Redaktor

Bardziej szczegółowo

Data mining w wielkich złożonych systemach

Data mining w wielkich złożonych systemach Zakład Zaawansowanych Technik Informacyjnych (Z-6) Data mining w wielkich złożonych systemach Praca statutowa nr 06300018 Warszawa, grudzień 2008 Data mining w wielkich złożonych systemach Praca statutowa

Bardziej szczegółowo

Inżynieria ontologii dla potrzeb integracji systemów.

Inżynieria ontologii dla potrzeb integracji systemów. Inżynieria ontologii dla potrzeb integracji systemów. Boiński Tomasz Orłowski Piotr Szpryngier Piotr 7 września 2012 Streszczenie. Inżynieria ontologii to gałąź inżynierii wiedzy, która zajmuje się metodami

Bardziej szczegółowo

Katedra Architektury Systemów Komputerowych

Katedra Architektury Systemów Komputerowych Katedra Architektury Systemów Komputerowych 1. Dynamiczna integracja wiedzy przechowywanej w postaci ontologii 2. Wyszukiwarka internetowa wspomagana kategoryzacją 3. Grupowanie artykułów Wikipedii 4.

Bardziej szczegółowo

SYSTEMY ZARZĄDZANIA BAZĄ DANYCH I ARCHITEKTURA AGENTOWA W SŁUŻBACH RATOWNICZYCH PAŃSTWOWEJ STRAŻY POŻARNEJ

SYSTEMY ZARZĄDZANIA BAZĄ DANYCH I ARCHITEKTURA AGENTOWA W SŁUŻBACH RATOWNICZYCH PAŃSTWOWEJ STRAŻY POŻARNEJ mgr inż. Marcin Michał MIROŃCZUK Politechnika Białostocka Wydział Elektryczny SYSTEMY ZARZĄDZANIA BAZĄ DANYCH I ARCHITEKTURA AGENTOWA W SŁUŻBACH RATOWNICZYCH PAŃSTWOWEJ STRAŻY POŻARNEJ Database management

Bardziej szczegółowo

PRZEGLĄD I KLASYFIKACJA ZASTOSOWAŃ, METOD ORAZ TECHNIK EKSPLORACJI DANYCH

PRZEGLĄD I KLASYFIKACJA ZASTOSOWAŃ, METOD ORAZ TECHNIK EKSPLORACJI DANYCH Studia i Materiały Informatyki Stosowanej, Tom 2, Nr 2, 2010 PRZEGLĄD I KLASYFIKACJA ZASTOSOWAŃ, METOD ORAZ TECHNIK EKSPLORACJI DANYCH Marcin Mirończuk Politechnika Białostocka Wydział Elektryczny ul.wiejska

Bardziej szczegółowo

Techniczne systemy informatyki jako narzędzia odkrywania wiedzy i symulacji życia

Techniczne systemy informatyki jako narzędzia odkrywania wiedzy i symulacji życia NAUKA 3/2004 21-56 ROMAN SŁOWIŃSKI Techniczne systemy informatyki jako narzędzia odkrywania wiedzy i symulacji życia Informatyka jest nauką badającą procesy algorytmiczne, które opisują i przetwarzają

Bardziej szczegółowo

Hurtownie danych. Dlaczego? Wnioski z danych. Adam Pelikant. Dlaczego?

Hurtownie danych. Dlaczego? Wnioski z danych. Adam Pelikant. Dlaczego? Dlaczego? Hurtownie danych Człowiek, który potrafi czytać ale nie ma książek, nie ma przewagi nad tymi, którzy w ogóle nie umieją czytać Mark Twain - 1900 Adam Pelikant Człowiek który posiada dane ale

Bardziej szczegółowo

Tematy prac dyplomowych magisterskich Katedry Architektury Systemów Komputerowych na rok 2010/2011

Tematy prac dyplomowych magisterskich Katedry Architektury Systemów Komputerowych na rok 2010/2011 Tematy prac dyplomowych magisterskich Katedry Architektury Systemów Komputerowych na rok 2010/2011 1. Meta-wyszukiwarka internetowa zadanej kategorii dokumentów cyfrowych w j. polskim. 2. Wielodostępny

Bardziej szczegółowo

INTELIGENTNY KOKPIT MENEDŻERSKI JAKO INNOWACYJNY SYSTEM WSPOMAGAJĄCY ZARZĄDZANIE W MŚP

INTELIGENTNY KOKPIT MENEDŻERSKI JAKO INNOWACYJNY SYSTEM WSPOMAGAJĄCY ZARZĄDZANIE W MŚP INFORMATYKA EKONOMICZNA BUSINESS INFORMATICS 1(31) 2014 ISSN 1507-3858 Jerzy Korczak, Helena Dudycz, Mirosław Dyczkowski Uniwersytet Ekonomiczny we Wrocławiu INTELIGENTNY KOKPIT MENEDŻERSKI JAKO INNOWACYJNY

Bardziej szczegółowo

Studia i Materiały Informatyki Stosowanej

Studia i Materiały Informatyki Stosowanej Studia i Materiały Informatyki Stosowanej Studia i Materiały Informatyki Stosowanej czasopismo młodych pracowników naukowych, doktorantów i studentów patronat: Polskie Towarzystwo Informatyczne Przewodniczący

Bardziej szczegółowo

Redakcja naukowa: Lech Banachowski Postępy e-edukacji

Redakcja naukowa: Lech Banachowski Postępy e-edukacji Redakcja naukowa: Lech Banachowski Postępy e-edukacji Postępy e-edukacji Redakcja naukowa: Lech Banachowski Postępy e-edukacji c Copyright by Wydawnictwo PJWSTK Warszawa 2013 Wszystkie nazwy produktów

Bardziej szczegółowo

Krzysztof Juszczyszyn autoreferat (zał.2) - str. 1

Krzysztof Juszczyszyn autoreferat (zał.2) - str. 1 Krzysztof Juszczyszyn autoreferat (zał.2) - str. 1 4.2 Publikacje wchodzące w skład osiągnięcia naukowego: (podano procentowy udział habilitanta w publikacjach) A. Juszczyszyn Krzysztof (100%): A subjective

Bardziej szczegółowo

Tematy magisterskie 2011 Katedra Inżynierii Oprogramowania

Tematy magisterskie 2011 Katedra Inżynierii Oprogramowania Tematy magisterskie 2011 Katedra Inżynierii Oprogramowania 1 Analiza stosowanych metodyk i sposobów ich łączenia w firmach programistycznych. 2 Wspomaganie rozwoju kompetencji kierowniczych w małych firmach

Bardziej szczegółowo

Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie. Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki Katedra Automatyki

Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie. Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki Katedra Automatyki Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki Katedra Automatyki PRACA MAGISTERSKA MARIUSZ SASKO LINGWISTYCZNY SYSTEM DEFINICYJNY

Bardziej szczegółowo

Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie. Wydział Informatyki, Elektroniki i Telekomunikacji KATEDRA INFORMATYKI

Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie. Wydział Informatyki, Elektroniki i Telekomunikacji KATEDRA INFORMATYKI Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie Wydział Informatyki, Elektroniki i Telekomunikacji KATEDRA INFORMATYKI PRACA MAGISTERSKA WOJCIECH FRYCZ ROZPOZNAWANIE WZORCÓW W TEKSTACH PUBLIKOWANYCH

Bardziej szczegółowo

TECHNIKI POZYSKIWANIA WIEDZY W HURTOWNI DANYCH

TECHNIKI POZYSKIWANIA WIEDZY W HURTOWNI DANYCH TECHNIKI POZYSKIWANIA WIEDZY W HURTOWNI DANYCH Małgorzata NYCZ Streszczenie: Artykuł poświęcony jest pozyskiwaniu wiedzy z hurtowni danych. Składa się z czterech części. Po krótkim wstępie zaprezentowano

Bardziej szczegółowo

Wnioskowanie z danych zapisanych w zewnętrznych źródłach w systemie zarządzania wiedzą

Wnioskowanie z danych zapisanych w zewnętrznych źródłach w systemie zarządzania wiedzą Rozdział 26 Wnioskowanie z danych zapisanych w zewnętrznych źródłach w systemie zarządzania wiedzą Streszczenie. Rozdział prezentuje proces wnioskowania z danych przechowywanych w zewnętrznych źródłach.

Bardziej szczegółowo