Zastosowanie bezpośredniej analizy semantycznej (ESA) do indeksowania, grupowania i etykietowania artykułów naukowych

Wielkość: px
Rozpocząć pokaz od strony:

Download "Zastosowanie bezpośredniej analizy semantycznej (ESA) do indeksowania, grupowania i etykietowania artykułów naukowych"

Transkrypt

1 Zastosowanie bezpośredniej analizy semantycznej (ESA) do indeksowania, grupowania i etykietowania artykułów naukowych Marcin Szczuka Instytut Matematyki Wydział Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski Seminarium RS&PN, Rzeszów, M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

2 Plan prezentacji 1 Wprowadzenie 2 Explicit Semantic Analysis Idea ESA Wybrane aspekty implementacyjne 3 Przykłady zastosowań Grupowanie artykułów z dziedziny zbiorów przybliżonych Etykietowanie i indeksowanie dokumentów biomedycznych Etykietowanie, klasyfikacja i konkurs JRS 4 Podsumowanie M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

3 Minuta dla sponsora :) SYNAT Utworzenie uniwersalnej, otwartej, repozytoryjnej platformy hostingowej i komunikacyjnej dla sieciowych zasobów wiedzy dla nauki, edukacji i otwartego społeczeństwa wiedzy. W ramach strategicznego programu badań naukowych i prac rozwojowych pt. Interdyscyplinarny system interaktywnej informacji naukowej i naukowo technicznej finansowanego przez Narodowe Centrum Badań i Rozwoju. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

4 Projekt SYNAT Nasze zadania w projekcie: stworzenie sytemu wspierającego wyszukiwanie, syntezę i wizualizację informacji i wiedzy SONCA; wsparcie dla semantycznego indeksowania, klasyfikacji i grupowania; odkrywanie powiązań (relacji) między różnymi rodzajami obiektów; wykorzystanie wiedzy dziedzinowej, szczególnie ontologicznej. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

5 SONCA Search based on ONtologies and Compound Analytics OCR, PDFminer Matching SYNAT PLATFORM Local document repository Parser, Loader Analytic Index Server Semantic Indexer SYNAT PLATFORM QTaxonomy Editor NLQ Procesor Snippet Clustering QUERY INTERFACE GUI/Dialog Search Index Server M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

6 Cele i możliwe zastosowania: Cel: Poprawa reprezentacji dokumentów tekstowych w celu lepszego rozpoznania ich semantyki. 1 Wzbogacenie informacji o dokumencie przez przypisywanie dokumentom pojęć związanych z ich tematyką. 2 Stworzenie indeksu odwrotnego przypisującego pojęciom listę dokumentów z nimi związanych. 3 Wspomaganie etykietowania (tagowania) dokumentów. 4 Umożliwienie semantycznego grupowania dokumentów, poprawa interpretowalności wyników grupowania. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

7 Indeksowanie semantyczne Typowe metody indeksowania: słowami, N-gramami, frazami, (pół)-manualne tworzenie bytów semantycznych (pojęć). Czy można zautomatyzować indeksowanie semantyczne? Pożytki z indeksowania semantycznego: wydobywanie informacji (information retrieval) na dużą skalę, wsparcie dla osób etykietujących manualnie, punkt startowy do np. grupowania, wizualizacji, klasyfikacji. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

8 Plan prezentacji 1 Wprowadzenie 2 Explicit Semantic Analysis Idea ESA Wybrane aspekty implementacyjne 3 Przykłady zastosowań Grupowanie artykułów z dziedziny zbiorów przybliżonych Etykietowanie i indeksowanie dokumentów biomedycznych Etykietowanie, klasyfikacja i konkurs JRS 4 Podsumowanie M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

9 Plan prezentacji 1 Wprowadzenie 2 Explicit Semantic Analysis Idea ESA Wybrane aspekty implementacyjne 3 Przykłady zastosowań Grupowanie artykułów z dziedziny zbiorów przybliżonych Etykietowanie i indeksowanie dokumentów biomedycznych Etykietowanie, klasyfikacja i konkurs JRS 4 Podsumowanie M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

10 Schemat oryginalnego modelu ESA E. Gabrilovich, S. Markovitch, Computing Semantic Relatedness using Wikipedia-based Explicit Semantic Analysis, Proceedings of the 20 th IJCAI, 2007, pp M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

11 Co robi ESA? Wejście Korpus (repozytorium) dokumentów. Na przykład kolekcja prac z czasopism i konferencji (PDF, HTML, XML) z (opcjonalnymi) wyróżnionymi własnościami. Baza wiedzy. Zbiór pojęć wraz z ich opisami (definicjami) oraz (opcjonalnie) strukturą powiązań między pojęciami. Na przykład: Wikipedia/DBpedia, MeSH, ACM classification. Wyjście Indeks semantyczny. Struktura powiązań między dokumentami (elementami korpusu), a semantycznie odpowiednimi pojęciami z bazy wiedzy. Technicznie, jest to bardzo duża macierz rzadka przechowująca stopień powiązania między dokumentem, a pojęciem. Narzędzia Statystyczne metody przetwarzania języka, tf-idf, indeks odwrotny,... M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

12 Wektorowa reprezentacja dokumentów 1 Początkowo zarówno dokumenty z korpusu, jak i z bazy wiedzy są konwertowane do postaci bag-of-words. Dla wyznaczenia wartości współrzędnych wektora słownikowego dla dokumentu posługujemy się zmodyfikowaną miarą tf-idf, w której czynnik tf jest np. brany z pierwiastkiem. 2 Budujemy indeks odwrotny w którym dokumenty z korpusu są kojarzone z pojęciami z bazy wiedzy w których występują. Za pomocą tego indeksu tworzymy nową reprezentację wektorową dla każdego z dokumentów w korpusie. Ta reprezentacja, nazywana bag-of-concepts wiąże dokumenty z korpusu z pojęciami wydobytymi z bazy wiedzy. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

13 Ściągawka: tf-idf tf-idf = term frequency - inverse document frequency. Niech T = w i n i=1 będzie dokumentem w reprezentacji bag-of-words, D zbiorem (korpusem) dokumentów. gdzie: tf idf(w, T, D) = tf(w, T ) idf(w, D) idf(w, D) = log D {T D : w T } M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

14 Reprezentacja bag-of-concepts Dla tekstu (dokumentu) T = w i n i=1 reprezentowanego przez wektor (tf-idf) v 1,..., v n : v i jest wagą dla słowa w i w reprezentacji bag-of-words. k ij jest pozycją w odwróconym indeksie dla słowa w i. Wartość k ij reprezentuje siłę skojarzenia (asocjacji) w i z pojęciem c j (j {1,..., N}) z bazy wiedzy. Nowa reprezentacja wektorowa dla T jest wyznaczana przez: i:w i T v i k ij N j=1. (1) M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

15 Plan prezentacji 1 Wprowadzenie 2 Explicit Semantic Analysis Idea ESA Wybrane aspekty implementacyjne 3 Przykłady zastosowań Grupowanie artykułów z dziedziny zbiorów przybliżonych Etykietowanie i indeksowanie dokumentów biomedycznych Etykietowanie, klasyfikacja i konkurs JRS 4 Podsumowanie M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

16 Realizacja ESA w SONCA By związać dokumenty (np. artykuły z PubMed) w SONCA z pojęciami z bazy wiedzy (np. terminami z MeSH) korzystając z ESA, potrzebujemy wykonywać skomplikowane zapytania na dużych, relacyjnych hurtowniach danych. U Π (R.doc_id,T.concept,measure) ( τ (measuredesc) ( γ ( R.doc_id,S.concept,SUM( R.tf S.assoc T.idf ) measure) ( ))) R S T 2 stem=stem stem=stem Takie zapytanie zwraca (wylicza) poziom powiązania pomiędzy dokumentami, a pojęciami. I dokumenty i pojęcia są przechowywane w tabelach relacyjnej bazy danych. Wykonanie zapytania wiąże się tutaj z koniecznością łączenia (join) bardzo dużych struktur. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

17 ESA w SONCA Zapytania takie, jak to na poprzednim slajdzie, zwracają kompletną informację tj. dla każdego dokumentu wyliczają poziom powiązania ze wszystkimi pojęciami z ontologii (bazy wiedzy). To jednak jest niepotrzebne, a nawet szkodliwe w praktycznych zadaniach. Idea: Wiemy, że potrzebujemy tylko k=30 najbardziej adekwatnych pojęć. Zatem ograniczmy zapytanie do top-k wyników. Trudność: Aby przyciąć zapytanie do top-k wyników musimy w naszym modelu użyć operatora LIMIT wewnątrz GROUP BY. Nie wszystkie RDBMS to wspierają i często jest to kiepsko zrealizowane. Rozwiązanie: Ponieważ wiemy, że obrabiane dokumenty są od siebie niezależne (w sensie ESA), możemy wykonywać na nich niezależne obliczenia. To pozwala na wykorzystanie współbieżności i/lub równoległego przetwarzania. Dekomponujemy nasze zadanie na kawałki (shards), którymi możemy się zająć w bardziej efektywny sposób. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

18 Sharding - rezultaty Obliczanie wektora pojęć Typ bazy Bez shardnig Sharding 1 Infobright 22 h 22 m 0.39 s 8 h 42 m 6.74 s 2 PostgreSQL 24 h brak wyniku 7 h 3 m 1.74 s 3 MonetDB MALException error 8 h 17 m s Obliczanie wektora pojęć z LIMIT k = 30 1 Infobright NA 0 h 29 m s 2 PostgreSQL 16 h 58 m s 1 h 27 m s z LOOP w PL/pgSQL 3 PostgreSQL 17 h 22 m 30 s 1 h 27 m s WINDOWING FUNCTION 4 MonetDB NA 0 h 35 m s word_document ; word_stem 76108; stem_concept M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

19 Plan prezentacji 1 Wprowadzenie 2 Explicit Semantic Analysis Idea ESA Wybrane aspekty implementacyjne 3 Przykłady zastosowań Grupowanie artykułów z dziedziny zbiorów przybliżonych Etykietowanie i indeksowanie dokumentów biomedycznych Etykietowanie, klasyfikacja i konkurs JRS 4 Podsumowanie M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

20 Plan prezentacji 1 Wprowadzenie 2 Explicit Semantic Analysis Idea ESA Wybrane aspekty implementacyjne 3 Przykłady zastosowań Grupowanie artykułów z dziedziny zbiorów przybliżonych Etykietowanie i indeksowanie dokumentów biomedycznych Etykietowanie, klasyfikacja i konkurs JRS 4 Podsumowanie M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

21 Plan eksperymentu Text corpus for tests Initial text processing (filtering, stemming, stop words removal) Final cluster quality evaluation Clustering with semantic representation Similarity Matrix Vector representation Vector representation Semantic representation verification & similarity assessment Reverse index Semantic interpretation (concept filtering, association assessment) New vector representation (using concepts) M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

22 Baza wiedzy: DBpedia (3.5.1 en) Czym jest DBpedia? Obraz Wikipedii o zachowanej strukturze, lecz zredukowanej zawartości. Format DBpedii ułatwia jej automatyczne przetwarzanie. Strony Wikipedii reprezentowane są jedynie przez abstrakty. DBpedia zawiera informacje na temat kategoryzacji pojęć. Liczba pojęć - 3,257,133. Średnia długość abstraktu słów (min 0, max 16,850). Wielkość korpusu - 316,631,010 słów (2,818,483 unikatowych). Liczba kategorii - 560,049 (449,140 bezpośrednich nadkategorii pojęć). M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

23 Korpus dokumentów 349 artykułów naukowych opublikowanych w latach przez autorów związanych z Zakładem Logiki WMIM UW. Wybór obejmuje tylko standardowe artykuły, odpowiadające kategoriom BibTEX: article, inproceedings i incollection. Usunęliśmy artykuły bardzo krótkie (extended abstract) i bardzo długie (mini-monografie). Niektóre artykuły pominęliśmy ze względu na problemy techniczne przy konwersji z formatu PDF. W wyniku konwersji na format tekstowy i wstępnego przetwarzania (NLP, stemming) otrzymaliśmy korpus tekstowy: unikatowych słów przed stemmingiem unikatowych stemów. Średnio dokument zawiera 3524 stemów, minimum 362, maksimum M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

24 Przykładowe listy asocjacji pojęć (LTF-C): Architecture, Training Algorithm and Applications of New Neural Classifier [1] 9.19 Neural_Lab [2] 9.17 Echo_state_network [3] 8.75 Auto-encoder [4] 8.30 Interneuron [5] 8.09 Oja s_rule [6] 8.08 Multilayer_perceptron [7] 8.06 Biological_neural_network [8] 8.06 Artificial_neural_network [9] 8.00 Artificial_neuron [10] 7.84 Neuroevolution Judgment of satisfiability under incomplete information [1] 8.21 Definable_set [2] 8.08 Schaefer s_dichotomy_theorem [3] 7.96 Formal_semantics_of_programming_languages [4] 7.85 Empty_domain [5] 7.78 Tautology_(logic) [6] 7.68 Equisatisfiability [7] 7.54 Method_of_analytic_tableaux [8] 7.38 Conditional_quantifier [9] 7.36 Model_checking [10] 7.32 Satisfiability_and_validity Combination of Metric-Based and Rule-Based Classification [1] 8.92 K-nearest_neighbor_algorithm [2] 6.19 Backmarking [3] 6.08 Wolfe_conditions [4] 5.90 Evolutionary_data_mining [5] 5.66 Event_condition_action [6] 5.64 Transduction_(machine_learning) [7] 5.63 Soft_independent_modelling_of_class_analogies [8] 5.63 Ground_truth [9] 5.56 Proximity_problems [10] 5.50 M. Szczuka (MIM UW) Dominating_decision_rule ESA - zastosowania Rzeszów, / 50

25 Porównanie wyników grupowania ( Silhouette plot ) Penalized silhouette width Optimal number of groups for clustering using the representation by concepts Number of clusters Objects in consecutive clusters (sorted by the silhouette width) Silhouette plot for clustering into 73 groups using the representation concepts n = clusters C j Silhouette width s i Average silhouette width : 0.2 Penalized silhouette width Optimal number of groups for clustering using the representation by words Number of clusters Objects in consecutive clusters (sorted by the silhouette width) Silhouette plot for clustering into 73 groups using the representation words n = clusters C j Silhouette width s i Average silhouette width : 0.18 M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

26 Przycięte drzewo grupowania wg. pojęć Truncated clustering tree Cluster Cluster 1: 2: member Cluster 3: 1 member member Cluster 4: 4 members Cluster Cluster 5: 6: 1 member member Cluster 7: 5 members Cluster Cluster 8: 9: 1 member member Cluster 10: 3 members Cluster 11: 2 members Cluster 12: 3 members Cluster 13: 3 members Cluster 14: 2 members Cluster 15: 2 members Cluster 16: 2 members Cluster 17: 1 member Cluster 18: 3 members Cluster 19: 1 member Cluster 20: 4 members Cluster 21: 13 members Cluster 22: 1 member Cluster 23: 4 members Cluster 24: 4 members Cluster 25: 8 members Cluster 26: 2 members Cluster 27: 3 members Cluster 28: 1 member Cluster 29: 3 members Cluster 30: 1 member Cluster 31: 9 members Cluster 32: 2 members Cluster 33: 19 members Cluster 34: 24 members Cluster 35: 8 members Cluster 36: 11 members Cluster 37: 13 members Cluster 38: 1 member Cluster 39: 14 members Cluster 40: 3 members Cluster 41: 10 members Cluster 42: 4 members Cluster 43: 5 members Cluster 44: 4 members Cluster 45: 2 members Cluster 46: 4 members Cluster 47: 2 members Cluster 48: 3 members Cluster 53: 2 members Cluster 55: 2 members Cluster 49: 2 members Cluster 50: 1 member Cluster 51: 2 members Cluster 52: 1 member Cluster 54: 1 member Cluster 56: 1 member Cluster 57: 4 members Cluster 58: 8 members Cluster 59: 10 members Cluster 60: 4 members Cluster 61: 4 members Cluster 62: 13 members Cluster 63: 4 members Cluster 64: 3 members Cluster 65: 3 members Cluster 66: 3 members Cluster 67: 3 members Cluster 68: 13 members Cluster 69: 1 member Cluster 70: 13 members Cluster 71: 1 member Cluster 72: 3 members Cluster 73: 27 members M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

27 Przycięte drzewo grupowania wg. słów Truncated clustering tree Cluster 1: 2 members Cluster Cluster 2: 3: member Cluster 4: member Cluster 5: member Cluster 6: member Cluster 7: member Cluster 8: 1 member member Cluster 9: 6 members Cluster Cluster 10: 11: member Cluster 12: member Cluster 13: member Cluster 14: member Cluster 15: 1 member member Cluster 16: 3 members Cluster 17: 3 members Cluster 18: 2 members Cluster Cluster 19: 20: member Cluster 21: 1 member member Cluster 22: 2 members Cluster 23: 2 members Cluster 24: 4 members Cluster 25: 8 members Cluster 26: 1 member Cluster 27: 4 members Cluster Cluster 28: 29: 1 member member Cluster 30: 3 members Cluster 31: 1 member Cluster 32: 2 members Cluster 33: 6 members Cluster 34: 3 members Cluster 35: 3 members Cluster 36: 2 members Cluster 37: 4 members Cluster 38: 7 members Cluster 39: 2 members Cluster 40: 2 members Cluster 41: 1 member Cluster 42: 8 members Cluster Cluster 43: 44: 1 member member Cluster 45: 7 members Cluster 46: 1 member Cluster 47: 3 members Cluster 48: 28 members Cluster 49: 3 members Cluster 50: 3 members Cluster 51: 6 members Cluster 52: 5 members Cluster 53: 23 members Cluster 54: 13 members Cluster 55: 1 member Cluster 56: 7 members Cluster 57: 1 member Cluster 58: 3 members Cluster 59: 2 members Cluster 60: 5 members Cluster 61: 8 members Cluster 62: 17 members Cluster 63: 9 members Cluster 64: 2 members Cluster 65: 60 members Cluster 66: 1 member Cluster 67: 22 members Cluster Cluster 68: 69: 1 member member Cluster 70: 2 members Cluster 71: 2 members Cluster 72: 4 members Cluster 73: 8 members M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

28 Analiza wybranych grup Cluster 21: Neurocomputing and Artificial Neural Networks [1] (LTF-C): Architecture, Training Algorithm and Applications of New Neural Classifier [2] Rough Neurons: Petri Net Models and Applications [3] Rough-Neural Computing: An Introduction [4] Toward Rough Neural Computing Based on Rough Membership Functions: Theory and Application [5] Rough Neurocomputing: A Survey of Basic Models of Neurocomputation [6] Design of rough neurons: Rough set foundation and Petri net model [7] Constructing Extensions of Bayesian Classifiers with use of Normalizing Neural Networks [8] Refining decision classes with neural networks [9] Harnessing Classifier Networks - Toward Hierarchical Concept Construction [10] Feedforward concept networks [11] Neural network design: Rough set approach to real-valued data [12] Hyperplane-based neural networks for real-valued decision tables [13] Rough Sets and Artificial Neural Networks Cluster 39: Logical Satisfiability and Validity of Formulas [1] Judgment of satisfiability under incomplete information [2] A graded applicability of rules [3] Toward rough applicability of rules [4] Satisfiability and meaning in approximation spaces [5] Satisfiability Judgment Under Incomplete Information [6] Reasoning Based on Information Changes in Information Maps [7] Rough validity, confidence, and coverage of rules in approximation spaces [8] Satisfiability and meaning of formulas and sets of formulas in approximation spaces [9] On rough judgment making by socio-cognitive agents [10] Rauszer s R-logic for multiagent systems [11] Rough rule-following by social agents [12] Satisfiability of formulas from the standpoint of object classification [13] Construction of rough information granules [14] Patterns in Information Maps Cluster 60: Instance-based Learning [1] Combination of Metric-Based and Rule-Based Classification [2] Rough Set Approach to CBR [3] Local Attribute Value Grouping for Lazy Rule Induction M. Szczuka [4] Granulation (MIM UW) in Analogy-based Classification ESA - zastosowania Rzeszów, / 50

29 Przypisywanie pojęć do grup dokumentów Cluster 21: Neurocomputing and Artificial Neural Networks [1] ADALINE [2] Artificial_neural_network [3] Artificial_neuron [4] Auto-encoder [5] Delta_rule [6] Multilayer_perceptron [7] Universal_approximation_theorem [8] Echo_state_network [9] Neural_Lab Cluster 39: Logical Satisfiability and Validity of Formulas [1] Empty_domain [2] Formal_theorem [3] Limit-preserving_function_(order_theory) [4] Satisfiability_and_validity [5] Schaefer s_dichotomy_theorem [6] Tautology_(logic) [7] Well-definition Cluster 60: Instance-based Learning [1] Attribute_(computing) [2] Attribute_(network_management) [3] Integrity_constraints [4] K-nearest_neighbor_algorithm [5] Online_machine_learning [6] Relation_(database) [7] Structured_SVM M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

30 Plan prezentacji 1 Wprowadzenie 2 Explicit Semantic Analysis Idea ESA Wybrane aspekty implementacyjne 3 Przykłady zastosowań Grupowanie artykułów z dziedziny zbiorów przybliżonych Etykietowanie i indeksowanie dokumentów biomedycznych Etykietowanie, klasyfikacja i konkurs JRS 4 Podsumowanie M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

31 Semantyczne indeksowanie literatury biomedycznej Zadanie: Automatycznie przypisać etykiety MeSH dokumentom z (dużego) repozytorium. Wyszukiwarki w biomedycynie: PubMed Search, BabelMeSH, GoPubMed, etblast, Anne O Tate, i inne... Motywacja: dostępność danych i wyników porównawczych, większość istniejących indeksów polega na MEDLINE, nawet niewielkie polepszenie aktualnych wyników jest pożyteczne. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

32 PubMed i MeSH PubMed i PubMed Central Internetowa baza danych obejmująca artykuły i inne materiały (ok. 22,5M) z dziedziny medycyny i nauk biologicznych. Założona w 1996 roku przez National Center for Biotechnology Information, będący częścią National Library of Medicine. PubMed zapewnia bezpłatny dostęp do artykułów znajdujących się w bazie MEDLINE oraz niektórych artykułów z czasopism nienależących do niej. Ponadto podzbiór PubMed Central Open Access jest dostępny w postaci pełnych tekstów (około 0,5M). MeSH - Medical Subject Headings System metadanych (baza wiedzy, ontologia) którego celem jest indeksowanie artykułów medycznych i książek o tej tematyce. Stworzony i ulepszany przez NLM, jest używany w bazach danych MEDLINE i PubMed. Zawiera (wersja 2009) pojęć (subject headings, descriptors) powiązanych zależnościami (hierarchiami) i opatrzonych opisami. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

33 ESA na dokumentach PubMed Tytuł dokumentu MeSH tagi z PubMed MeSH tagi z SONCA Cockroaches (Ectobius Cockroaches*, Insect Control*, Cockroaches, Intensive Care vittientris) in an intensive Intensive Care Units*, Units, Klebsiella Infections, care unit, Switzerland. Cross Infection, Insect Vectors Pest Control, Cross Infection Serotonin transporter genotype, Depressive Disorder*, Gene- Depressive Disorder, Genomeand morning cortisol tic Predisposition to Disease*, Wide Association Study, Mul- subsequent depression Serotonin Plasma Membrane tilevel Analysis, Cohort Studies, in adolescents. Transport Proteins*, Genoty- pe, Multilevel Analysis Adolescent Psychiatry Capacity of Thailand to contain an emerging influenza pandemic. Disaster Planning*, Health Policy*, Disease Outbreaks, Health Resources, Influenza Human Health Care Rationing, Health Resources, Epidemics, Evidence-Based Medicine, Influenza B virus średni recall dla top 10 najlepszych tagów: 0.2; top 30 tagów: 0.26; wiele ściśle powiązanych pojęć (headings) nieodnotowanych przez ekspertów; dokładność jest ściśle powiązana z jakością opisów pojęć. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

34 Ustawienia eksperymentu Idea: labels assigned by experts can be used to improve labelling, semantic index can be updated by analogy to a back-propagation algorithm from neural networks, various types of user feedback can also be utilized. ESA Semantic index Adaptive module User feedback Experiments: a corpus of 40K articles from PMC, corresponding MeSH headings were acquired from MEDLINE, data divided into training and test sets, evaluation by F 1 -score and Recall. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

35 Adaptacyjne poprawianie (uczenie) tagów Algorytm poprawiania: Input: INV - macierz żadka o N wierszach i K kolumnach; T op C (T ) - top pojęcia z ESA; Exp(T ) - pojęcia eksperckie (od użytkowników); begin Zainicjuj ( macierz INV ; ) ( ) for c k T op C (T ) Exp(T ) Exp(T ) \ T op C (T ) do zwiększ wartość INV odpowiadających słowom występującym w T i mającym niezerowe wagi w k-tej kolumnie INV, proporcjonalnie do częstości występowania w T ; end ( ) for c k T op C (T ) \ Exp(T ) do zmniejsz odpowiednie wartości w k-tej kolumnie INV ; end return INV = INV + INV end algorytm może być używany tak on-line, jak i wsadowo; można stosować różne formuły na zmianę wag. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

36 Rezultaty uczenia: F 1 -score i Recall average F1 score training score test score Iteration number a) F 1- score b) Recall average Recall Iteration number training score test score M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

37 Rezultaty uczenia: rozmiar danych i zbieżność average Recall stopping criterion score training set maximum test set maximum Training set size Training set size a) Recall b) Number of iteration Iteration number stopping criterion trigger training set maximum test set maximum M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

38 Plan prezentacji 1 Wprowadzenie 2 Explicit Semantic Analysis Idea ESA Wybrane aspekty implementacyjne 3 Przykłady zastosowań Grupowanie artykułów z dziedziny zbiorów przybliżonych Etykietowanie i indeksowanie dokumentów biomedycznych Etykietowanie, klasyfikacja i konkurs JRS 4 Podsumowanie M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

39 Kontekst MEDLINE zatrudnia zastępy ekspertów by indeksowali ich zasoby pojęciami z MeSH. MeSH zawiera ponad pojęć. Pojęcia są umieszczane w kontekście za pomocą 83 kwalifikatorów (subheadings). Lekarze używają par heading/subheading z MeSH do szukania informacji. Do 2007 zostało (na poły ręcznie) zindeksowanych artykuły. Eksperci potrzebują pilnej pomocy. Oczekiwania: milion artykułów w M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

40 Konkurs JRS 2012 JRS 2012 Data Mining Competition Topical Classification of Biomedical Research Papers JRS 2012, Chengdu, Chiny, sierpnia. Cele: sprawdzić SONCA w roli indeksera semantycznego; oszacować możliwości automatycznego przewidywania par heading/subheading z MeSH dla dokumentów PubMed. Plan wykonania: 1 Pozyskanie danych. 2 Zaindeksowanie semantyczne za pomocą SONCA pojęciami (headings) z MeSH. 3 Predykcja MeSH subheadings związanych z dokumentami. 4 Stworzenie par heading/subheading. 5 Uruchomienie adaptacyjnego mechanizmu douczania się i poprawy systemu. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

41 Dane konkursowe Formuła przygotowania danych Dokumenty z PubMed + SONCA (ESA) + Etykiety z MEDLINE = Dane konkursowe Kroki w przygotowaniu danych: 1 Standardowe przetwarzanie tekstów. 2 Indeksowanie z użyciem ESA. 3 Pozyskanie etykiet referencyjnych z MEDLINE. 4 Wybór 20K documents. 5 Top-30 skojarzonych etykiet rozszerzone o ich sąsiadów w hierarchii MeSH. Uzyskane dane bardzo rzadka macierz danych (< 1% niezerowych wartości), atrybutów, 83 bardzo niezbalansowane etykiety, wstępna ocena na 10% danych testowych, wymaganie dostarczenia krótkiego raportu. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

42 Summary of the Results Metoda oceny: uśredniony F 1 -score z przewidywań. P recision i = T ruet opics i P redt opics i P redt opics i, Recall i = T ruet opics i P redt opics i T ruet opics i, F 1 -score i = 2 P recision i Recall i P recision i +Recall i, AvgF 1 -score = N i=1 F 1 -score i N. Statystyka konkursu: 396 zespołów = 533 uczestników; zespoły z 50 krajów; 124 aktywne zespoły; 5964 przysłanych rozwiązań; 39 zespołów powyżej kreski (99 na danych wstępnych); rozwiązanie referencyjne poprawione o 125%. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

43 Przykład rozwiązania: podejście CBR Zestaw etykiet dla testowanego dokumentu jest ustalany na podstawie znanych etykiet dla podobnych dokumentów z próbki uczącej. Właściwości: pojedynczy model, intuicyjnie zrozumiały, skalowalny ze względu na liczbę etykiet, rozsądna jakość predykcji ( 0.50 dla double-weighted k-nn). M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

44 Przykład rozwiązania: podejście z wieloma modelami Model 1 Model 2 Model 3 Data set... Model 82 Model 83 Niezależne modele są skonstruowane dla każdej z etykiet, a ich odpowiedzi są agregowane tworząc ostateczne wyjście. Label 1 Label 2 Label 3... Label 82 Label Label 3, Label 7, Label 67 Label 2, Label 43, Label 78, Label 80 Label 3, Label Label 13, Label 36, Label 75 Właściwości: najpopularniejsze podejście, elastyczność w wyborze modeli składowych, dobra jakość predykcji ( u zwycięzcy). M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

45 Zespoły klasyfikatorów (predykatorów) Ensemble learning: użycie (zespołu) wielu modeli do uzyskania poprawy jakości klasyfikacji. model 1 model 2 Do stworzenia dobrego zespołu potrzeba dokładnych ale zróżnicowanych klasyfikatorów składowych. model 3 concept C Przykład: Zespół stworzony z 5 najlepszych rozwiązań osiągnął jakość M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

46 Podsumowanie Możliwe zastosowania: indeksy semantyczne, wsparcie dla bibliotekarzy, jako wejście w grupowaniu, analiza semantyczna korpusów tekstowych. Dalsze kierunki badań: poprawienie podstawowej metody tagowania, uwzględnienie struktury MeSH w klasyfikacji, współpraca z ekspertami, udoskonalanie metod klasyfikacji wieloetykietowej. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

47 Plan prezentacji 1 Wprowadzenie 2 Explicit Semantic Analysis Idea ESA Wybrane aspekty implementacyjne 3 Przykłady zastosowań Grupowanie artykułów z dziedziny zbiorów przybliżonych Etykietowanie i indeksowanie dokumentów biomedycznych Etykietowanie, klasyfikacja i konkurs JRS 4 Podsumowanie M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

48 Wnioski ESA okazuje się być użytecznym narzędziem do tworzenia indeksów semantycznych, które mogą być potem wykorzystane do etykietowania, grupowania, klasyfikacji i wizualizacji korpusów dokumentów. Przy wykorzystywaniu ESA można wiele osiągnąć przez: właściwy preprocessing tak korpusu jak i bazy wiedzy; właściwy dobór miar i kryteriów do zadania; wbudowanie mechanizmu poprawiania rozwiązania, w sczególności w interakcji z użytkownikiem. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

Wyszukiwanie informacji w internecie. Nguyen Hung Son

Wyszukiwanie informacji w internecie. Nguyen Hung Son Wyszukiwanie informacji w internecie Nguyen Hung Son Jak znaleźć informację w internecie? Wyszukiwarki internetowe: Potężne machiny wykorzystujące najnowsze metody z różnych dziedzin Architektura: trzy

Bardziej szczegółowo

Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych

Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych Marcin Deptuła Julian Szymański, Henryk Krawczyk Politechnika Gdańska Wydział Elektroniki, Telekomunikacji i Informatyki Katedra Architektury

Bardziej szczegółowo

Wydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych

Wydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Informatyki i Elektroniki Instrukcja do zajęć laboratoryjnych wersja: 1.0 Nr ćwiczenia: 12, 13 Temat: Cel ćwiczenia: Wymagane przygotowanie

Bardziej szczegółowo

MATLAB Neural Network Toolbox przegląd

MATLAB Neural Network Toolbox przegląd MATLAB Neural Network Toolbox przegląd WYKŁAD Piotr Ciskowski Neural Network Toolbox: Neural Network Toolbox - zastosowania: przykłady zastosowań sieci neuronowych: The 1988 DARPA Neural Network Study

Bardziej szczegółowo

Zastosowanie optymalizacji rojem cząstek (PSO) w procesie uczenia wielowarstwowej sieci neuronowej w problemie lokalizacyjnym

Zastosowanie optymalizacji rojem cząstek (PSO) w procesie uczenia wielowarstwowej sieci neuronowej w problemie lokalizacyjnym Zastosowanie optymalizacji rojem cząstek (PSO) w procesie uczenia wielowarstwowej sieci neuronowej w problemie lokalizacyjnym Jan Karwowski Wydział Matematyki i Nauk Informacyjnych PW 17 XII 2013 Jan Karwowski

Bardziej szczegółowo

Deep Learning na przykładzie Deep Belief Networks

Deep Learning na przykładzie Deep Belief Networks Deep Learning na przykładzie Deep Belief Networks Jan Karwowski Zakład Sztucznej Inteligencji i Metod Obliczeniowych Wydział Matematyki i Nauk Informacyjnych PW 20 V 2014 Jan Karwowski (MiNI) Deep Learning

Bardziej szczegółowo

EmotiWord, semantyczne powiązanie i podobieństwo, odległość znaczeniowa

EmotiWord, semantyczne powiązanie i podobieństwo, odległość znaczeniowa , semantyczne powiązanie i podobieństwo, odległość Projekt przejściowy ARR Politechnika Wrocławska Wydział Elektroniki Wrocław, 22 października 2013 Spis treści 1 językowa 2, kryteria 3 Streszczenie artykułu

Bardziej szczegółowo

Uniwersytet Jagielloński Collegium Medicum. Anna Uryga, Jolanta Cieśla, Lucjan Stalmach

Uniwersytet Jagielloński Collegium Medicum. Anna Uryga, Jolanta Cieśla, Lucjan Stalmach Wyniki działań realizowanych w Bibliotece Medycznej UJ CM w latach 2011-2013 w ramach projektu SYNAT/PASSIM w zakresie stworzenia platformy hostingowej i komunikacyjnej dla sieciowych zasobów wiedzy dla

Bardziej szczegółowo

Metody zbiorów przybliżonych w uczeniu się podobieństwa z wielowymiarowych zbiorów danych

Metody zbiorów przybliżonych w uczeniu się podobieństwa z wielowymiarowych zbiorów danych Metody zbiorów przybliżonych w uczeniu się podobieństwa z wielowymiarowych zbiorów danych WMIM, Uniwersytet Warszawski ul. Banacha 2, 02-097 Warszawa, Polska andrzejanusz@gmail.com 13.06.2013 Dlaczego

Bardziej szczegółowo

Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl

Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl 1. Wstęp Aby skorzystać z możliwości RapidMinera w zakresie analizy tekstu, należy zainstalować Text Mining Extension. Wybierz: 1 Po

Bardziej szczegółowo

Wprowadzenie do multimedialnych baz danych. Opracował: dr inż. Piotr Suchomski

Wprowadzenie do multimedialnych baz danych. Opracował: dr inż. Piotr Suchomski Wprowadzenie do multimedialnych baz danych Opracował: dr inż. Piotr Suchomski Wprowadzenie bazy danych Multimedialne bazy danych to takie bazy danych, w których danymi mogą być tekst, zdjęcia, grafika,

Bardziej szczegółowo

Semantyczne podobieństwo stron internetowych

Semantyczne podobieństwo stron internetowych Uniwersytet Mikołaja Kopernika Wydział Matematyki i Informatyki Marcin Lamparski Nr albumu: 184198 Praca magisterska na kierunku Informatyka Semantyczne podobieństwo stron internetowych Praca wykonana

Bardziej szczegółowo

CLUSTERING. Metody grupowania danych

CLUSTERING. Metody grupowania danych CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means

Bardziej szczegółowo

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów Łukasz Piątek, Jerzy W. Grzymała-Busse Katedra Systemów Ekspertowych i Sztucznej Inteligencji, Wydział Informatyki

Bardziej szczegółowo

Zadania. Przygotowanie zbiorów danych. 1. Sposób 1: 2. Sposób 2:

Zadania. Przygotowanie zbiorów danych. 1. Sposób 1: 2. Sposób 2: Wstęp Jednym z typowych zastosowań metod sztucznej inteligencji i uczenia maszynowego jest przetwarzanie języka naturalnego (ang. Natural Language Processing, NLP), której typowych przykładem jest analiza

Bardziej szczegółowo

4.3 Grupowanie według podobieństwa

4.3 Grupowanie według podobieństwa 4.3 Grupowanie według podobieństwa Przykłady obiektów to coś więcej niż wektory wartości atrybutów. Reprezentują one poszczególne rasy psów. Ważnym pytaniem, jakie można sobie zadać, jest to jak dobrymi

Bardziej szczegółowo

EMBASE dzisiaj. Ponad 11 milionów rekordów bibliograficznych w wersji online juŝ od. Ponad 4,900 specjalistycznych czsopism pochodzących z ok.

EMBASE dzisiaj. Ponad 11 milionów rekordów bibliograficznych w wersji online juŝ od. Ponad 4,900 specjalistycznych czsopism pochodzących z ok. Embase on OvidSP EMBASE dzisiaj Ponad 11 milionów rekordów bibliograficznych w wersji online juŝ od 1974 roku Ponad 4,900 specjalistycznych czsopism pochodzących z ok. 70 krajów swiata Aktualizacja następuje

Bardziej szczegółowo

^ Springer. Intelligent. Building a Scientific. Information Platform. Tools for. Henryk Rybiriski, Marzena Kryszkiewicz,

^ Springer. Intelligent. Building a Scientific. Information Platform. Tools for. Henryk Rybiriski, Marzena Kryszkiewicz, Robert Bembenik, Lukasz Skonieczny, Henryk Rybiriski, Marzena Kryszkiewicz, and Marek Niezgodka (Eds.) Intelligent Tools for Building a Scientific Information Platform Advanced Architectures and Solutions

Bardziej szczegółowo

Analiza danych tekstowych i języka naturalnego

Analiza danych tekstowych i języka naturalnego Kod szkolenia: Tytuł szkolenia: ANA/TXT Analiza danych tekstowych i języka naturalnego Dni: 3 Opis: Adresaci szkolenia Dane tekstowe stanowią co najmniej 70% wszystkich danych generowanych w systemach

Bardziej szczegółowo

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne: WYDOBYWANIE I WYSZUKIWANIE INFORMACJI Z INTERNETU Forma wykład: 30 godzin laboratorium: 30 godzin Główny cel kursu W ramach kursu studenci poznają podstawy stosowanych powszechnie metod wyszukiwania informacji

Bardziej szczegółowo

Badania w sieciach złożonych

Badania w sieciach złożonych Badania w sieciach złożonych Grant WCSS nr 177, sprawozdanie za rok 2012 Kierownik grantu dr. hab. inż. Przemysław Kazienko mgr inż. Radosław Michalski Instytut Informatyki Politechniki Wrocławskiej Obszar

Bardziej szczegółowo

Wpływ automatycznego tłumaczenia na wyniki automatycznej identyfikacji cha- rakteru opinii konsumenckich. 1 Wstęp

Wpływ automatycznego tłumaczenia na wyniki automatycznej identyfikacji cha- rakteru opinii konsumenckich. 1 Wstęp mgr Katarzyna Wójcik mgr Janusz Tuchowski Uniwersytet Ekonomiczny w Krakowie Wpływ automatycznego tłumaczenia na wyniki automatycznej identyfikacji charakteru opinii konsumenckich. 1 Wstęp Analiza opinii

Bardziej szczegółowo

Zastosowanie sztucznej inteligencji w testowaniu oprogramowania

Zastosowanie sztucznej inteligencji w testowaniu oprogramowania Zastosowanie sztucznej inteligencji w testowaniu oprogramowania Problem NP Problem NP (niedeterministycznie wielomianowy, ang. nondeterministic polynomial) to problem decyzyjny, dla którego rozwiązanie

Bardziej szczegółowo

Testowanie modeli predykcyjnych

Testowanie modeli predykcyjnych Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności

Bardziej szczegółowo

Logika rozmyta typu 2

Logika rozmyta typu 2 Logika rozmyta typu 2 Zbiory rozmyte Funkcja przynależności Interwałowe zbiory rozmyte Funkcje przynależności przedziałów Zastosowanie.9.5 Francuz Polak Niemiec Arytmetyka przedziałów Operacje zbiorowe

Bardziej szczegółowo

Ontologie, czyli o inteligentnych danych

Ontologie, czyli o inteligentnych danych 1 Ontologie, czyli o inteligentnych danych Bożena Deka Andrzej Tolarczyk PLAN 2 1. Korzenie filozoficzne 2. Ontologia w informatyce Ontologie a bazy danych Sieć Semantyczna Inteligentne dane 3. Zastosowania

Bardziej szczegółowo

Dziedzinowa Baza Wiedzy w zakresie Nauk Technicznych

Dziedzinowa Baza Wiedzy w zakresie Nauk Technicznych Jak Nas widzą, tak Nas piszą Dziedzinowa Baza Wiedzy w zakresie Nauk Technicznych Warszawa Maj 2013 Plan prezentacji 1. Stan informacji naukowej w zakresie nauk technicznych w Polsce 2. Koncepcja systemu

Bardziej szczegółowo

Publisher Panel jest podzielony na 3 działy, z których każdy oferuje zaawansowane narzędzia do prowadzenia czasopisma w systemie Index Copernicus:

Publisher Panel jest podzielony na 3 działy, z których każdy oferuje zaawansowane narzędzia do prowadzenia czasopisma w systemie Index Copernicus: 1. Co to jest Publisher Panel? Publishers Panel jest częścią międzynarodowego systemu Index Copernicus składającego się z kilku powiązanych ze sobą działów dotyczących literatury naukowej, naukowców, projektów

Bardziej szczegółowo

Eksploracja tekstu. Wprowadzenie Wyszukiwanie dokumentów Reprezentacje tekstu. Eksploracja danych. Eksploracja tekstu wykład 1

Eksploracja tekstu. Wprowadzenie Wyszukiwanie dokumentów Reprezentacje tekstu. Eksploracja danych. Eksploracja tekstu wykład 1 Eksploracja tekstu Wprowadzenie Wyszukiwanie dokumentów Reprezentacje tekstu Eksploracja tekstu wykład 1 Tematem wykładu są zagadnienia związane z eksploracją tekstu. Rozpoczniemy od krótkiego wprowadzenia

Bardziej szczegółowo

Architektury i protokoły dla budowania systemów wiedzy - zadania PCSS w projekcie SYNAT

Architektury i protokoły dla budowania systemów wiedzy - zadania PCSS w projekcie SYNAT Architektury i protokoły dla budowania systemów wiedzy - zadania PCSS w projekcie SYNAT A. Dudczak, C. Mazurek, T. Parkoła, J. Pukacki, M. Stroiński, M. Werla, J. Węglarz Poznańskie Centrum Superkomputerowo-Sieciowe

Bardziej szczegółowo

Zaglądamy pod maskę: podstawy działania silnika wyszukiwawczego na przykładzie Lucene

Zaglądamy pod maskę: podstawy działania silnika wyszukiwawczego na przykładzie Lucene 2..22 Zaglądamy pod maskę: podstawy działania silnika wyszukiwawczego na przykładzie Lucene Dominika Puzio Indeks Podstawy: dokument Dokument: jednostka danych, pojedynczy element na liście wyników wyszukiwania,

Bardziej szczegółowo

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu

Bardziej szczegółowo

SPOTKANIE 2: Wprowadzenie cz. I

SPOTKANIE 2: Wprowadzenie cz. I Wrocław University of Technology SPOTKANIE 2: Wprowadzenie cz. I Piotr Klukowski Studenckie Koło Naukowe Estymator piotr.klukowski@pwr.edu.pl 17.10.2016 UCZENIE MASZYNOWE 2/27 UCZENIE MASZYNOWE = Konstruowanie

Bardziej szczegółowo

Tomasz Grześ. Systemy zarządzania treścią

Tomasz Grześ. Systemy zarządzania treścią Tomasz Grześ Systemy zarządzania treścią Co to jest CMS? CMS (ang. Content Management System System Zarządzania Treścią) CMS definicje TREŚĆ Dowolny rodzaj informacji cyfrowej. Może to być np. tekst, obraz,

Bardziej szczegółowo

Analiza Sieci Społecznych Pajek

Analiza Sieci Społecznych Pajek Analiza Sieci Społecznych Pajek Dominik Batorski Instytut Socjologii UW 25 marca 2005 1 Wprowadzenie Regularności we wzorach relacji często są nazywane strukturą. Analiza sieci społecznych jest zbiorem

Bardziej szczegółowo

Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych

Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych Adam Dudczak Poznańskie Centrum Superkomputerowo-Sieciowe (maneo@man.poznan.pl) I Konferencja Polskie Biblioteki

Bardziej szczegółowo

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych - Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska 14 listopada 2011 roku 1 - - 2 3 4 5 - The purpose of computing is insight, not numbers Richard Hamming Motywacja - Mamy informację,

Bardziej szczegółowo

Customer Attribution Models. czyli o wykorzystaniu machine learning w domu mediowym.

Customer Attribution Models. czyli o wykorzystaniu machine learning w domu mediowym. Customer Attribution Models czyli o wykorzystaniu machine learning w domu mediowym. Proces decyzyjny MAILING SEO SEM DISPLAY RETARGETING PRZEGRANI??? ZWYCIĘZCA!!! Modelowanie atrybucja > Słowo klucz: wpływ

Bardziej szczegółowo

Współczesna problematyka klasyfikacji Informatyki

Współczesna problematyka klasyfikacji Informatyki Współczesna problematyka klasyfikacji Informatyki Nazwa pojawiła się na przełomie lat 50-60-tych i przyjęła się na dobre w Europie Jedna z definicji (z Wikipedii): Informatyka dziedzina nauki i techniki

Bardziej szczegółowo

Część 2: Data Mining

Część 2: Data Mining Łukasz Przywarty 171018 Wrocław, 18.01.2013 r. Grupa: CZW/N 10:00-13:00 Raport z zajęć laboratoryjnych w ramach przedmiotu Hurtownie i eksploracja danych Część 2: Data Mining Prowadzący: dr inż. Henryk

Bardziej szczegółowo

Wydział Informtyki i Nauki o Materiałach Kierunek Informatyka

Wydział Informtyki i Nauki o Materiałach Kierunek Informatyka Wydział Informtyki i Nauki o Materiałach Kierunek Informatyka studia drugiego stopnia studia stacjonarne od roku akademickiego 2015/2016 Załącznik 3 A GRUPA TREŚCI PODSTAWOWYCH - BASIC MODULES 1 0 0 RAZEM

Bardziej szczegółowo

Systemy Wspomagania Decyzji

Systemy Wspomagania Decyzji Rodzaje danych oraz ich przetwarzanie Szkoła Główna Służby Pożarniczej Zakład Informatyki i Łączności January 29, 2014 1 Dane tabelaryczne 2 Dane tekstowe 3 Dane sensoryczne 4 Dane multimedialne 5 Podsumowanie

Bardziej szczegółowo

Data Mining Wykład 1. Wprowadzenie do Eksploracji Danych. Prowadzący. Dr inż. Jacek Lewandowski

Data Mining Wykład 1. Wprowadzenie do Eksploracji Danych. Prowadzący. Dr inż. Jacek Lewandowski Data Mining Wykład 1 Wprowadzenie do Eksploracji Danych Prowadzący Dr inż. Jacek Lewandowski Katedra Genetyki Wydział Biologii i Hodowli Zwierząt Uniwersytet Przyrodniczy we Wrocławiu ul. Kożuchowska 7,

Bardziej szczegółowo

DMX DMX DMX DMX: CREATE MINING STRUCTURE. Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski

DMX DMX DMX DMX: CREATE MINING STRUCTURE. Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski DMX DMX DMX Data Mining Extensions jest językiem do tworzenia i działania na modelach eksploracji danych w Microsoft SQL Server Analysis Services SSAS. Za pomocą DMX można tworzyć strukturę nowych modeli

Bardziej szczegółowo

Propozycja rozszerzenia składni zapytań programu Poliqarp o elementy statystyczne

Propozycja rozszerzenia składni zapytań programu Poliqarp o elementy statystyczne Propozycja rozszerzenia składni zapytań programu Poliqarp o elementy statystyczne Aleksander Buczyński 2006.06.26 Poliqarp - stan obecny Zwracane są kolejne konteksty wystąpień ciągów segmentów pasujących

Bardziej szczegółowo

Szkolenia SAS Cennik i kalendarz 2017

Szkolenia SAS Cennik i kalendarz 2017 Szkolenia SAS Spis treści NARZĘDZIA SAS FOUNDATION 2 ZAAWANSOWANA ANALITYKA 2 PROGNOZOWANIE I EKONOMETRIA 3 ANALIZA TREŚCI 3 OPTYMALIZACJA I SYMULACJA 3 3 ROZWIĄZANIA DLA HADOOP 3 HIGH-PERFORMANCE ANALYTICS

Bardziej szczegółowo

Krok w stronę cyfrowej humanistyki infrastruktura IT dla badań humanistycznych

Krok w stronę cyfrowej humanistyki infrastruktura IT dla badań humanistycznych Krok w stronę cyfrowej humanistyki infrastruktura IT dla badań humanistycznych Adam Dudczak Poznańskie Centrum Superkomputerowo-Sieciowe maneo@man.poznan.pl Humanistyka cyfrowa The digital humanities is

Bardziej szczegółowo

Michał Kozielski Łukasz Warchał. Instytut Informatyki, Politechnika Śląska

Michał Kozielski Łukasz Warchał. Instytut Informatyki, Politechnika Śląska Michał Kozielski Łukasz Warchał Instytut Informatyki, Politechnika Śląska Algorytm DBSCAN Algorytm OPTICS Analiza gęstego sąsiedztwa w grafie Wstępne eksperymenty Podsumowanie Algorytm DBSCAN Analiza gęstości

Bardziej szczegółowo

Kraków, 14 marca 2013 r.

Kraków, 14 marca 2013 r. Scenariusze i trendy rozwojowe wybranych technologii społeczeństwa informacyjnego do roku 2025 Antoni Ligęza Perspektywy rozwoju systemów eksperckich do roku 2025 Kraków, 14 marca 2013 r. Dane informacja

Bardziej szczegółowo

KOLEKCJE - to typy masowe,zawierające pewną liczbę jednorodnych elementów

KOLEKCJE - to typy masowe,zawierające pewną liczbę jednorodnych elementów KOLEKCJE - to typy masowe,zawierające pewną liczbę jednorodnych elementów SQL3 wprowadza następujące kolekcje: zbiory ( SETS ) - zestaw elementów bez powtórzeń, kolejność nieistotna listy ( LISTS ) - zestaw

Bardziej szczegółowo

Netsprint Search. Koncepcja

Netsprint Search. Koncepcja Netsprint Search Koncepcja Netsprint - fakty 10-letnie doświadczenie Pierwsza firma, która wprowadziła silnik wyszukiwawczy w Polsce Pierwszy polski zaawansowany system reklamy kontekstowej (XI 2005) Pierwsze

Bardziej szczegółowo

Plan prezentacji 0 Wprowadzenie 0 Zastosowania 0 Przykładowe metody 0 Zagadnienia poboczne 0 Przyszłość 0 Podsumowanie 7 Jak powstaje wiedza? Dane Informacje Wiedza Zrozumienie 8 Przykład Teleskop Hubble

Bardziej szczegółowo

Wykład I. Wprowadzenie do baz danych

Wykład I. Wprowadzenie do baz danych Wykład I Wprowadzenie do baz danych Trochę historii Pierwsze znane użycie terminu baza danych miało miejsce w listopadzie w 1963 roku. W latach sześcdziesątych XX wieku został opracowany przez Charles

Bardziej szczegółowo

Kostki OLAP i język MDX

Kostki OLAP i język MDX Kostki OLAP i język MDX 24 kwietnia 2015 r. Opis pliku z zadaniami Wszystkie zadania na zajęciach będą przekazywane w postaci plików PDF sformatowanych jak ten. Będą się na nie składały różne rodzaje zadań,

Bardziej szczegółowo

Transformacja wiedzy w budowie i eksploatacji maszyn

Transformacja wiedzy w budowie i eksploatacji maszyn Uniwersytet Technologiczno Przyrodniczy im. Jana i Jędrzeja Śniadeckich w Bydgoszczy Wydział Mechaniczny Transformacja wiedzy w budowie i eksploatacji maszyn Bogdan ŻÓŁTOWSKI W pracy przedstawiono proces

Bardziej szczegółowo

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie. SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:

Bardziej szczegółowo

Nowoczesne narzędzia do ochrony informacji. Paweł Nogowicz

Nowoczesne narzędzia do ochrony informacji. Paweł Nogowicz Nowoczesne narzędzia do ochrony informacji Paweł Nogowicz Agenda Charakterystyka Budowa Funkcjonalność Demo 2 Produkt etrust Network Forensics Kontrola dostępu do zasobów etrust Network Forensics Zarządzanie

Bardziej szczegółowo

dlibra 3.0 Marcin Heliński

dlibra 3.0 Marcin Heliński dlibra 3.0 Marcin Heliński Plan prezentacji Wstęp Aplikacja Redaktora / Administratora Serwer Aplikacja Czytelnika Aktualizator Udostępnienie API NajwaŜniejsze w nowej wersji Ulepszenie interfejsu uŝytkownika

Bardziej szczegółowo

HARMONIZACJA DANYCH PRZESTRZENNYCH JERZY GAŹDZICKI

HARMONIZACJA DANYCH PRZESTRZENNYCH JERZY GAŹDZICKI HARMONIZACJA DANYCH PRZESTRZENNYCH JERZY GAŹDZICKI PODSTAWOWE POJĘCIA (1) 1. Dane przestrzenne (dane geoprzestrzenne) dane bezpośrednio lub pośrednio odniesione do określonego położenia lub obszaru geograficznego

Bardziej szczegółowo

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu Podstawy baz danych PODSTAWY BAZ DANYCH 19. Perspektywy baz danych 1 Perspektywy baz danych Temporalna baza danych Temporalna baza danych - baza danych posiadająca informację o czasie wprowadzenia lub czasie ważności zawartych

Bardziej szczegółowo

MAREK NIEZGÓDKA ICM, UNIWERSYTET WARSZAWSKI

MAREK NIEZGÓDKA ICM, UNIWERSYTET WARSZAWSKI SYNAT: UNIWERSALNA, OTWARTA, REPOZYTORYJNA PLATFORMA HOSTINGOWA I KOMUNIKACYJNA SIECIOWYCH ZASOBÓW WIEDZY DLA NAUKI, EDUKACJI I OTWARTEGO SPOŁECZEŃSTWA WIEDZY MAREK NIEZGÓDKA ICM, UNIWERSYTET WARSZAWSKI

Bardziej szczegółowo

Architektura bezpieczeństwa informacji w ochronie zdrowia. Warszawa, 29 listopada 2011

Architektura bezpieczeństwa informacji w ochronie zdrowia. Warszawa, 29 listopada 2011 Architektura informacji w ochronie zdrowia Warszawa, 29 listopada 2011 Potrzeba Pomiędzy 17 a 19 kwietnia 2011 roku zostały wykradzione dane z 77 milionów kont Sony PlayStation Network. 2 tygodnie 25 milionów

Bardziej szczegółowo

Konferencja Biblioteka Akademicka: Infrastruktura Uczelnia Otoczenie Gliwice, października 2013 r.

Konferencja Biblioteka Akademicka: Infrastruktura Uczelnia Otoczenie Gliwice, października 2013 r. Konferencja Biblioteka Akademicka: Infrastruktura Uczelnia Otoczenie Gliwice, 24-25 października 2013 r. Po pierwsze Primo! Doświadczenia z wdrożenia mgr Martyna Darowska Biblioteka Główna Politechnika

Bardziej szczegółowo

Ćwiczenie 12. Metody eksploracji danych

Ćwiczenie 12. Metody eksploracji danych Ćwiczenie 12. Metody eksploracji danych Modelowanie regresji (Regression modeling) 1. Zadanie regresji Modelowanie regresji jest metodą szacowania wartości ciągłej zmiennej celu. Do najczęściej stosowanych

Bardziej szczegółowo

Hurtownie danych i przetwarzanie analityczne - projekt

Hurtownie danych i przetwarzanie analityczne - projekt Hurtownie danych i przetwarzanie analityczne - projekt Warunki zaliczenia projektu: 1. Za projekt można zdobyć maksymalnie 40 punktów. 2. Projekt należy regularnie konsultować z jego koordynatorem. 3.

Bardziej szczegółowo

Pobieranie i przetwarzanie treści stron WWW

Pobieranie i przetwarzanie treści stron WWW Eksploracja zasobów internetowych Wykład 2 Pobieranie i przetwarzanie treści stron WWW mgr inż. Maciej Kopczyński Białystok 2014 Wstęp Jedną z funkcji silników wyszukiwania danych, a właściwie ich modułów

Bardziej szczegółowo

O pożytkach i metodzie uczelnianej analizy cytowań. Hanna Celoch, Biblioteka Politechniki Lubelskiej

O pożytkach i metodzie uczelnianej analizy cytowań. Hanna Celoch, Biblioteka Politechniki Lubelskiej Trzech uczonych, trzy bazy jeden bibliotekarz. O pożytkach i metodzie uczelnianej analizy cytowań Hanna Celoch, Biblioteka Politechniki Lubelskiej IX KRAJOWE FORUM INFORMACJI NAUKOWEJ I TECHNICZNEJ pod

Bardziej szczegółowo

Podobieństwo semantyczne w ontologiach biomedycznych

Podobieństwo semantyczne w ontologiach biomedycznych Podobieństwo semantyczne w ontologiach biomedycznych Bogumił Konopka Politechnika Wrocławska Wydział Podstawowych Problemów Techniki Instytut Inżynierii Biomedycznej i Pomiarowej KN Bio Nanopor Plan prezentacji

Bardziej szczegółowo

Wyszukiwanie dokumentów WWW bazujące na słowach kluczowych

Wyszukiwanie dokumentów WWW bazujące na słowach kluczowych Eksploracja zasobów internetowych Wykład 3 Wyszukiwanie dokumentów WWW bazujące na słowach kluczowych mgr inż. Maciej Kopczyński Białystok 2014 Wstęp Wyszukiwanie dokumentów za pomocą słów kluczowych bazujące

Bardziej szczegółowo

V Ogólnopolska Konferencja Naukowa ZARZĄDZANIE INFORMACJĄ W NAUCE

V Ogólnopolska Konferencja Naukowa ZARZĄDZANIE INFORMACJĄ W NAUCE V Ogólnopolska Konferencja Naukowa ZARZĄDZANIE INFORMACJĄ W NAUCE Katowice, 27 28 listopada 2014 Spis treści: 1. Informacje ogólne 2. Czasopisma w MathSciNet 3. Jednoznaczna identyfikacja autorów 4. System

Bardziej szczegółowo

GML w praktyce geodezyjnej

GML w praktyce geodezyjnej GML w praktyce geodezyjnej Adam Iwaniak Kon-Dor s.c. Konferencja GML w praktyce, 12 kwietnia 2013, Warszawa SWING Rok 1995, standard de jure Wymiany danych pomiędzy bazami danych systemów informatycznych

Bardziej szczegółowo

Adrian Horzyk

Adrian Horzyk Metody Inteligencji Obliczeniowej Metoda K Najbliższych Sąsiadów (KNN) Adrian Horzyk horzyk@agh.edu.pl AGH Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

Bardziej szczegółowo

METODY INŻYNIERII WIEDZY

METODY INŻYNIERII WIEDZY METODY INŻYNIERII WIEDZY WALIDACJA KRZYŻOWA dla ZAAWANSOWANEGO KLASYFIKATORA KNN ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

Bardziej szczegółowo

Specjalnościowy Obowiązkowy Polski Semestr VI

Specjalnościowy Obowiązkowy Polski Semestr VI KARTA MODUŁU / KARTA PRZEDMIOTU Kod modułu Nazwa modułu Nazwa modułu w języku angieskim Obowiązuje od roku akademickiego 0/06 Z-ID-608a Anaiza danych niestrukturanych Unstructured Data Anaysis A. USYTUOWANIE

Bardziej szczegółowo

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

Wstęp do przetwarzania języka naturalnego

Wstęp do przetwarzania języka naturalnego Wstęp do przetwarzania języka naturalnego Wykład 9 Wektoryzacja dokumentów i podstawowe miary podobieństwa Wojciech Czarnecki 17 grudnia 2013 Section 1 Przypomnienie Bag of words model Podejście Przypomnienie

Bardziej szczegółowo

Spis treści. Dzień 1. I Wprowadzenie (wersja 0906) II Dostęp do danych bieżących specyfikacja OPC Data Access (wersja 0906) Kurs OPC S7

Spis treści. Dzień 1. I Wprowadzenie (wersja 0906) II Dostęp do danych bieżących specyfikacja OPC Data Access (wersja 0906) Kurs OPC S7 I Wprowadzenie (wersja 0906) Kurs OPC S7 Spis treści Dzień 1 I-3 O czym będziemy mówić? I-4 Typowe sytuacje I-5 Klasyczne podejście do komunikacji z urządzeniami automatyki I-6 Cechy podejścia dedykowanego

Bardziej szczegółowo

Bazy danych - wykład wstępny

Bazy danych - wykład wstępny Bazy danych - wykład wstępny Wykład: baza danych, modele, hierarchiczny, sieciowy, relacyjny, obiektowy, schemat logiczny, tabela, kwerenda, SQL, rekord, krotka, pole, atrybut, klucz podstawowy, relacja,

Bardziej szczegółowo

SciFinder Podstawy wyszukiwania

SciFinder Podstawy wyszukiwania SciFinder Podstawy wyszukiwania Jeżeli szukasz... literatury na zadany temat publikacji określonego autora prac pracowników danej firmy lub instytucji artykułów z wybranego tytułu czasopisma patentu o

Bardziej szczegółowo

XQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery

XQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery http://xqtav.sourceforge.net XQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery dr hab. Jerzy Tyszkiewicz dr Andrzej Kierzek mgr Jacek Sroka Grzegorz Kaczor praca mgr pod

Bardziej szczegółowo

Podstawowe pojęcia dotyczące relacyjnych baz danych. mgr inż. Krzysztof Szałajko

Podstawowe pojęcia dotyczące relacyjnych baz danych. mgr inż. Krzysztof Szałajko Podstawowe pojęcia dotyczące relacyjnych baz danych mgr inż. Krzysztof Szałajko Czym jest baza danych? Co rozumiemy przez dane? Czym jest system zarządzania bazą danych? 2 / 25 Baza danych Baza danych

Bardziej szczegółowo

Zarządzanie sieciami telekomunikacyjnymi

Zarządzanie sieciami telekomunikacyjnymi SNMP Protocol The Simple Network Management Protocol (SNMP) is an application layer protocol that facilitates the exchange of management information between network devices. It is part of the Transmission

Bardziej szczegółowo

OLAP i hurtownie danych c.d.

OLAP i hurtownie danych c.d. OLAP i hurtownie danych c.d. Przypomnienie OLAP -narzędzia analizy danych Hurtownie danych -duże bazy danych zorientowane tematycznie, nieulotne, zmienne w czasie, wspierjące procesy podejmowania decyzji

Bardziej szczegółowo

Analiza Sieci Społecznych Pajek

Analiza Sieci Społecznych Pajek Analiza Sieci Społecznych Pajek Dominik Batorski Instytut Socjologii UW 3 czerwca 2016 1 Wprowadzenie Regularności we wzorach relacji często są nazywane strukturą. Analiza sieci społecznych jest zbiorem

Bardziej szczegółowo

Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining

Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining 0LNRáDM0RU]\ Marek Wojciechowski Instytut Informatyki PP Eksploracja danych 2GNU\ZDQLHZ]RUFyZZGX*\FK

Bardziej szczegółowo

Baza danych. Modele danych

Baza danych. Modele danych Rola baz danych Systemy informatyczne stosowane w obsłudze działalności gospodarczej pełnią funkcję polegającą na gromadzeniu i przetwarzaniu danych. Typowe operacje wykonywane na danych w systemach ewidencyjno-sprawozdawczych

Bardziej szczegółowo

Repozytoria uczelniane i ich rola w projekcie SYNAT

Repozytoria uczelniane i ich rola w projekcie SYNAT Jak Cię widzą, tak Cię piszą Repozytoria uczelniane i ich rola w projekcie SYNAT Warszawa Maj 2013 Plan prezentacji 1. Jak Cię widzą 2. Usytuowanie repozytoriów uczelnianych w systemie Synat 3. Czy tylko

Bardziej szczegółowo

Projekt i implementacja systemu wspomagania planowania w języku Prolog

Projekt i implementacja systemu wspomagania planowania w języku Prolog Projekt i implementacja systemu wspomagania planowania w języku Prolog Kraków, 29 maja 2007 Plan prezentacji 1 Wstęp Czym jest planowanie? Charakterystyka procesu planowania 2 Przeglad istniejacych rozwiazań

Bardziej szczegółowo

Tworzenie raportów XML Publisher przy użyciu Data Templates

Tworzenie raportów XML Publisher przy użyciu Data Templates Tworzenie raportów XML Publisher przy użyciu Data Templates Wykorzystanie Szablonów Danych (ang. Data templates) jest to jedna z metod tworzenia raportów w technologii XML Publisher bez użycia narzędzia

Bardziej szczegółowo

Podstawowe pakiety komputerowe wykorzystywane w zarządzaniu przedsiębiorstwem. dr Jakub Boratyński. pok. A38

Podstawowe pakiety komputerowe wykorzystywane w zarządzaniu przedsiębiorstwem. dr Jakub Boratyński. pok. A38 Podstawowe pakiety komputerowe wykorzystywane w zarządzaniu przedsiębiorstwem zajęcia 1 dr Jakub Boratyński pok. A38 Program zajęć Bazy danych jako podstawowy element systemów informatycznych wykorzystywanych

Bardziej szczegółowo

Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne

Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne Architektury i technologie integracji danych Systemy Mediacyjne Multi-wyszukiwarki Wprowadzenie do Mediacyjnych Systemów Zapytań (MQS) Architektura MQS Cechy funkcjonalne MQS Cechy implementacyjne MQS

Bardziej szczegółowo

WNIOSKOWANIE W SYSTEMACH Z WIEDZĄ NIEPEŁNĄ INFERENCE PROCESSES IN DECISION SUPORT SYSTEMS WITH INCOMPLETE KNOWLEDGE

WNIOSKOWANIE W SYSTEMACH Z WIEDZĄ NIEPEŁNĄ INFERENCE PROCESSES IN DECISION SUPORT SYSTEMS WITH INCOMPLETE KNOWLEDGE STUDIA INFORMATICA 2011 Volume 32 Number 2A (96) Agnieszka NOWAK-BRZEZIŃSKA, Tomasz JACH Uniwersytet Śląski, Instytut Informatyki WNIOSKOWANIE W SYSTEMACH Z WIEDZĄ NIEPEŁNĄ Streszczenie. Autorzy niniejszego

Bardziej szczegółowo

Przetwarzanie i analiza danych w języku Python / Marek Gągolewski, Maciej Bartoszuk, Anna Cena. Warszawa, Spis treści

Przetwarzanie i analiza danych w języku Python / Marek Gągolewski, Maciej Bartoszuk, Anna Cena. Warszawa, Spis treści Przetwarzanie i analiza danych w języku Python / Marek Gągolewski, Maciej Bartoszuk, Anna Cena. Warszawa, 2016 Spis treści Przedmowa XI I Podstawy języka Python 1. Wprowadzenie 3 1.1. Język i środowisko

Bardziej szczegółowo

Analiza korespondencji

Analiza korespondencji Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy

Bardziej szczegółowo

SZKOLENIA SAS. ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie

SZKOLENIA SAS. ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie SZKOLENIA SAS ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie DANIEL KUBIK ŁUKASZ LESZEWSKI ROLE ROLE UŻYTKOWNIKÓW MODUŁU

Bardziej szczegółowo

Przewidywanie cen akcji z wykorzystaniem artykułów prasowych

Przewidywanie cen akcji z wykorzystaniem artykułów prasowych Przewidywanie cen akcji z wykorzystaniem artykułów prasowych Mateusz Kobos, 05.12.2007 Seminarium Metody Inteligencji Obliczeniowej 1/25 Spis treści Ogólna budowa programu Pobieranie danych Budowa bazy

Bardziej szczegółowo

Microsoft Test Manager

Microsoft Test Manager Microsoft Test Manager Wprowadzenie do narzędzia jakim jest Microsoft Test Manager. Wskazanie możliwości, silnych oraz słabych stron. Marta Firlej 29/09/2014 Microsoft Test Manager Team Foundation Server

Bardziej szczegółowo

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów Eksploracja danych Piotr Lipiński Informacje ogólne Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów UWAGA: prezentacja to nie

Bardziej szczegółowo

Praca magisterska Jakub Reczycki. Opiekun : dr inż. Jacek Rumiński. Katedra Inżynierii Biomedycznej Wydział ETI Politechnika Gdańska

Praca magisterska Jakub Reczycki. Opiekun : dr inż. Jacek Rumiński. Katedra Inżynierii Biomedycznej Wydział ETI Politechnika Gdańska System gromadzenia, indeksowania i opisu słownikowego norm i rekomendacji Praca magisterska Jakub Reczycki Opiekun : dr inż. Jacek Rumiński Katedra Inżynierii Biomedycznej Wydział ETI Politechnika Gdańska

Bardziej szczegółowo