Zastosowanie bezpośredniej analizy semantycznej (ESA) do indeksowania, grupowania i etykietowania artykułów naukowych

Wielkość: px
Rozpocząć pokaz od strony:

Download "Zastosowanie bezpośredniej analizy semantycznej (ESA) do indeksowania, grupowania i etykietowania artykułów naukowych"

Transkrypt

1 Zastosowanie bezpośredniej analizy semantycznej (ESA) do indeksowania, grupowania i etykietowania artykułów naukowych Marcin Szczuka Instytut Matematyki Wydział Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski Seminarium RS&PN, Rzeszów, M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

2 Plan prezentacji 1 Wprowadzenie 2 Explicit Semantic Analysis Idea ESA Wybrane aspekty implementacyjne 3 Przykłady zastosowań Grupowanie artykułów z dziedziny zbiorów przybliżonych Etykietowanie i indeksowanie dokumentów biomedycznych Etykietowanie, klasyfikacja i konkurs JRS 4 Podsumowanie M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

3 Minuta dla sponsora :) SYNAT Utworzenie uniwersalnej, otwartej, repozytoryjnej platformy hostingowej i komunikacyjnej dla sieciowych zasobów wiedzy dla nauki, edukacji i otwartego społeczeństwa wiedzy. W ramach strategicznego programu badań naukowych i prac rozwojowych pt. Interdyscyplinarny system interaktywnej informacji naukowej i naukowo technicznej finansowanego przez Narodowe Centrum Badań i Rozwoju. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

4 Projekt SYNAT Nasze zadania w projekcie: stworzenie sytemu wspierającego wyszukiwanie, syntezę i wizualizację informacji i wiedzy SONCA; wsparcie dla semantycznego indeksowania, klasyfikacji i grupowania; odkrywanie powiązań (relacji) między różnymi rodzajami obiektów; wykorzystanie wiedzy dziedzinowej, szczególnie ontologicznej. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

5 SONCA Search based on ONtologies and Compound Analytics OCR, PDFminer Matching SYNAT PLATFORM Local document repository Parser, Loader Analytic Index Server Semantic Indexer SYNAT PLATFORM QTaxonomy Editor NLQ Procesor Snippet Clustering QUERY INTERFACE GUI/Dialog Search Index Server M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

6 Cele i możliwe zastosowania: Cel: Poprawa reprezentacji dokumentów tekstowych w celu lepszego rozpoznania ich semantyki. 1 Wzbogacenie informacji o dokumencie przez przypisywanie dokumentom pojęć związanych z ich tematyką. 2 Stworzenie indeksu odwrotnego przypisującego pojęciom listę dokumentów z nimi związanych. 3 Wspomaganie etykietowania (tagowania) dokumentów. 4 Umożliwienie semantycznego grupowania dokumentów, poprawa interpretowalności wyników grupowania. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

7 Indeksowanie semantyczne Typowe metody indeksowania: słowami, N-gramami, frazami, (pół)-manualne tworzenie bytów semantycznych (pojęć). Czy można zautomatyzować indeksowanie semantyczne? Pożytki z indeksowania semantycznego: wydobywanie informacji (information retrieval) na dużą skalę, wsparcie dla osób etykietujących manualnie, punkt startowy do np. grupowania, wizualizacji, klasyfikacji. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

8 Plan prezentacji 1 Wprowadzenie 2 Explicit Semantic Analysis Idea ESA Wybrane aspekty implementacyjne 3 Przykłady zastosowań Grupowanie artykułów z dziedziny zbiorów przybliżonych Etykietowanie i indeksowanie dokumentów biomedycznych Etykietowanie, klasyfikacja i konkurs JRS 4 Podsumowanie M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

9 Plan prezentacji 1 Wprowadzenie 2 Explicit Semantic Analysis Idea ESA Wybrane aspekty implementacyjne 3 Przykłady zastosowań Grupowanie artykułów z dziedziny zbiorów przybliżonych Etykietowanie i indeksowanie dokumentów biomedycznych Etykietowanie, klasyfikacja i konkurs JRS 4 Podsumowanie M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

10 Schemat oryginalnego modelu ESA E. Gabrilovich, S. Markovitch, Computing Semantic Relatedness using Wikipedia-based Explicit Semantic Analysis, Proceedings of the 20 th IJCAI, 2007, pp M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

11 Co robi ESA? Wejście Korpus (repozytorium) dokumentów. Na przykład kolekcja prac z czasopism i konferencji (PDF, HTML, XML) z (opcjonalnymi) wyróżnionymi własnościami. Baza wiedzy. Zbiór pojęć wraz z ich opisami (definicjami) oraz (opcjonalnie) strukturą powiązań między pojęciami. Na przykład: Wikipedia/DBpedia, MeSH, ACM classification. Wyjście Indeks semantyczny. Struktura powiązań między dokumentami (elementami korpusu), a semantycznie odpowiednimi pojęciami z bazy wiedzy. Technicznie, jest to bardzo duża macierz rzadka przechowująca stopień powiązania między dokumentem, a pojęciem. Narzędzia Statystyczne metody przetwarzania języka, tf-idf, indeks odwrotny,... M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

12 Wektorowa reprezentacja dokumentów 1 Początkowo zarówno dokumenty z korpusu, jak i z bazy wiedzy są konwertowane do postaci bag-of-words. Dla wyznaczenia wartości współrzędnych wektora słownikowego dla dokumentu posługujemy się zmodyfikowaną miarą tf-idf, w której czynnik tf jest np. brany z pierwiastkiem. 2 Budujemy indeks odwrotny w którym dokumenty z korpusu są kojarzone z pojęciami z bazy wiedzy w których występują. Za pomocą tego indeksu tworzymy nową reprezentację wektorową dla każdego z dokumentów w korpusie. Ta reprezentacja, nazywana bag-of-concepts wiąże dokumenty z korpusu z pojęciami wydobytymi z bazy wiedzy. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

13 Ściągawka: tf-idf tf-idf = term frequency - inverse document frequency. Niech T = w i n i=1 będzie dokumentem w reprezentacji bag-of-words, D zbiorem (korpusem) dokumentów. gdzie: tf idf(w, T, D) = tf(w, T ) idf(w, D) idf(w, D) = log D {T D : w T } M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

14 Reprezentacja bag-of-concepts Dla tekstu (dokumentu) T = w i n i=1 reprezentowanego przez wektor (tf-idf) v 1,..., v n : v i jest wagą dla słowa w i w reprezentacji bag-of-words. k ij jest pozycją w odwróconym indeksie dla słowa w i. Wartość k ij reprezentuje siłę skojarzenia (asocjacji) w i z pojęciem c j (j {1,..., N}) z bazy wiedzy. Nowa reprezentacja wektorowa dla T jest wyznaczana przez: i:w i T v i k ij N j=1. (1) M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

15 Plan prezentacji 1 Wprowadzenie 2 Explicit Semantic Analysis Idea ESA Wybrane aspekty implementacyjne 3 Przykłady zastosowań Grupowanie artykułów z dziedziny zbiorów przybliżonych Etykietowanie i indeksowanie dokumentów biomedycznych Etykietowanie, klasyfikacja i konkurs JRS 4 Podsumowanie M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

16 Realizacja ESA w SONCA By związać dokumenty (np. artykuły z PubMed) w SONCA z pojęciami z bazy wiedzy (np. terminami z MeSH) korzystając z ESA, potrzebujemy wykonywać skomplikowane zapytania na dużych, relacyjnych hurtowniach danych. U Π (R.doc_id,T.concept,measure) ( τ (measuredesc) ( γ ( R.doc_id,S.concept,SUM( R.tf S.assoc T.idf ) measure) ( ))) R S T 2 stem=stem stem=stem Takie zapytanie zwraca (wylicza) poziom powiązania pomiędzy dokumentami, a pojęciami. I dokumenty i pojęcia są przechowywane w tabelach relacyjnej bazy danych. Wykonanie zapytania wiąże się tutaj z koniecznością łączenia (join) bardzo dużych struktur. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

17 ESA w SONCA Zapytania takie, jak to na poprzednim slajdzie, zwracają kompletną informację tj. dla każdego dokumentu wyliczają poziom powiązania ze wszystkimi pojęciami z ontologii (bazy wiedzy). To jednak jest niepotrzebne, a nawet szkodliwe w praktycznych zadaniach. Idea: Wiemy, że potrzebujemy tylko k=30 najbardziej adekwatnych pojęć. Zatem ograniczmy zapytanie do top-k wyników. Trudność: Aby przyciąć zapytanie do top-k wyników musimy w naszym modelu użyć operatora LIMIT wewnątrz GROUP BY. Nie wszystkie RDBMS to wspierają i często jest to kiepsko zrealizowane. Rozwiązanie: Ponieważ wiemy, że obrabiane dokumenty są od siebie niezależne (w sensie ESA), możemy wykonywać na nich niezależne obliczenia. To pozwala na wykorzystanie współbieżności i/lub równoległego przetwarzania. Dekomponujemy nasze zadanie na kawałki (shards), którymi możemy się zająć w bardziej efektywny sposób. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

18 Sharding - rezultaty Obliczanie wektora pojęć Typ bazy Bez shardnig Sharding 1 Infobright 22 h 22 m 0.39 s 8 h 42 m 6.74 s 2 PostgreSQL 24 h brak wyniku 7 h 3 m 1.74 s 3 MonetDB MALException error 8 h 17 m s Obliczanie wektora pojęć z LIMIT k = 30 1 Infobright NA 0 h 29 m s 2 PostgreSQL 16 h 58 m s 1 h 27 m s z LOOP w PL/pgSQL 3 PostgreSQL 17 h 22 m 30 s 1 h 27 m s WINDOWING FUNCTION 4 MonetDB NA 0 h 35 m s word_document ; word_stem 76108; stem_concept M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

19 Plan prezentacji 1 Wprowadzenie 2 Explicit Semantic Analysis Idea ESA Wybrane aspekty implementacyjne 3 Przykłady zastosowań Grupowanie artykułów z dziedziny zbiorów przybliżonych Etykietowanie i indeksowanie dokumentów biomedycznych Etykietowanie, klasyfikacja i konkurs JRS 4 Podsumowanie M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

20 Plan prezentacji 1 Wprowadzenie 2 Explicit Semantic Analysis Idea ESA Wybrane aspekty implementacyjne 3 Przykłady zastosowań Grupowanie artykułów z dziedziny zbiorów przybliżonych Etykietowanie i indeksowanie dokumentów biomedycznych Etykietowanie, klasyfikacja i konkurs JRS 4 Podsumowanie M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

21 Plan eksperymentu Text corpus for tests Initial text processing (filtering, stemming, stop words removal) Final cluster quality evaluation Clustering with semantic representation Similarity Matrix Vector representation Vector representation Semantic representation verification & similarity assessment Reverse index Semantic interpretation (concept filtering, association assessment) New vector representation (using concepts) M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

22 Baza wiedzy: DBpedia (3.5.1 en) Czym jest DBpedia? Obraz Wikipedii o zachowanej strukturze, lecz zredukowanej zawartości. Format DBpedii ułatwia jej automatyczne przetwarzanie. Strony Wikipedii reprezentowane są jedynie przez abstrakty. DBpedia zawiera informacje na temat kategoryzacji pojęć. Liczba pojęć - 3,257,133. Średnia długość abstraktu słów (min 0, max 16,850). Wielkość korpusu - 316,631,010 słów (2,818,483 unikatowych). Liczba kategorii - 560,049 (449,140 bezpośrednich nadkategorii pojęć). M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

23 Korpus dokumentów 349 artykułów naukowych opublikowanych w latach przez autorów związanych z Zakładem Logiki WMIM UW. Wybór obejmuje tylko standardowe artykuły, odpowiadające kategoriom BibTEX: article, inproceedings i incollection. Usunęliśmy artykuły bardzo krótkie (extended abstract) i bardzo długie (mini-monografie). Niektóre artykuły pominęliśmy ze względu na problemy techniczne przy konwersji z formatu PDF. W wyniku konwersji na format tekstowy i wstępnego przetwarzania (NLP, stemming) otrzymaliśmy korpus tekstowy: unikatowych słów przed stemmingiem unikatowych stemów. Średnio dokument zawiera 3524 stemów, minimum 362, maksimum M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

24 Przykładowe listy asocjacji pojęć (LTF-C): Architecture, Training Algorithm and Applications of New Neural Classifier [1] 9.19 Neural_Lab [2] 9.17 Echo_state_network [3] 8.75 Auto-encoder [4] 8.30 Interneuron [5] 8.09 Oja s_rule [6] 8.08 Multilayer_perceptron [7] 8.06 Biological_neural_network [8] 8.06 Artificial_neural_network [9] 8.00 Artificial_neuron [10] 7.84 Neuroevolution Judgment of satisfiability under incomplete information [1] 8.21 Definable_set [2] 8.08 Schaefer s_dichotomy_theorem [3] 7.96 Formal_semantics_of_programming_languages [4] 7.85 Empty_domain [5] 7.78 Tautology_(logic) [6] 7.68 Equisatisfiability [7] 7.54 Method_of_analytic_tableaux [8] 7.38 Conditional_quantifier [9] 7.36 Model_checking [10] 7.32 Satisfiability_and_validity Combination of Metric-Based and Rule-Based Classification [1] 8.92 K-nearest_neighbor_algorithm [2] 6.19 Backmarking [3] 6.08 Wolfe_conditions [4] 5.90 Evolutionary_data_mining [5] 5.66 Event_condition_action [6] 5.64 Transduction_(machine_learning) [7] 5.63 Soft_independent_modelling_of_class_analogies [8] 5.63 Ground_truth [9] 5.56 Proximity_problems [10] 5.50 M. Szczuka (MIM UW) Dominating_decision_rule ESA - zastosowania Rzeszów, / 50

25 Porównanie wyników grupowania ( Silhouette plot ) Penalized silhouette width Optimal number of groups for clustering using the representation by concepts Number of clusters Objects in consecutive clusters (sorted by the silhouette width) Silhouette plot for clustering into 73 groups using the representation concepts n = clusters C j Silhouette width s i Average silhouette width : 0.2 Penalized silhouette width Optimal number of groups for clustering using the representation by words Number of clusters Objects in consecutive clusters (sorted by the silhouette width) Silhouette plot for clustering into 73 groups using the representation words n = clusters C j Silhouette width s i Average silhouette width : 0.18 M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

26 Przycięte drzewo grupowania wg. pojęć Truncated clustering tree Cluster Cluster 1: 2: member Cluster 3: 1 member member Cluster 4: 4 members Cluster Cluster 5: 6: 1 member member Cluster 7: 5 members Cluster Cluster 8: 9: 1 member member Cluster 10: 3 members Cluster 11: 2 members Cluster 12: 3 members Cluster 13: 3 members Cluster 14: 2 members Cluster 15: 2 members Cluster 16: 2 members Cluster 17: 1 member Cluster 18: 3 members Cluster 19: 1 member Cluster 20: 4 members Cluster 21: 13 members Cluster 22: 1 member Cluster 23: 4 members Cluster 24: 4 members Cluster 25: 8 members Cluster 26: 2 members Cluster 27: 3 members Cluster 28: 1 member Cluster 29: 3 members Cluster 30: 1 member Cluster 31: 9 members Cluster 32: 2 members Cluster 33: 19 members Cluster 34: 24 members Cluster 35: 8 members Cluster 36: 11 members Cluster 37: 13 members Cluster 38: 1 member Cluster 39: 14 members Cluster 40: 3 members Cluster 41: 10 members Cluster 42: 4 members Cluster 43: 5 members Cluster 44: 4 members Cluster 45: 2 members Cluster 46: 4 members Cluster 47: 2 members Cluster 48: 3 members Cluster 53: 2 members Cluster 55: 2 members Cluster 49: 2 members Cluster 50: 1 member Cluster 51: 2 members Cluster 52: 1 member Cluster 54: 1 member Cluster 56: 1 member Cluster 57: 4 members Cluster 58: 8 members Cluster 59: 10 members Cluster 60: 4 members Cluster 61: 4 members Cluster 62: 13 members Cluster 63: 4 members Cluster 64: 3 members Cluster 65: 3 members Cluster 66: 3 members Cluster 67: 3 members Cluster 68: 13 members Cluster 69: 1 member Cluster 70: 13 members Cluster 71: 1 member Cluster 72: 3 members Cluster 73: 27 members M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

27 Przycięte drzewo grupowania wg. słów Truncated clustering tree Cluster 1: 2 members Cluster Cluster 2: 3: member Cluster 4: member Cluster 5: member Cluster 6: member Cluster 7: member Cluster 8: 1 member member Cluster 9: 6 members Cluster Cluster 10: 11: member Cluster 12: member Cluster 13: member Cluster 14: member Cluster 15: 1 member member Cluster 16: 3 members Cluster 17: 3 members Cluster 18: 2 members Cluster Cluster 19: 20: member Cluster 21: 1 member member Cluster 22: 2 members Cluster 23: 2 members Cluster 24: 4 members Cluster 25: 8 members Cluster 26: 1 member Cluster 27: 4 members Cluster Cluster 28: 29: 1 member member Cluster 30: 3 members Cluster 31: 1 member Cluster 32: 2 members Cluster 33: 6 members Cluster 34: 3 members Cluster 35: 3 members Cluster 36: 2 members Cluster 37: 4 members Cluster 38: 7 members Cluster 39: 2 members Cluster 40: 2 members Cluster 41: 1 member Cluster 42: 8 members Cluster Cluster 43: 44: 1 member member Cluster 45: 7 members Cluster 46: 1 member Cluster 47: 3 members Cluster 48: 28 members Cluster 49: 3 members Cluster 50: 3 members Cluster 51: 6 members Cluster 52: 5 members Cluster 53: 23 members Cluster 54: 13 members Cluster 55: 1 member Cluster 56: 7 members Cluster 57: 1 member Cluster 58: 3 members Cluster 59: 2 members Cluster 60: 5 members Cluster 61: 8 members Cluster 62: 17 members Cluster 63: 9 members Cluster 64: 2 members Cluster 65: 60 members Cluster 66: 1 member Cluster 67: 22 members Cluster Cluster 68: 69: 1 member member Cluster 70: 2 members Cluster 71: 2 members Cluster 72: 4 members Cluster 73: 8 members M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

28 Analiza wybranych grup Cluster 21: Neurocomputing and Artificial Neural Networks [1] (LTF-C): Architecture, Training Algorithm and Applications of New Neural Classifier [2] Rough Neurons: Petri Net Models and Applications [3] Rough-Neural Computing: An Introduction [4] Toward Rough Neural Computing Based on Rough Membership Functions: Theory and Application [5] Rough Neurocomputing: A Survey of Basic Models of Neurocomputation [6] Design of rough neurons: Rough set foundation and Petri net model [7] Constructing Extensions of Bayesian Classifiers with use of Normalizing Neural Networks [8] Refining decision classes with neural networks [9] Harnessing Classifier Networks - Toward Hierarchical Concept Construction [10] Feedforward concept networks [11] Neural network design: Rough set approach to real-valued data [12] Hyperplane-based neural networks for real-valued decision tables [13] Rough Sets and Artificial Neural Networks Cluster 39: Logical Satisfiability and Validity of Formulas [1] Judgment of satisfiability under incomplete information [2] A graded applicability of rules [3] Toward rough applicability of rules [4] Satisfiability and meaning in approximation spaces [5] Satisfiability Judgment Under Incomplete Information [6] Reasoning Based on Information Changes in Information Maps [7] Rough validity, confidence, and coverage of rules in approximation spaces [8] Satisfiability and meaning of formulas and sets of formulas in approximation spaces [9] On rough judgment making by socio-cognitive agents [10] Rauszer s R-logic for multiagent systems [11] Rough rule-following by social agents [12] Satisfiability of formulas from the standpoint of object classification [13] Construction of rough information granules [14] Patterns in Information Maps Cluster 60: Instance-based Learning [1] Combination of Metric-Based and Rule-Based Classification [2] Rough Set Approach to CBR [3] Local Attribute Value Grouping for Lazy Rule Induction M. Szczuka [4] Granulation (MIM UW) in Analogy-based Classification ESA - zastosowania Rzeszów, / 50

29 Przypisywanie pojęć do grup dokumentów Cluster 21: Neurocomputing and Artificial Neural Networks [1] ADALINE [2] Artificial_neural_network [3] Artificial_neuron [4] Auto-encoder [5] Delta_rule [6] Multilayer_perceptron [7] Universal_approximation_theorem [8] Echo_state_network [9] Neural_Lab Cluster 39: Logical Satisfiability and Validity of Formulas [1] Empty_domain [2] Formal_theorem [3] Limit-preserving_function_(order_theory) [4] Satisfiability_and_validity [5] Schaefer s_dichotomy_theorem [6] Tautology_(logic) [7] Well-definition Cluster 60: Instance-based Learning [1] Attribute_(computing) [2] Attribute_(network_management) [3] Integrity_constraints [4] K-nearest_neighbor_algorithm [5] Online_machine_learning [6] Relation_(database) [7] Structured_SVM M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

30 Plan prezentacji 1 Wprowadzenie 2 Explicit Semantic Analysis Idea ESA Wybrane aspekty implementacyjne 3 Przykłady zastosowań Grupowanie artykułów z dziedziny zbiorów przybliżonych Etykietowanie i indeksowanie dokumentów biomedycznych Etykietowanie, klasyfikacja i konkurs JRS 4 Podsumowanie M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

31 Semantyczne indeksowanie literatury biomedycznej Zadanie: Automatycznie przypisać etykiety MeSH dokumentom z (dużego) repozytorium. Wyszukiwarki w biomedycynie: PubMed Search, BabelMeSH, GoPubMed, etblast, Anne O Tate, i inne... Motywacja: dostępność danych i wyników porównawczych, większość istniejących indeksów polega na MEDLINE, nawet niewielkie polepszenie aktualnych wyników jest pożyteczne. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

32 PubMed i MeSH PubMed i PubMed Central Internetowa baza danych obejmująca artykuły i inne materiały (ok. 22,5M) z dziedziny medycyny i nauk biologicznych. Założona w 1996 roku przez National Center for Biotechnology Information, będący częścią National Library of Medicine. PubMed zapewnia bezpłatny dostęp do artykułów znajdujących się w bazie MEDLINE oraz niektórych artykułów z czasopism nienależących do niej. Ponadto podzbiór PubMed Central Open Access jest dostępny w postaci pełnych tekstów (około 0,5M). MeSH - Medical Subject Headings System metadanych (baza wiedzy, ontologia) którego celem jest indeksowanie artykułów medycznych i książek o tej tematyce. Stworzony i ulepszany przez NLM, jest używany w bazach danych MEDLINE i PubMed. Zawiera (wersja 2009) pojęć (subject headings, descriptors) powiązanych zależnościami (hierarchiami) i opatrzonych opisami. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

33 ESA na dokumentach PubMed Tytuł dokumentu MeSH tagi z PubMed MeSH tagi z SONCA Cockroaches (Ectobius Cockroaches*, Insect Control*, Cockroaches, Intensive Care vittientris) in an intensive Intensive Care Units*, Units, Klebsiella Infections, care unit, Switzerland. Cross Infection, Insect Vectors Pest Control, Cross Infection Serotonin transporter genotype, Depressive Disorder*, Gene- Depressive Disorder, Genomeand morning cortisol tic Predisposition to Disease*, Wide Association Study, Mul- subsequent depression Serotonin Plasma Membrane tilevel Analysis, Cohort Studies, in adolescents. Transport Proteins*, Genoty- pe, Multilevel Analysis Adolescent Psychiatry Capacity of Thailand to contain an emerging influenza pandemic. Disaster Planning*, Health Policy*, Disease Outbreaks, Health Resources, Influenza Human Health Care Rationing, Health Resources, Epidemics, Evidence-Based Medicine, Influenza B virus średni recall dla top 10 najlepszych tagów: 0.2; top 30 tagów: 0.26; wiele ściśle powiązanych pojęć (headings) nieodnotowanych przez ekspertów; dokładność jest ściśle powiązana z jakością opisów pojęć. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

34 Ustawienia eksperymentu Idea: labels assigned by experts can be used to improve labelling, semantic index can be updated by analogy to a back-propagation algorithm from neural networks, various types of user feedback can also be utilized. ESA Semantic index Adaptive module User feedback Experiments: a corpus of 40K articles from PMC, corresponding MeSH headings were acquired from MEDLINE, data divided into training and test sets, evaluation by F 1 -score and Recall. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

35 Adaptacyjne poprawianie (uczenie) tagów Algorytm poprawiania: Input: INV - macierz żadka o N wierszach i K kolumnach; T op C (T ) - top pojęcia z ESA; Exp(T ) - pojęcia eksperckie (od użytkowników); begin Zainicjuj ( macierz INV ; ) ( ) for c k T op C (T ) Exp(T ) Exp(T ) \ T op C (T ) do zwiększ wartość INV odpowiadających słowom występującym w T i mającym niezerowe wagi w k-tej kolumnie INV, proporcjonalnie do częstości występowania w T ; end ( ) for c k T op C (T ) \ Exp(T ) do zmniejsz odpowiednie wartości w k-tej kolumnie INV ; end return INV = INV + INV end algorytm może być używany tak on-line, jak i wsadowo; można stosować różne formuły na zmianę wag. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

36 Rezultaty uczenia: F 1 -score i Recall average F1 score training score test score Iteration number a) F 1- score b) Recall average Recall Iteration number training score test score M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

37 Rezultaty uczenia: rozmiar danych i zbieżność average Recall stopping criterion score training set maximum test set maximum Training set size Training set size a) Recall b) Number of iteration Iteration number stopping criterion trigger training set maximum test set maximum M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

38 Plan prezentacji 1 Wprowadzenie 2 Explicit Semantic Analysis Idea ESA Wybrane aspekty implementacyjne 3 Przykłady zastosowań Grupowanie artykułów z dziedziny zbiorów przybliżonych Etykietowanie i indeksowanie dokumentów biomedycznych Etykietowanie, klasyfikacja i konkurs JRS 4 Podsumowanie M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

39 Kontekst MEDLINE zatrudnia zastępy ekspertów by indeksowali ich zasoby pojęciami z MeSH. MeSH zawiera ponad pojęć. Pojęcia są umieszczane w kontekście za pomocą 83 kwalifikatorów (subheadings). Lekarze używają par heading/subheading z MeSH do szukania informacji. Do 2007 zostało (na poły ręcznie) zindeksowanych artykuły. Eksperci potrzebują pilnej pomocy. Oczekiwania: milion artykułów w M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

40 Konkurs JRS 2012 JRS 2012 Data Mining Competition Topical Classification of Biomedical Research Papers JRS 2012, Chengdu, Chiny, sierpnia. Cele: sprawdzić SONCA w roli indeksera semantycznego; oszacować możliwości automatycznego przewidywania par heading/subheading z MeSH dla dokumentów PubMed. Plan wykonania: 1 Pozyskanie danych. 2 Zaindeksowanie semantyczne za pomocą SONCA pojęciami (headings) z MeSH. 3 Predykcja MeSH subheadings związanych z dokumentami. 4 Stworzenie par heading/subheading. 5 Uruchomienie adaptacyjnego mechanizmu douczania się i poprawy systemu. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

41 Dane konkursowe Formuła przygotowania danych Dokumenty z PubMed + SONCA (ESA) + Etykiety z MEDLINE = Dane konkursowe Kroki w przygotowaniu danych: 1 Standardowe przetwarzanie tekstów. 2 Indeksowanie z użyciem ESA. 3 Pozyskanie etykiet referencyjnych z MEDLINE. 4 Wybór 20K documents. 5 Top-30 skojarzonych etykiet rozszerzone o ich sąsiadów w hierarchii MeSH. Uzyskane dane bardzo rzadka macierz danych (< 1% niezerowych wartości), atrybutów, 83 bardzo niezbalansowane etykiety, wstępna ocena na 10% danych testowych, wymaganie dostarczenia krótkiego raportu. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

42 Summary of the Results Metoda oceny: uśredniony F 1 -score z przewidywań. P recision i = T ruet opics i P redt opics i P redt opics i, Recall i = T ruet opics i P redt opics i T ruet opics i, F 1 -score i = 2 P recision i Recall i P recision i +Recall i, AvgF 1 -score = N i=1 F 1 -score i N. Statystyka konkursu: 396 zespołów = 533 uczestników; zespoły z 50 krajów; 124 aktywne zespoły; 5964 przysłanych rozwiązań; 39 zespołów powyżej kreski (99 na danych wstępnych); rozwiązanie referencyjne poprawione o 125%. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

43 Przykład rozwiązania: podejście CBR Zestaw etykiet dla testowanego dokumentu jest ustalany na podstawie znanych etykiet dla podobnych dokumentów z próbki uczącej. Właściwości: pojedynczy model, intuicyjnie zrozumiały, skalowalny ze względu na liczbę etykiet, rozsądna jakość predykcji ( 0.50 dla double-weighted k-nn). M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

44 Przykład rozwiązania: podejście z wieloma modelami Model 1 Model 2 Model 3 Data set... Model 82 Model 83 Niezależne modele są skonstruowane dla każdej z etykiet, a ich odpowiedzi są agregowane tworząc ostateczne wyjście. Label 1 Label 2 Label 3... Label 82 Label Label 3, Label 7, Label 67 Label 2, Label 43, Label 78, Label 80 Label 3, Label Label 13, Label 36, Label 75 Właściwości: najpopularniejsze podejście, elastyczność w wyborze modeli składowych, dobra jakość predykcji ( u zwycięzcy). M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

45 Zespoły klasyfikatorów (predykatorów) Ensemble learning: użycie (zespołu) wielu modeli do uzyskania poprawy jakości klasyfikacji. model 1 model 2 Do stworzenia dobrego zespołu potrzeba dokładnych ale zróżnicowanych klasyfikatorów składowych. model 3 concept C Przykład: Zespół stworzony z 5 najlepszych rozwiązań osiągnął jakość M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

46 Podsumowanie Możliwe zastosowania: indeksy semantyczne, wsparcie dla bibliotekarzy, jako wejście w grupowaniu, analiza semantyczna korpusów tekstowych. Dalsze kierunki badań: poprawienie podstawowej metody tagowania, uwzględnienie struktury MeSH w klasyfikacji, współpraca z ekspertami, udoskonalanie metod klasyfikacji wieloetykietowej. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

47 Plan prezentacji 1 Wprowadzenie 2 Explicit Semantic Analysis Idea ESA Wybrane aspekty implementacyjne 3 Przykłady zastosowań Grupowanie artykułów z dziedziny zbiorów przybliżonych Etykietowanie i indeksowanie dokumentów biomedycznych Etykietowanie, klasyfikacja i konkurs JRS 4 Podsumowanie M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

48 Wnioski ESA okazuje się być użytecznym narzędziem do tworzenia indeksów semantycznych, które mogą być potem wykorzystane do etykietowania, grupowania, klasyfikacji i wizualizacji korpusów dokumentów. Przy wykorzystywaniu ESA można wiele osiągnąć przez: właściwy preprocessing tak korpusu jak i bazy wiedzy; właściwy dobór miar i kryteriów do zadania; wbudowanie mechanizmu poprawiania rozwiązania, w sczególności w interakcji z użytkownikiem. M. Szczuka (MIM UW) ESA - zastosowania Rzeszów, / 50

Wydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych

Wydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Informatyki i Elektroniki Instrukcja do zajęć laboratoryjnych wersja: 1.0 Nr ćwiczenia: 12, 13 Temat: Cel ćwiczenia: Wymagane przygotowanie

Bardziej szczegółowo

Metody zbiorów przybliżonych w uczeniu się podobieństwa z wielowymiarowych zbiorów danych

Metody zbiorów przybliżonych w uczeniu się podobieństwa z wielowymiarowych zbiorów danych Metody zbiorów przybliżonych w uczeniu się podobieństwa z wielowymiarowych zbiorów danych WMIM, Uniwersytet Warszawski ul. Banacha 2, 02-097 Warszawa, Polska andrzejanusz@gmail.com 13.06.2013 Dlaczego

Bardziej szczegółowo

MATLAB Neural Network Toolbox przegląd

MATLAB Neural Network Toolbox przegląd MATLAB Neural Network Toolbox przegląd WYKŁAD Piotr Ciskowski Neural Network Toolbox: Neural Network Toolbox - zastosowania: przykłady zastosowań sieci neuronowych: The 1988 DARPA Neural Network Study

Bardziej szczegółowo

CLUSTERING. Metody grupowania danych

CLUSTERING. Metody grupowania danych CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means

Bardziej szczegółowo

Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl

Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl 1. Wstęp Aby skorzystać z możliwości RapidMinera w zakresie analizy tekstu, należy zainstalować Text Mining Extension. Wybierz: 1 Po

Bardziej szczegółowo

Uniwersytet Jagielloński Collegium Medicum. Anna Uryga, Jolanta Cieśla, Lucjan Stalmach

Uniwersytet Jagielloński Collegium Medicum. Anna Uryga, Jolanta Cieśla, Lucjan Stalmach Wyniki działań realizowanych w Bibliotece Medycznej UJ CM w latach 2011-2013 w ramach projektu SYNAT/PASSIM w zakresie stworzenia platformy hostingowej i komunikacyjnej dla sieciowych zasobów wiedzy dla

Bardziej szczegółowo

Zadania. Przygotowanie zbiorów danych. 1. Sposób 1: 2. Sposób 2:

Zadania. Przygotowanie zbiorów danych. 1. Sposób 1: 2. Sposób 2: Wstęp Jednym z typowych zastosowań metod sztucznej inteligencji i uczenia maszynowego jest przetwarzanie języka naturalnego (ang. Natural Language Processing, NLP), której typowych przykładem jest analiza

Bardziej szczegółowo

4.3 Grupowanie według podobieństwa

4.3 Grupowanie według podobieństwa 4.3 Grupowanie według podobieństwa Przykłady obiektów to coś więcej niż wektory wartości atrybutów. Reprezentują one poszczególne rasy psów. Ważnym pytaniem, jakie można sobie zadać, jest to jak dobrymi

Bardziej szczegółowo

Badania w sieciach złożonych

Badania w sieciach złożonych Badania w sieciach złożonych Grant WCSS nr 177, sprawozdanie za rok 2012 Kierownik grantu dr. hab. inż. Przemysław Kazienko mgr inż. Radosław Michalski Instytut Informatyki Politechniki Wrocławskiej Obszar

Bardziej szczegółowo

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów Łukasz Piątek, Jerzy W. Grzymała-Busse Katedra Systemów Ekspertowych i Sztucznej Inteligencji, Wydział Informatyki

Bardziej szczegółowo

Analiza danych tekstowych i języka naturalnego

Analiza danych tekstowych i języka naturalnego Kod szkolenia: Tytuł szkolenia: ANA/TXT Analiza danych tekstowych i języka naturalnego Dni: 3 Opis: Adresaci szkolenia Dane tekstowe stanowią co najmniej 70% wszystkich danych generowanych w systemach

Bardziej szczegółowo

Semantyczne podobieństwo stron internetowych

Semantyczne podobieństwo stron internetowych Uniwersytet Mikołaja Kopernika Wydział Matematyki i Informatyki Marcin Lamparski Nr albumu: 184198 Praca magisterska na kierunku Informatyka Semantyczne podobieństwo stron internetowych Praca wykonana

Bardziej szczegółowo

EMBASE dzisiaj. Ponad 11 milionów rekordów bibliograficznych w wersji online juŝ od. Ponad 4,900 specjalistycznych czsopism pochodzących z ok.

EMBASE dzisiaj. Ponad 11 milionów rekordów bibliograficznych w wersji online juŝ od. Ponad 4,900 specjalistycznych czsopism pochodzących z ok. Embase on OvidSP EMBASE dzisiaj Ponad 11 milionów rekordów bibliograficznych w wersji online juŝ od 1974 roku Ponad 4,900 specjalistycznych czsopism pochodzących z ok. 70 krajów swiata Aktualizacja następuje

Bardziej szczegółowo

Logika rozmyta typu 2

Logika rozmyta typu 2 Logika rozmyta typu 2 Zbiory rozmyte Funkcja przynależności Interwałowe zbiory rozmyte Funkcje przynależności przedziałów Zastosowanie.9.5 Francuz Polak Niemiec Arytmetyka przedziałów Operacje zbiorowe

Bardziej szczegółowo

Eksploracja tekstu. Wprowadzenie Wyszukiwanie dokumentów Reprezentacje tekstu. Eksploracja danych. Eksploracja tekstu wykład 1

Eksploracja tekstu. Wprowadzenie Wyszukiwanie dokumentów Reprezentacje tekstu. Eksploracja danych. Eksploracja tekstu wykład 1 Eksploracja tekstu Wprowadzenie Wyszukiwanie dokumentów Reprezentacje tekstu Eksploracja tekstu wykład 1 Tematem wykładu są zagadnienia związane z eksploracją tekstu. Rozpoczniemy od krótkiego wprowadzenia

Bardziej szczegółowo

Zastosowanie sztucznej inteligencji w testowaniu oprogramowania

Zastosowanie sztucznej inteligencji w testowaniu oprogramowania Zastosowanie sztucznej inteligencji w testowaniu oprogramowania Problem NP Problem NP (niedeterministycznie wielomianowy, ang. nondeterministic polynomial) to problem decyzyjny, dla którego rozwiązanie

Bardziej szczegółowo

Testowanie modeli predykcyjnych

Testowanie modeli predykcyjnych Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności

Bardziej szczegółowo

Dziedzinowa Baza Wiedzy w zakresie Nauk Technicznych

Dziedzinowa Baza Wiedzy w zakresie Nauk Technicznych Jak Nas widzą, tak Nas piszą Dziedzinowa Baza Wiedzy w zakresie Nauk Technicznych Warszawa Maj 2013 Plan prezentacji 1. Stan informacji naukowej w zakresie nauk technicznych w Polsce 2. Koncepcja systemu

Bardziej szczegółowo

^ Springer. Intelligent. Building a Scientific. Information Platform. Tools for. Henryk Rybiriski, Marzena Kryszkiewicz,

^ Springer. Intelligent. Building a Scientific. Information Platform. Tools for. Henryk Rybiriski, Marzena Kryszkiewicz, Robert Bembenik, Lukasz Skonieczny, Henryk Rybiriski, Marzena Kryszkiewicz, and Marek Niezgodka (Eds.) Intelligent Tools for Building a Scientific Information Platform Advanced Architectures and Solutions

Bardziej szczegółowo

Ontologie, czyli o inteligentnych danych

Ontologie, czyli o inteligentnych danych 1 Ontologie, czyli o inteligentnych danych Bożena Deka Andrzej Tolarczyk PLAN 2 1. Korzenie filozoficzne 2. Ontologia w informatyce Ontologie a bazy danych Sieć Semantyczna Inteligentne dane 3. Zastosowania

Bardziej szczegółowo

Analiza Sieci Społecznych Pajek

Analiza Sieci Społecznych Pajek Analiza Sieci Społecznych Pajek Dominik Batorski Instytut Socjologii UW 25 marca 2005 1 Wprowadzenie Regularności we wzorach relacji często są nazywane strukturą. Analiza sieci społecznych jest zbiorem

Bardziej szczegółowo

Tomasz Grześ. Systemy zarządzania treścią

Tomasz Grześ. Systemy zarządzania treścią Tomasz Grześ Systemy zarządzania treścią Co to jest CMS? CMS (ang. Content Management System System Zarządzania Treścią) CMS definicje TREŚĆ Dowolny rodzaj informacji cyfrowej. Może to być np. tekst, obraz,

Bardziej szczegółowo

Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych

Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych Systemy organizacji wiedzy i ich rola w integracji zasobów europejskich bibliotek cyfrowych Adam Dudczak Poznańskie Centrum Superkomputerowo-Sieciowe (maneo@man.poznan.pl) I Konferencja Polskie Biblioteki

Bardziej szczegółowo

DMX DMX DMX DMX: CREATE MINING STRUCTURE. Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski

DMX DMX DMX DMX: CREATE MINING STRUCTURE. Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski DMX DMX DMX Data Mining Extensions jest językiem do tworzenia i działania na modelach eksploracji danych w Microsoft SQL Server Analysis Services SSAS. Za pomocą DMX można tworzyć strukturę nowych modeli

Bardziej szczegółowo

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie. SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:

Bardziej szczegółowo

Wyszukiwanie dokumentów WWW bazujące na słowach kluczowych

Wyszukiwanie dokumentów WWW bazujące na słowach kluczowych Eksploracja zasobów internetowych Wykład 3 Wyszukiwanie dokumentów WWW bazujące na słowach kluczowych mgr inż. Maciej Kopczyński Białystok 2014 Wstęp Wyszukiwanie dokumentów za pomocą słów kluczowych bazujące

Bardziej szczegółowo

KOLEKCJE - to typy masowe,zawierające pewną liczbę jednorodnych elementów

KOLEKCJE - to typy masowe,zawierające pewną liczbę jednorodnych elementów KOLEKCJE - to typy masowe,zawierające pewną liczbę jednorodnych elementów SQL3 wprowadza następujące kolekcje: zbiory ( SETS ) - zestaw elementów bez powtórzeń, kolejność nieistotna listy ( LISTS ) - zestaw

Bardziej szczegółowo

Publisher Panel jest podzielony na 3 działy, z których każdy oferuje zaawansowane narzędzia do prowadzenia czasopisma w systemie Index Copernicus:

Publisher Panel jest podzielony na 3 działy, z których każdy oferuje zaawansowane narzędzia do prowadzenia czasopisma w systemie Index Copernicus: 1. Co to jest Publisher Panel? Publishers Panel jest częścią międzynarodowego systemu Index Copernicus składającego się z kilku powiązanych ze sobą działów dotyczących literatury naukowej, naukowców, projektów

Bardziej szczegółowo

Architektury i protokoły dla budowania systemów wiedzy - zadania PCSS w projekcie SYNAT

Architektury i protokoły dla budowania systemów wiedzy - zadania PCSS w projekcie SYNAT Architektury i protokoły dla budowania systemów wiedzy - zadania PCSS w projekcie SYNAT A. Dudczak, C. Mazurek, T. Parkoła, J. Pukacki, M. Stroiński, M. Werla, J. Węglarz Poznańskie Centrum Superkomputerowo-Sieciowe

Bardziej szczegółowo

Systemy Wspomagania Decyzji

Systemy Wspomagania Decyzji Rodzaje danych oraz ich przetwarzanie Szkoła Główna Służby Pożarniczej Zakład Informatyki i Łączności January 29, 2014 1 Dane tabelaryczne 2 Dane tekstowe 3 Dane sensoryczne 4 Dane multimedialne 5 Podsumowanie

Bardziej szczegółowo

Wykład I. Wprowadzenie do baz danych

Wykład I. Wprowadzenie do baz danych Wykład I Wprowadzenie do baz danych Trochę historii Pierwsze znane użycie terminu baza danych miało miejsce w listopadzie w 1963 roku. W latach sześcdziesątych XX wieku został opracowany przez Charles

Bardziej szczegółowo

OLAP i hurtownie danych c.d.

OLAP i hurtownie danych c.d. OLAP i hurtownie danych c.d. Przypomnienie OLAP -narzędzia analizy danych Hurtownie danych -duże bazy danych zorientowane tematycznie, nieulotne, zmienne w czasie, wspierjące procesy podejmowania decyzji

Bardziej szczegółowo

Propozycja rozszerzenia składni zapytań programu Poliqarp o elementy statystyczne

Propozycja rozszerzenia składni zapytań programu Poliqarp o elementy statystyczne Propozycja rozszerzenia składni zapytań programu Poliqarp o elementy statystyczne Aleksander Buczyński 2006.06.26 Poliqarp - stan obecny Zwracane są kolejne konteksty wystąpień ciągów segmentów pasujących

Bardziej szczegółowo

Krok w stronę cyfrowej humanistyki infrastruktura IT dla badań humanistycznych

Krok w stronę cyfrowej humanistyki infrastruktura IT dla badań humanistycznych Krok w stronę cyfrowej humanistyki infrastruktura IT dla badań humanistycznych Adam Dudczak Poznańskie Centrum Superkomputerowo-Sieciowe maneo@man.poznan.pl Humanistyka cyfrowa The digital humanities is

Bardziej szczegółowo

Współczesna problematyka klasyfikacji Informatyki

Współczesna problematyka klasyfikacji Informatyki Współczesna problematyka klasyfikacji Informatyki Nazwa pojawiła się na przełomie lat 50-60-tych i przyjęła się na dobre w Europie Jedna z definicji (z Wikipedii): Informatyka dziedzina nauki i techniki

Bardziej szczegółowo

Ćwiczenie 12. Metody eksploracji danych

Ćwiczenie 12. Metody eksploracji danych Ćwiczenie 12. Metody eksploracji danych Modelowanie regresji (Regression modeling) 1. Zadanie regresji Modelowanie regresji jest metodą szacowania wartości ciągłej zmiennej celu. Do najczęściej stosowanych

Bardziej szczegółowo

Plan prezentacji 0 Wprowadzenie 0 Zastosowania 0 Przykładowe metody 0 Zagadnienia poboczne 0 Przyszłość 0 Podsumowanie 7 Jak powstaje wiedza? Dane Informacje Wiedza Zrozumienie 8 Przykład Teleskop Hubble

Bardziej szczegółowo

GML w praktyce geodezyjnej

GML w praktyce geodezyjnej GML w praktyce geodezyjnej Adam Iwaniak Kon-Dor s.c. Konferencja GML w praktyce, 12 kwietnia 2013, Warszawa SWING Rok 1995, standard de jure Wymiany danych pomiędzy bazami danych systemów informatycznych

Bardziej szczegółowo

Specjalnościowy Obowiązkowy Polski Semestr VI

Specjalnościowy Obowiązkowy Polski Semestr VI KARTA MODUŁU / KARTA PRZEDMIOTU Kod modułu Nazwa modułu Nazwa modułu w języku angieskim Obowiązuje od roku akademickiego 0/06 Z-ID-608a Anaiza danych niestrukturanych Unstructured Data Anaysis A. USYTUOWANIE

Bardziej szczegółowo

Transformacja wiedzy w budowie i eksploatacji maszyn

Transformacja wiedzy w budowie i eksploatacji maszyn Uniwersytet Technologiczno Przyrodniczy im. Jana i Jędrzeja Śniadeckich w Bydgoszczy Wydział Mechaniczny Transformacja wiedzy w budowie i eksploatacji maszyn Bogdan ŻÓŁTOWSKI W pracy przedstawiono proces

Bardziej szczegółowo

Spis treści. Dzień 1. I Wprowadzenie (wersja 0906) II Dostęp do danych bieżących specyfikacja OPC Data Access (wersja 0906) Kurs OPC S7

Spis treści. Dzień 1. I Wprowadzenie (wersja 0906) II Dostęp do danych bieżących specyfikacja OPC Data Access (wersja 0906) Kurs OPC S7 I Wprowadzenie (wersja 0906) Kurs OPC S7 Spis treści Dzień 1 I-3 O czym będziemy mówić? I-4 Typowe sytuacje I-5 Klasyczne podejście do komunikacji z urządzeniami automatyki I-6 Cechy podejścia dedykowanego

Bardziej szczegółowo

Bazy danych - wykład wstępny

Bazy danych - wykład wstępny Bazy danych - wykład wstępny Wykład: baza danych, modele, hierarchiczny, sieciowy, relacyjny, obiektowy, schemat logiczny, tabela, kwerenda, SQL, rekord, krotka, pole, atrybut, klucz podstawowy, relacja,

Bardziej szczegółowo

Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining

Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining 0LNRáDM0RU]\ Marek Wojciechowski Instytut Informatyki PP Eksploracja danych 2GNU\ZDQLHZ]RUFyZZGX*\FK

Bardziej szczegółowo

Customer Attribution Models. czyli o wykorzystaniu machine learning w domu mediowym.

Customer Attribution Models. czyli o wykorzystaniu machine learning w domu mediowym. Customer Attribution Models czyli o wykorzystaniu machine learning w domu mediowym. Proces decyzyjny MAILING SEO SEM DISPLAY RETARGETING PRZEGRANI??? ZWYCIĘZCA!!! Modelowanie atrybucja > Słowo klucz: wpływ

Bardziej szczegółowo

V Ogólnopolska Konferencja Naukowa ZARZĄDZANIE INFORMACJĄ W NAUCE

V Ogólnopolska Konferencja Naukowa ZARZĄDZANIE INFORMACJĄ W NAUCE V Ogólnopolska Konferencja Naukowa ZARZĄDZANIE INFORMACJĄ W NAUCE Katowice, 27 28 listopada 2014 Spis treści: 1. Informacje ogólne 2. Czasopisma w MathSciNet 3. Jednoznaczna identyfikacja autorów 4. System

Bardziej szczegółowo

Analiza korespondencji

Analiza korespondencji Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy

Bardziej szczegółowo

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu Podstawy baz danych PODSTAWY BAZ DANYCH 19. Perspektywy baz danych 1 Perspektywy baz danych Temporalna baza danych Temporalna baza danych - baza danych posiadająca informację o czasie wprowadzenia lub czasie ważności zawartych

Bardziej szczegółowo

Podstawowe pojęcia dotyczące relacyjnych baz danych. mgr inż. Krzysztof Szałajko

Podstawowe pojęcia dotyczące relacyjnych baz danych. mgr inż. Krzysztof Szałajko Podstawowe pojęcia dotyczące relacyjnych baz danych mgr inż. Krzysztof Szałajko Czym jest baza danych? Co rozumiemy przez dane? Czym jest system zarządzania bazą danych? 2 / 25 Baza danych Baza danych

Bardziej szczegółowo

Pobieranie i przetwarzanie treści stron WWW

Pobieranie i przetwarzanie treści stron WWW Eksploracja zasobów internetowych Wykład 2 Pobieranie i przetwarzanie treści stron WWW mgr inż. Maciej Kopczyński Białystok 2014 Wstęp Jedną z funkcji silników wyszukiwania danych, a właściwie ich modułów

Bardziej szczegółowo

Zarządzanie sieciami telekomunikacyjnymi

Zarządzanie sieciami telekomunikacyjnymi SNMP Protocol The Simple Network Management Protocol (SNMP) is an application layer protocol that facilitates the exchange of management information between network devices. It is part of the Transmission

Bardziej szczegółowo

Semantic Web Internet Semantyczny

Semantic Web Internet Semantyczny Semantic Web Internet Semantyczny Semantyczny Internet - Wizja (1/2) Pomysłodawca sieci WWW - Tim Berners-Lee, fizyk pracujący w CERN Jego wizja sieci o wiele bardziej ambitna niż istniejąca obecnie (syntaktyczna)

Bardziej szczegółowo

Architektura bezpieczeństwa informacji w ochronie zdrowia. Warszawa, 29 listopada 2011

Architektura bezpieczeństwa informacji w ochronie zdrowia. Warszawa, 29 listopada 2011 Architektura informacji w ochronie zdrowia Warszawa, 29 listopada 2011 Potrzeba Pomiędzy 17 a 19 kwietnia 2011 roku zostały wykradzione dane z 77 milionów kont Sony PlayStation Network. 2 tygodnie 25 milionów

Bardziej szczegółowo

Lingwistyczne podsumowania baz danych.inteligentne generowanie s

Lingwistyczne podsumowania baz danych.inteligentne generowanie s Lingwistyczne podsumowania baz danych. Inteligentne generowanie streszczeń Instytut Informatyki, Politechnika Łódzka Katowice, 29 stycznia 2010 r. Problematyka Bazy i hurtownie danych olbrzymia ilość liczb......

Bardziej szczegółowo

MAREK NIEZGÓDKA ICM, UNIWERSYTET WARSZAWSKI

MAREK NIEZGÓDKA ICM, UNIWERSYTET WARSZAWSKI SYNAT: UNIWERSALNA, OTWARTA, REPOZYTORYJNA PLATFORMA HOSTINGOWA I KOMUNIKACYJNA SIECIOWYCH ZASOBÓW WIEDZY DLA NAUKI, EDUKACJI I OTWARTEGO SPOŁECZEŃSTWA WIEDZY MAREK NIEZGÓDKA ICM, UNIWERSYTET WARSZAWSKI

Bardziej szczegółowo

Kraków, 14 marca 2013 r.

Kraków, 14 marca 2013 r. Scenariusze i trendy rozwojowe wybranych technologii społeczeństwa informacyjnego do roku 2025 Antoni Ligęza Perspektywy rozwoju systemów eksperckich do roku 2025 Kraków, 14 marca 2013 r. Dane informacja

Bardziej szczegółowo

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

CLARIN rozproszony system technologii językowych dla różnych języków europejskich CLARIN rozproszony system technologii językowych dla różnych języków europejskich Maciej Piasecki Politechnika Wrocławska Instytut Informatyki G4.19 Research Group maciej.piasecki@pwr.wroc.pl Projekt CLARIN

Bardziej szczegółowo

Nowoczesne narzędzia do ochrony informacji. Paweł Nogowicz

Nowoczesne narzędzia do ochrony informacji. Paweł Nogowicz Nowoczesne narzędzia do ochrony informacji Paweł Nogowicz Agenda Charakterystyka Budowa Funkcjonalność Demo 2 Produkt etrust Network Forensics Kontrola dostępu do zasobów etrust Network Forensics Zarządzanie

Bardziej szczegółowo

Hurtownie danych i przetwarzanie analityczne - projekt

Hurtownie danych i przetwarzanie analityczne - projekt Hurtownie danych i przetwarzanie analityczne - projekt Warunki zaliczenia projektu: 1. Za projekt można zdobyć maksymalnie 40 punktów. 2. Projekt należy regularnie konsultować z jego koordynatorem. 3.

Bardziej szczegółowo

Ćwiczenie 5. Metody eksploracji danych

Ćwiczenie 5. Metody eksploracji danych Ćwiczenie 5. Metody eksploracji danych Reguły asocjacyjne (association rules) Badaniem atrybutów lub cech, które są powiązane ze sobą, zajmuje się analiza podobieństw (ang. affinity analysis). Metody analizy

Bardziej szczegółowo

Podstawowe pakiety komputerowe wykorzystywane w zarządzaniu przedsiębiorstwem. dr Jakub Boratyński. pok. A38

Podstawowe pakiety komputerowe wykorzystywane w zarządzaniu przedsiębiorstwem. dr Jakub Boratyński. pok. A38 Podstawowe pakiety komputerowe wykorzystywane w zarządzaniu przedsiębiorstwem zajęcia 1 dr Jakub Boratyński pok. A38 Program zajęć Bazy danych jako podstawowy element systemów informatycznych wykorzystywanych

Bardziej szczegółowo

Baza danych. Modele danych

Baza danych. Modele danych Rola baz danych Systemy informatyczne stosowane w obsłudze działalności gospodarczej pełnią funkcję polegającą na gromadzeniu i przetwarzaniu danych. Typowe operacje wykonywane na danych w systemach ewidencyjno-sprawozdawczych

Bardziej szczegółowo

O pożytkach i metodzie uczelnianej analizy cytowań. Hanna Celoch, Biblioteka Politechniki Lubelskiej

O pożytkach i metodzie uczelnianej analizy cytowań. Hanna Celoch, Biblioteka Politechniki Lubelskiej Trzech uczonych, trzy bazy jeden bibliotekarz. O pożytkach i metodzie uczelnianej analizy cytowań Hanna Celoch, Biblioteka Politechniki Lubelskiej IX KRAJOWE FORUM INFORMACJI NAUKOWEJ I TECHNICZNEJ pod

Bardziej szczegółowo

Aneta Drabek. Informacja w świecie cyfrowym, Dąbrowa Górnicza, 7-8 marca 2013 r.

Aneta Drabek. Informacja w świecie cyfrowym, Dąbrowa Górnicza, 7-8 marca 2013 r. Aneta Drabek Informacja w świecie cyfrowym, Dąbrowa Górnicza, 7-8 marca 2013 r. Pełna nazwa bazy to Arianta Naukowe i Branżowe Polskie Czasopisma Elektroniczne. Adres: www.arianta.pl Arianta rejestruje

Bardziej szczegółowo

Wyk lad 8: Leniwe metody klasyfikacji

Wyk lad 8: Leniwe metody klasyfikacji Wyk lad 8: Leniwe metody Wydzia l MIM, Uniwersytet Warszawski Outline 1 2 lazy vs. eager learning lazy vs. eager learning Kiedy stosować leniwe techniki? Eager learning: Buduje globalna hipoteze Zaleta:

Bardziej szczegółowo

Metadane. Data Maining. - wykład VII. Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006

Metadane. Data Maining. - wykład VII. Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006 Metadane. Data Maining. - wykład VII Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006 Plan 1. Metadane 2. Jakość danych 3. Eksploracja danych (Data mining) 4. Sprawy róŝne

Bardziej szczegółowo

Hurtownie danych - przegląd technologii

Hurtownie danych - przegląd technologii Hurtownie danych - przegląd technologii Problematyka zasilania hurtowni danych - Oracle Data Integrator Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel

Bardziej szczegółowo

Instytut Automatyki i Inżynierii Informatycznej Politechniki Poznańskiej. Adam Meissner. Elementy uczenia maszynowego

Instytut Automatyki i Inżynierii Informatycznej Politechniki Poznańskiej. Adam Meissner. Elementy uczenia maszynowego Instytut Automatyki i Inżynierii Informatycznej Politechniki Poznańskiej Adam Meissner Adam.Meissner@put.poznan.pl http://www.man.poznan.pl/~ameis Elementy uczenia maszynowego Literatura [1] Bolc L., Zaremba

Bardziej szczegółowo

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja II

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja II Zespół TI Instytut Informatyki Uniwersytet Wrocławski ti@ii.uni.wroc.pl http://www.wsip.com.pl/serwisy/ti/ Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja II Rozkład wymagający

Bardziej szczegółowo

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja I

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja I Zespół TI Instytut Informatyki Uniwersytet Wrocławski ti@ii.uni.wroc.pl http://www.wsip.com.pl/serwisy/ti/ Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja I Rozkład zgodny

Bardziej szczegółowo

Hurtownie danych. Projektowanie hurtowni: modele wielowymiarowe. Modelowanie punktowe. Operacje OLAP na kostkach. http://zajecia.jakubw.

Hurtownie danych. Projektowanie hurtowni: modele wielowymiarowe. Modelowanie punktowe. Operacje OLAP na kostkach. http://zajecia.jakubw. Hurtownie danych Projektowanie hurtowni: modele wielowymiarowe. Modelowanie punktowe. Operacje OLAP na kostkach. http://zajecia.jakubw.pl/hur UZASADNIENIE BIZNESOWE Po co nam hurtownia danych? Jakie mogą

Bardziej szczegółowo

Hurtownia danych. Załącznik Nr 1 do SIWZ. Opis przedmiotu zamówienia. Lp. FUNKCJONALNOŚĆ/PARAMETRY WYMAGANE

Hurtownia danych. Załącznik Nr 1 do SIWZ. Opis przedmiotu zamówienia. Lp. FUNKCJONALNOŚĆ/PARAMETRY WYMAGANE Załącznik Nr 1 do SIWZ Opis przedmiotu zamówienia Lp. FUNKCJONALNOŚĆ/PARAMETRY WYMAGANE Hurtownia danych 1. Wielowymiarowa hurtownia danych oparta o model konstelacji faktów. 2. Brak ograniczenia na liczbę

Bardziej szczegółowo

Czytelnik w bibliotece cyfrowej

Czytelnik w bibliotece cyfrowej Czytelnik w bibliotece cyfrowej Adam Dudczak Poznańskie Centrum Superkomputerowo-Sieciowe IV Warsztaty Biblioteki Cyfrowe Poznań, 2007 Do czego służy Aplikacja Czytelnika? Udostępnianie zasobów cyfrowych

Bardziej szczegółowo

Kostki OLAP i język MDX

Kostki OLAP i język MDX Kostki OLAP i język MDX 24 kwietnia 2015 r. Opis pliku z zadaniami Wszystkie zadania na zajęciach będą przekazywane w postaci plików PDF sformatowanych jak ten. Będą się na nie składały różne rodzaje zadań,

Bardziej szczegółowo

Integracja systemu CAD/CAM Catia z bazą danych uchwytów obróbkowych MS Access za pomocą interfejsu API

Integracja systemu CAD/CAM Catia z bazą danych uchwytów obróbkowych MS Access za pomocą interfejsu API Dr inż. Janusz Pobożniak, pobozniak@mech.pk.edu.pl Instytut Technologii Maszyn i Automatyzacji produkcji Politechnika Krakowska, Wydział Mechaniczny Integracja systemu CAD/CAM Catia z bazą danych uchwytów

Bardziej szczegółowo

dlibra 3.0 Marcin Heliński

dlibra 3.0 Marcin Heliński dlibra 3.0 Marcin Heliński Plan prezentacji Wstęp Aplikacja Redaktora / Administratora Serwer Aplikacja Czytelnika Aktualizator Udostępnienie API NajwaŜniejsze w nowej wersji Ulepszenie interfejsu uŝytkownika

Bardziej szczegółowo

Algorytmy sztucznej inteligencji

Algorytmy sztucznej inteligencji Algorytmy sztucznej inteligencji Dynamiczne sieci neuronowe 1 Zapis macierzowy sieci neuronowych Poniżej omówione zostaną części składowe sieci neuronowych i metoda ich zapisu za pomocą macierzy. Obliczenia

Bardziej szczegółowo

Netsprint Search. Koncepcja

Netsprint Search. Koncepcja Netsprint Search Koncepcja Netsprint - fakty 10-letnie doświadczenie Pierwsza firma, która wprowadziła silnik wyszukiwawczy w Polsce Pierwszy polski zaawansowany system reklamy kontekstowej (XI 2005) Pierwsze

Bardziej szczegółowo

Bibliografia z BibTeX

Bibliografia z BibTeX Bibliografia z BibTeX Wikipedia + BWS 5 listopada 2014 Spis treści 1 BibTeX 2 2 Zasada działania 2 3 Struktura plików bazy bibliograficznej 2 4 Przykłady 4 1 1 BibTeX BibTEX (zapisywane również jako BibTeX)

Bardziej szczegółowo

Wirtualne Laboratorium Mechaniki eksperyment na odległość, współpraca badawcza i gromadzenie wiedzy

Wirtualne Laboratorium Mechaniki eksperyment na odległość, współpraca badawcza i gromadzenie wiedzy Wirtualne Laboratorium Mechaniki eksperyment na odległość, współpraca badawcza i gromadzenie wiedzy Łukasz Maciejewski, Wojciech Myszka Instytut Materiałoznawstwa i Mechaniki Technicznej Politechniki Wrocławskiej

Bardziej szczegółowo

Adam Cankudis IFP UAM

Adam Cankudis IFP UAM W s t ę p d o r e l a c y j n y c h b a z d a n y c h Adam Cankudis IFP UAM B i b l i o g r a f i a T. Morzy i in., Bazy danych, [w:] Studia Informatyczne, Pierwszy stopie ń, http://wazniak.mimuw.edu.pl/

Bardziej szczegółowo

Analiza Sieci Społecznych Pajek

Analiza Sieci Społecznych Pajek Analiza Sieci Społecznych Pajek Dominik Batorski Instytut Socjologii UW 3 czerwca 2016 1 Wprowadzenie Regularności we wzorach relacji często są nazywane strukturą. Analiza sieci społecznych jest zbiorem

Bardziej szczegółowo

AN EVOLUTION PROCESS FOR SERVICE- ORIENTED SYSTEMS

AN EVOLUTION PROCESS FOR SERVICE- ORIENTED SYSTEMS AN EVOLUTION PROCESS FOR SERVICE- ORIENTED SYSTEMS Andrzej Zalewski, Marcin Szlenk, Szymon Kijas a.zalewski@elka.pw.edu.pl s.kijas@elka.pw.edu.pl Praca naukowa finansowana ze środków budżetowych na naukę

Bardziej szczegółowo

Spis treści. Część I Wprowadzenie do pakietu oprogramowania Analysis Services

Spis treści. Część I Wprowadzenie do pakietu oprogramowania Analysis Services Spis treści Wstęp... ix Odkąd najlepiej rozpocząć lekturę?... ix Informacja dotycząca towarzyszącej ksiąŝce płyty CD-ROM... xi Wymagania systemowe... xi Instalowanie i uŝywanie plików przykładowych...

Bardziej szczegółowo

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów Eksploracja danych Piotr Lipiński Informacje ogólne Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów UWAGA: prezentacja to nie

Bardziej szczegółowo

Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych. Regresja logistyczna i jej zastosowanie

Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych. Regresja logistyczna i jej zastosowanie Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych Regresja logistyczna i jej zastosowanie Model regresji logistycznej jest budowany za pomocą klasy Logistic programu WEKA. Jako danych wejściowych

Bardziej szczegółowo

Przestrzenne bazy danych. Definicja i cechy przestrzennych baz danych

Przestrzenne bazy danych. Definicja i cechy przestrzennych baz danych Przestrzenne bazy danych Definicja i cechy przestrzennych baz danych Zakres wykładów Wstęp do przestrzennych baz danych Typy geometryczne Funkcje geometryczne Modelowanie danych Metody rozwiązywania problemów

Bardziej szczegółowo

Projekt DIR jako przykład praktycznej realizacji idei Open Access. Marek Niezgódka, Alek Tarkowski ICM UW marekn@icm.edu.pl altar@icm.edu.

Projekt DIR jako przykład praktycznej realizacji idei Open Access. Marek Niezgódka, Alek Tarkowski ICM UW marekn@icm.edu.pl altar@icm.edu. Projekt DIR jako przykład praktycznej realizacji idei Open Access Marek Niezgódka, Alek Tarkowski ICM UW marekn@icm.edu.pl altar@icm.edu.pl Konferencja EBIB, Toruń, 7 grudnia 2007 Rozwój napędzany przez

Bardziej szczegółowo

Oracle Label Security

Oracle Label Security VIII Seminarium PLOUG Warszawa Kwiecieñ 2003 Oracle Label Security Pawe³ Chomicz (chomicz@altkom.com.pl) Altkom Akademia S.A. Oracle Label Security 31 1. Wstęp Artykuł został opracowany na podstawie materiału

Bardziej szczegółowo

Porównanie systemów zarządzania relacyjnymi bazami danych

Porównanie systemów zarządzania relacyjnymi bazami danych Jarosław Gołębiowski 12615 08-07-2013 Porównanie systemów zarządzania relacyjnymi bazami danych Podstawowa terminologia związana z tematem systemów zarządzania bazami danych Baza danych jest to zbiór danych

Bardziej szczegółowo

Dr Michał Tanaś(http://www.amu.edu.pl/~mtanas)

Dr Michał Tanaś(http://www.amu.edu.pl/~mtanas) Dr Michał Tanaś(http://www.amu.edu.pl/~mtanas) Bazy danych podstawowe pojęcia Baza danych jest to zbiór danych zorganizowany zgodnie ze ściśle określonym modelem danych. Model danych to zbiór ścisłych

Bardziej szczegółowo

Interakcja i komunikacja a strony biblioteczne

Interakcja i komunikacja a strony biblioteczne Interakcja i komunikacja a strony biblioteczne 01 Netia Agenda 2 1 user experience, użyteczność, AI konwencja w projekcie funkcjonalnym 2 3 model komunikacyjny jak sięgnąć po użytkownika? 4 5 proces twórczy

Bardziej szczegółowo

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych AUTOMATYKA INFORMATYKA Technologie Informacyjne Sieć Semantyczna Przetwarzanie Języka Naturalnego Internet Edytor Serii: Zdzisław

Bardziej szczegółowo

SZKOLENIA SAS. ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie

SZKOLENIA SAS. ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie SZKOLENIA SAS ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie DANIEL KUBIK ŁUKASZ LESZEWSKI ROLE ROLE UŻYTKOWNIKÓW MODUŁU

Bardziej szczegółowo

Repozytoria uczelniane i ich rola w projekcie SYNAT

Repozytoria uczelniane i ich rola w projekcie SYNAT Jak Cię widzą, tak Cię piszą Repozytoria uczelniane i ich rola w projekcie SYNAT Warszawa Maj 2013 Plan prezentacji 1. Jak Cię widzą 2. Usytuowanie repozytoriów uczelnianych w systemie Synat 3. Czy tylko

Bardziej szczegółowo

extensible Markup Language, cz. 1 Marcin Gryszkalis, mg@fork.pl

extensible Markup Language, cz. 1 Marcin Gryszkalis, mg@fork.pl extensible Markup Language, cz. 1 Marcin Gryszkalis, mg@fork.pl Plan wykładu Wprowadzenie: historia rozwoju technik znakowania tekstu Motywacje dla prac nad XML-em Podstawowe koncepcje XML-a XML jako metajęzyk

Bardziej szczegółowo

Pojęcie systemu informacyjnego i informatycznego

Pojęcie systemu informacyjnego i informatycznego BAZY DANYCH Pojęcie systemu informacyjnego i informatycznego DANE wszelkie liczby, fakty, pojęcia zarejestrowane w celu uzyskania wiedzy o realnym świecie. INFORMACJA - znaczenie przypisywane danym. SYSTEM

Bardziej szczegółowo

NoSQL & relax with CouchDB

NoSQL & relax with CouchDB NoSQL & relax with PyWaw #23 8 kwiecień 2013 Agenda 1 NoSQL - nierelacyjne systemy baz danych Wprowadzenie do NoSQL Rodzaje i porównanie baz NoSQL Polyglot persistence 2 Projekt w CERN wykorzystujacy 3

Bardziej szczegółowo

Wprowadzenie do technologii informacyjnej.

Wprowadzenie do technologii informacyjnej. Wprowadzenie do technologii informacyjnej. Data mining i jego biznesowe zastosowania dr Tomasz Jach Definicje Eksploracja danych polega na torturowaniu danych tak długo, aż zaczną zeznawać. Eksploracja

Bardziej szczegółowo