WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu

Wielkość: px
Rozpocząć pokaz od strony:

Download "WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu"

Transkrypt

1 WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu Maciej Piasecki, Tomasz Walkowiak, Maciej Eder Politechnika Wroc awska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Maciej.Piasecki@pwr.edu.pl Katedra Informatyki Technicznej Tomasz.Walkowiak@pwr.edu.pl IJP PAN / UP Kraków maciejeder@gmail.com

2 Stylometria Stylometria analiza tekstów pod kątem cech charakterystycznych dla autora, okresu powstania, gatunku, stylu, miejsca pochodzenia tekstu, języka źródłowego, tłumacza, itd.. w ujęciu obliczeniowym: analiza statyczna cech tekstów, które mogą być charakterystyczne dla: autora, okresu powstania itd. pojedyncze wystąpienia niosą mało informacji, ale kombinacja ich częstości występowania jest znacząca Typy cech formy wyrazowe (słowa), cechy form: morfologiczne i gramatyczne, kolokacje, własności składniowe: frazy lub zdania

3 Stylometria - zastosowania Atrybucja autorska Okres powstania tekstu podobieństwo do tekstów z określonych okresów Analiza stylu potwierdzenie porównanie tekstu z innymi tekstami danego autora ustalenie autorstwa dla zbioru znanych autorów i przykładowych tekstów ustalenie autorstwa innych tekstów wykrycie autorów podzielenie zbioru tekstów wg autorów znane style (przykładowe teksty) vs ustalenie styli Rozpoznanie gatunku literackiego Miejsce powstania tekstu Ustalenie cech autora, np. płeć, język rodzimy Analiza tłumaczeń: język pierwotny, język rodzimy tłumacza

4 Stylometria proces analizy Przygotowanie korpusu tekstów Przetwarzanie językowe i wydobycie wektorów cech Przetwarzanie danych Analiza danych: grupowanie lub klasyfikacja na podstawie cech wektorów Analiza wyników i wizualizacja

5 Stylometria proces analizy Przygotowanie korpusu tekstów zgromadzenie dokumentów o znanych/nieznanych własnościach wydobycie czystego tekstu z dokumentów programy rozpoznające różne formaty problem cech zakłócających np. adresy internetowe, `szlaczki interpunkcyjne, stopki/nagłówki, przeniesienia wyrazów, metadane od redakcji itd. opatrzenie dokumentów metadanymi w nazwie pliku poprzez rekord metadanych, np. CMDI

6 Stylometria - przykład Grupowanie 35 fragmentów książek za pomocą WebSty z wizualizacją z programu Stylo (Eder i Rybicki)

7 Stylo przykład systemu do analizy stylometrycznej System opracowany przez Macieja Edera (Uniwersytet Pedagogiczny w Krakowie, Instytut Języka Polskiego PAN) Biblioteka (zestaw funkcji) dla środowiska R Darmowa i na licncji open-source (GPL) Zaopatrzona w interfejs graficzny Wyposażona w szereg metod nadzorowanych i nienadzorowanych Prosta w obsłudze, ale nie banalnie prosta

8 WebSty otwarty webowy system stylometryczny Idea: aplikacja webowa nie wymagająca instalowania wyposażona w narzędzia do analizy tekstu umożliwiające zdefiniowanie bogatego zestawu cech w połączeniu z dostępem do wielu narzędzi do analizy danych przetwarzania cech, obliczanie podobieństwa, wykrywanie grup, wizualizacji i analizy wyników Zmniejszenie barier technologicznej i wiedzy dla użytkowników w dostępie do narzędzi stylometrycznych

9 WebSty założenia Aplikacja uruchamiana przez dowolną przeglądarkę cechy opisujące tekst mogą dotyczyć dowolnego poziomu analizy języka ograniczeniem są dostępne narzędzia dla języka polskiego analizowane mogą być zarówno dokumenty jak i fragmenty tekstu Grupowanie Klasyfikacja oparta na maszynowym uczeniu się Wizualizacja wyników Wydobywanie cech charakterystycznych dla grup Wszystkie moduły przetwarzające oparte o zestaw otwartych narzędzi. Możliwe podłączanie dalszych narzędzi.

10 Schemat systemu 1. Załadowanie korpusu przetwarzanie cech, np. transformacja liczba grup Wstępne przetwarzanie 5. z różnych źródeł automatyczne uruchomienie sekwencji narzędzi językowych Obliczenie wartości cech zliczenie statystyk wystąpienia Filtrowanie i/lub transformacja cech, np. Wybór cech opisowych Określenie parametrów przetwarzania Grupowanie Identyfikacja cech charakterystycznych 9. odsianie zbyt rzadkich/częstych cech ważenie cech wyznaczenie miar podobieństwa/odległości między tekstami grupa vs pozostałe Prezentacja wyników dane liczbowe Wizualizacje skalowanie wielowymiarowe

11 Przygotowanie i załadowanie korpusu Opisanie plików z tekstami Umieszczenie Bezpośrednie załadowanie plików do aplikacji automatyczna konwersja do tekstu z różnych formatów ograniczona liczba, ograniczona ilość danych Wybór korpusu z repozytorium DSpace CLARIN-PL CTJ rtf, doc, docx, odt, xlslx, pdf (Uwaga: nie czyści z cech zakłócających!) dowolny rozmiar, ale czas przetwarzania zależy od rozmiaru! automatyczna Korpus spakowany do pliku Zip z adresu w sieci j.w. ale możliwość załadowania własnych danych, np. z dysku sieciowego

12 Załadowanie plików 12

13 Załadowanie plików Korpus z repozytorium Dspace CTJ Korpus spakowany z dysku sieciowego 13

14 Cechy dla języka polskiego Założenia Poziomy analizy języka możliwe do identyfikacji na odpowiednim poziomie dokładności możliwie mało czułe na znaczenie tekstu morfologiczny morfo-syntaktyczny semantyki leksykalnej Wykorzystywane narzędzia językowe CLARIN-PL program do segmentacji tekstu i analizy morfologicznej MACA tager morfosyntaktyczny - WCFRT2 program do rozpoznawania nazw własnych - Liner2

15 Cechy morfologiczne i morfosyntaktyczne Formy wyrazowe dowolne z tekstu semantyczne powiązania wg listy najczęstszych w: Znaki interpunkcyjne danym korpusie skuteczne do grupowanie, lub języku wyniki porównywalne z innymi korpusami wybrane duży szum z niejęzykowego użycia Lematy podstawowe formy morfologiczne zmniejszają sztuczną różnorodność wyrazów wyznaczane z pomocą tagera morfosyntaktycznego wg listy najczęstszych - podobnie jak dla form wyrazowych

16 Cechy morfologiczne i morfosyntaktyczne Klasy gramatyczne zgodnie z definicją w Narodowym Korpusie Języka Polskiego klas gramatycznych, np. wyznaczane przez tager morfosyntaktyczny WCRFT2 niektóre klasy gramatyczne są często wynikiem błędów tagera dla nieznanych słów, np. burkinostki, wykrzykniki, formy obce Części mowy pseudoimiesłowy (preat), formy nieprzeszłe (fin), przymiotniki przyprzymiotnikowe (adja) klasy gramatyczne pogrupowane wg naturalnych kryteriów Kombinacje Klasa gramatyczna wartość kategorii gramatycznych np. forma nieprzeszła osoba 1 lub 2 Wskazuje na bezpośredni styl pisania, np. list

17 Przykład cech Może to czysty hedonizm, ale wyznaję teorię, że potrzeby należy zaspokajać. Lematy: może:1, to:1, czysty:1, hedonizm:1,, :2, ale:1, wyznawać: 1 potrzeba:1 Klasy gramatyczne: qub:1, conj:2, adj:1, subst:3, fin:2, comp:1, inf:1 Sekwencje 2 lub 3 elementowe ciągłe sekwencje wystąpień cech w tekście lematów (lub form wyrazowych) klas w pewnym sensie sygnalizują kolokacje Problemem jest niska częstość konieczność filtrowania gramatycznych przybliżają do pewnego stopnia konstrukcje składniowe

18 Wybór cech 18

19 Filtrowanie Usuwanie cech rzadkich minimalna liczba wystąpień cechy w korpusie minimalna liczba dokumentów (fragmentów), w których wystąpiła cecha cechy bardzo rzadkie powodują często przypadkowe powiązania wartość zależy od wielkości korpusu, ale min. 20 jest rozsądne cecha może być częsta, ale tylko w niektórych dokumentach min. 5 jest dość typowe zależne od wielkości korpusu Inne możliwości (niedostępne jeszcze z aplikacji) usuwanie wybranych wartości cech, np. sekwencji dwóch burkinostek usuwanie cech o małych wartościach po transformacji

20 Transformacja Ważenie cech matematyczne przekształcenie wartości, które ma na celu uwypuklenie istotnych różnic, a zniwelowanie nieznaczących schemat: (wartość cechy, opis dokumentu/korpusu) -> nowa wartość cechy Typy metod ważenia heurystyczne algorytm, który nie ma podstaw formalnych oparte na miarach istotności ze statystyki matematycznej oparte na teorii informacji

21 Ważenie cech Metody heurystyczne tf znormalizowana częstość częstość cechy w dokumencie podzielona przez najwyższą częstość cechy daje zaskakująco dobre wyniki dla częstych słów (lematów) z ograniczonej listy tf.idf technika z wyszukiwania informacji czynnik idf promuje cechy, które występują w ograniczonej liczbie dokumentów Nie działa dla cech częstych np. klas gramatycznych występują wszędzie, więc idf=0 Normalize normalizacja, czyli sprowadzenie wartości cech do takich wartości, że cały wektor ma długość jeden zmniejsza wpływ długości tekstu na jego opis

22 Ważenie cech Metody statystyczne tscore test istotności statystycznej współwystąpienie cech chi2 test powiązania dwóch zmiennych losowych ma tendencję do promowania częstych cech często stosowany, bardziej zrównoważony niż tscore Miary oparte na teorii informacji MI Mutual Information (pol. miara informacji wzajemnej) określa ile możemy dowiedzieć się o wystąpieniach jednej zmiennej losowej (np. słowo w dokumencie) na podstawie wystąpień innej zmiennej losowej, np. konkretna cecha wartości dodatnie: cecha wnosi istotną informację mi simple inny wariant obliczania, tylko pary, a nie cały korpus

23 Transformacja przestrzeni Transformacja przestrzeni wektorowej wektor dla każdego dokumentu zostaje znacząco zmniejszony z N cech na M cech, Cel zredukowanie przypadkowości szumów uwypuklenie podobieństw i zmniejszenie przypadkowych podobieństw niebezpieczeństwa np. z do 100 Zbytnie uogólnienie/uśrednienie Metody Singular Value Decomposition (Latent Semantic Analysis) Random Projection

24 Transformacja i filtrowanie przykład Różne metody oceny istotności cechy dla dokumentu/próbki Łączenie cech różnego typu np. częstości lematów i klas gramatycznych Przykład procesu przetwarzania miara tf.idf obliczenie częstości występowania lematów odrzucenie cech-lematów występujących rzadziej niż n=10 normalizacja częstości lematu a, tf(a) = częstość(a) maksymalną częstości w danym dokumencie 4. ważenie idf(a)= ln( liczba dokumentów dokumenty(a) )

25 Podobieństwo dokumentów Reprezentacja dokumentów Obliczenie podobieństwa D1: [ v11, v12, v13,, v1m ] D2: [ v21, v22, v23,, v2m ] wektory wartości cech dla D1 i D2 zostają porównane ze sobą Metody miary odległości heurystyczne geometryczne

26 Podobieństwo dokumentów Metody oparte na mierze odległości Odległość Manhattan Odległość Euklidesowa suma różnic między wartościami cech, ważna jest każda cecha z osobna w wielowymiarowej przestrzeni, wartości cech bardzo wpływają na miarę Geometryczne miara kosinusowa (podobieństwa) kosinus kąta między wektorami, ważny jest kierunek wektora układ cech, a nie ich poszczególne wartości prosta, ale bardzo dobra w wielu zastosowaniach

27 Podobieństwo dokumentów Miary heurystyczne Dice Jaccard mierzy na ile oba dokumentów potrafią opisać się wzajemnie poprzez swoje cechy; miara może być ukierunkowana na określony kierunek porównania Delta Stosunek masy cech wspólnych do masy cech specyficznych dla obu dokumentów SHD (Piasecki, z systemu SuperMatrix) stosunek masy cech wspólnych do wszystkich, obrazuje istotność części wspólnej miara odległości, suma różnic znormalizowanych statystycznie cech Delta Edera zmodyfikowana miara Delta

28 Opcje filtrowania, transformacji, podobieństwa i grupowania

29 Grupowanie dokumentów Grupowanie pakiet Cluto uniwersalny system do grupowania danych metoda aglomeracyjno-podziałowa Parametry zaczyna od łączenia najbardziej do siebie podobnych elementów i grup później dzieli cały zbiór na podzbiory o dużym średnim podobieństwie pomiędzy dokumentami Liczba grup na etapie podziału liczba grup widocznych w danych Ukryte parametry wybór metody Predefiniowane ustawienia (przygotowane wcześniej) wybór określonych zespołów cech, np. do analizy autorstwa brakuje jeszcze wyboru parametrów przetwarzania, np. filtrowania, transformacji, itd..

30 Opcje grupowania 30

31 Prezentacja wyników Dane z WebSty: Dla każdego tekstu (pliku): Plik wejściowy Ew. pliki po podziale Przynależność do grupy id grupy (wektor: Nx1) Dendrogram hierarchia drzewa (drzewo binarne) Podobieństwo między tekstami (macierz: NxN liczb 1-0) Odległość między tekstami (macierz: NxN liczb 0-+ ) Formaty: JSON, XLSX

32 Prezentacja wyników Warsztaty CLARINPL Łódź 3-4 II 2017 CLARIN-PL Metody wizualizacji w przeglądarce: Grupowanie: kolory, id grupy (liczba całkowita) dendrogram: rysunek, interaktywne drzewo, wykres kołowy Podobieństwo (relacja tekst-tekst): mapa-ciepła, wykres radarowy

33 Prezentacja wyników drzewo interaktywne 33

34 Prezentacja wyników wykres kołowy

35 Prezentacja wyników mapa ciepła 35

36 Prezentacja wyników wykres radarowy 36

37 Prezentacja wyników Metody wizualizacji w przeglądarce: Teksty jako punkty w 2D, 3D: skalowanie wielowymiarowe (MDS - Multidimensional scaling) metryczne zachowanie odległości niemetryczne zachowanie porządku w odległościach t-distributed Stochastic Neighbor Embedding (TSNE) zachowanie podobieństwa miara Kullback-Leibler nieliniowa redukcja wielowymiarowości Spectral Embedding (Laplacian Eigenmaps) zachowanie lokalnych informacji graf łączący sąsiednie punkty (podobne teksty)

38 Skalowanie wielowymiarowe 38

39 Skalowanie wielowymiarowe 3D 39

40 Architektura rozwiązania Problemy: Różne środowiska programistyczne: Java, C++, Python, R Duże modele Długie czasy przetwarzania Udostępnianie jako aplikacja webowa Język modelowania (LPMN): urlzip( any2txt wcrft2 fextor({"features":"base"}) dir featfilt({"similarity":"jaccard }) cluto({"no_clusters":3}) 40

41 Schemat potoków przetwarzania Any2txt WCRFT2 Liner2 Fextor Any2txt WCRFT2 Liner2 Fextor Document (doc) FeatFilt Cluto Document (docx) Wynik... Any2txt WCRFT2 Liner2 Fextor Document (pdf) FeatSel Wynik z Cluto Wynik MDS Wynik z Cluto Wynik SubFeatSel

42 Architektura rozwiązania Samba REST NLPREST2 RabbitMQ Wydajność Worker 3 (WCRFT2) Worker 2 (fextor) Worker n (featfilt) LPMN engine Data base Worker 1 (Any2txt) przetwarzanie asynch. skalowanie synchronizacja po zadaniu zew. baza danych LPMN Engine Wykonanie LPMN model asynchroniczny => 0.01 procesora RabbitMQ 42

43 Techniki użycia Aplikacja webowa Korpusy z różnych źródeł API programistyczne Własny kod: Java, Python, R Aplikacja wysyła korpus (plik zip) i np. stop listę Uruchamia wybrany tor przetwarzania filezip(id_pliku) any2txt wcrft2 fextor({"features":"base"}) dir output(korpus_ccl) featfilt({"similarity":"jaccard }) output(dane_podob) cluto({"no_clusters":3}) makezip Załadowanie wyników na lokalny komputer Można powtórzyć przetwarzanie od wybranego miejsca file(id_dane_podob) cluto({"no_clusters":15}) makezip Wysłanie korpusu do CTJ CLARIN-PL

44 WebStyEn - nie tylko język polski Język angielski - z wykorzystaniem spacy

45 WebSty: wydobywanie cech Cel Schematy przetwarzania Wydobycie cech charakterystycznych dla danej grupy lub dokumentu (planowane) porównywanie korpusów Grupa vs pozostałe grupy razem Rozkład cech względem grup Metody Narzędzia: Weka, scipy, scikit-learn Grupy metod Weka (miary informacyjne) Testy statystyczne Drzewa losowe Eliminacja cech i algorytmy supervised

46 Selekcja cech Narzędzia: Weka, scipy, scikit-learn Grupy metod Weka (miary informacyjne) Testy statystyczne Drzewa losowe Eliminacja cech i algorytmy supervised 46

47 WebSty: interfejs do cech

48 Przykład cech Przetwarzanie: WebSty, korpusie 1000 klasycznych dzieł, cechy leksykalne, interpunkcja, bigramy; ważenie PMI, selekcja Mann-Whitney Kraszewski_syn_jazdona_1880 Kraszewski_krakow-za-loktka_1880 Kraszewski_pogrobek_1880 Kraszewski_kunigas_1882 Kraszewski_boleszczyce_1877 Kraszewski_stara-basn-tom-III_1876 Kraszewski_braciazmartwychwstancy_1876 Kraszewski_banita_1885 Kraszewski_strzemienczyk_1883 Kraszewski_stara-basn-tom-I_1876 Kraszewski_bialy-ksiaze_1882 Kraszewski_jelita_1881 Kraszewski_caprea-i-roma_1860 Kraszewski_stara-basn-tom-II_1876 Stryjkowski_stryjkowski_kronika-polskalitewska-zmudzka-i-wszystkiej-rusi_1846 bigrams:inf_imps bigrams:inf_praet bigrams:ppron3_pcon bigrams:ppas_pcon bigrams:imps_interp bigrams:ppron3_pant bigrams:pant_interp lex_classes:imps_count bigrams:subst_pant bigrams:interj_inf base:wszyscy bigrams:siebie_pcon base:on base:choć base:gdy bigrams:praet_pant bigrams:ppron3_imps bigrams:adj_pant bigrams:pant_pact

49 Dziękuję bardzo za uwagę

50 WebSty: ćwiczenia WebSty: Mały korpus: 2 autorów, 5 nowel 3. Testy na predefiniowanych ustawieniach 4. analiza całych tekstów: cechy, metody, wizualizacja Analiza z podziałem na grupy, j.w. oraz dodatkowo analiza istotności cech 35 książek, rozszerzona analiza autorstwa, różne metody grupowania, wykrycie cech istotnych Mały korpus 50 książek (podkorpus) korpus: należy wybrać dowolną próbkę tekstów do 31 tekstów przetestować WebSty na różnych ustawieniach

WebSty otwarty webowy system do analiz stylometrycznych

WebSty otwarty webowy system do analiz stylometrycznych WebSty otwarty webowy system do analiz stylometrycznych Maciej Piasecki, Tomasz Walkowiak, Maciej Eder Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 maciej.piasecki@pwr.edu.pl

Bardziej szczegółowo

WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu

WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu Maciej Piasecki, Tomasz Walkowiak, Maciej Eder Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Maciej.Piasecki@pwr.edu.pl

Bardziej szczegółowo

WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu

WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu Maciej Piasecki, Tomasz Walkowiak, Maciej Eder Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Maciej.Piasecki@pwr.edu.pl

Bardziej szczegółowo

WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu

WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu WebSty - otwarty sieciowy system do analizy stylometrycznej tekstu Maciej Piasecki, Tomasz Walkowiak, Maciej Eder Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Maciej.Piasecki@pwr.edu.pl

Bardziej szczegółowo

WebSty - otwarty sieciowy system do analizy stylometrycznej i semantycznej tekstów

WebSty - otwarty sieciowy system do analizy stylometrycznej i semantycznej tekstów IJP PAN / UP Kraków maciejeder@gmail.com WebSty - otwarty sieciowy system do analizy stylometrycznej i semantycznej tekstów ws.clarin-pl.eu/websty.shtml Maciej Piasecki, Tomasz Walkowiak, Maciej Eder Politechnika

Bardziej szczegółowo

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2

Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2 Ekstrakcja informacji oraz stylometria na usługach psychologii Część 2 ws.clarin-pl.eu/websty.shtml Tomasz Walkowiak, Maciej Piasecki Politechnika Wrocławska Grupa Naukowa G4.19 Katedra Inteligencji Obliczeniowej

Bardziej szczegółowo

Centrum Technologii Językowych: repozytorium zasobów językowych i podstawowe usługi

Centrum Technologii Językowych: repozytorium zasobów językowych i podstawowe usługi CLARIN-PL Centrum Technologii Językowych: repozytorium zasobów językowych i podstawowe usługi Marcin Pol, Tomasz Walkowiak Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19

Bardziej szczegółowo

Repozytorium Centrum Technologii Językowych: deponowanie i upowszechnianie zasobów i narzędzi językowych, gromadzenie korpusów tekstowych

Repozytorium Centrum Technologii Językowych: deponowanie i upowszechnianie zasobów i narzędzi językowych, gromadzenie korpusów tekstowych CLARIN-PL Repozytorium Centrum Technologii Językowych: deponowanie i upowszechnianie zasobów i narzędzi językowych, gromadzenie korpusów tekstowych Marcin Pol, Tomasz Walkowiak, Marcin Oleksy Politechnika

Bardziej szczegółowo

Centrum Technologii Językowych CLARIN- PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego

Centrum Technologii Językowych CLARIN- PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego Centrum Technologii Językowych CLARIN- PL: deponowanie i upowszechnianie zasobów oraz narzędzi językowych dla języka polskiego Maciej Piasecki, Tomasz Walkowiak Politechnika ska Katedra Inteligencji Obliczeniowej

Bardziej szczegółowo

System do klasyfikacji tekstu i analizy stylometrycznej

System do klasyfikacji tekstu i analizy stylometrycznej System do klasyfikacji tekstu i analizy stylometrycznej Maciej Eder, Maciej Piasecki IJP PAN / UP Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 maciejeder@gmail.com maciej.piasecki@pwr.edu.pl

Bardziej szczegółowo

Narzędzia do automatycznego wydobywania kolokacji

Narzędzia do automatycznego wydobywania kolokacji Narzędzia do automatycznego wydobywania kolokacji Jan Kocoń, Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra Inteligencji Obliczeniowej marek.maziarz@pwr.edu.pl

Bardziej szczegółowo

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra

Bardziej szczegółowo

Narzędzia do automatycznego wydobywania kolokacji

Narzędzia do automatycznego wydobywania kolokacji Narzędzia do automatycznego wydobywania kolokacji Jan Kocoń, Agnieszka Dziob, Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra Inteligencji Obliczeniowej marek.maziarz@pwr.edu.pl

Bardziej szczegółowo

CLARIN rozproszony system technologii językowych dla różnych języków europejskich

CLARIN rozproszony system technologii językowych dla różnych języków europejskich CLARIN rozproszony system technologii językowych dla różnych języków europejskich Maciej Piasecki Politechnika Wrocławska Instytut Informatyki G4.19 Research Group maciej.piasecki@pwr.wroc.pl Projekt CLARIN

Bardziej szczegółowo

Program warsztatów CLARIN-PL

Program warsztatów CLARIN-PL W ramach Letniej Szkoły Humanistyki Cyfrowej odbędzie się III cykl wykładów i warsztatów CLARIN-PL w praktyce badawczej. Narzędzia cyfrowe do analizy języka w naukach humanistycznych i społecznych 17-19

Bardziej szczegółowo

AUTOMATYKA INFORMATYKA

AUTOMATYKA INFORMATYKA AUTOMATYKA INFORMATYKA Technologie Informacyjne Sieć Semantyczna Przetwarzanie Języka Naturalnego Internet Edytor Serii: Zdzisław Kowalczuk Inteligentne wydobywanie informacji z internetowych serwisów

Bardziej szczegółowo

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur

Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur Narzędzia do automatycznej analizy semantycznej tekstu na poziomach: leksykalnym i struktur Maciej Piasecki, Paweł Kędzia Politechnika ska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Plan prezentacji

Bardziej szczegółowo

Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów

Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów Analiza listów pożegnalnych w oparciu o metody lingwistyki informatycznej i klasyfikacji semantycznej tekstów Maciej Piasecki, Jan Kocoń Politechnika Wrocławska Katedra InteligencjiObliczeniowej Grupa

Bardziej szczegółowo

Mapa Literacka analiza odniesień geograficznych w tekstach literackich

Mapa Literacka analiza odniesień geograficznych w tekstach literackich CLARIN-PL Mapa Literacka analiza odniesień geograficznych w tekstach literackich Michał Marcińczuk Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 michal.marcinczuk@pwr.edu.pl

Bardziej szczegółowo

CLARIN infrastruktura naukowa technologii językowych

CLARIN infrastruktura naukowa technologii językowych CLARIN infrastruktura naukowa technologii językowych Maciej Piasecki Politechnika ska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 maciej.piasecki@pwr.edu.pl Przykład: analiza pojęcia Problem:

Bardziej szczegółowo

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego

Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego Korpusomat narzędzie do tworzenia przeszukiwalnych korpusów języka polskiego Witold Kieraś Łukasz Kobyliński Maciej Ogrodniczuk Instytut Podstaw Informatyki PAN III Konferencja DARIAH-PL Poznań 9.11.2016

Bardziej szczegółowo

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu

Bardziej szczegółowo

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania Analiza skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania Analiza Skupień Elementy składowe procesu grupowania obiekt Ekstrakcja cech Sprzężenie zwrotne Grupowanie klastry Reprezentacja

Bardziej szczegółowo

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie. SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:

Bardziej szczegółowo

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex

Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex Zarządzanie i anotowanie korpusów tekstowych w systemie Inforex Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Marcin Oleksy marcin.oleksy@pwr.edu.pl Politechnika Wrocławska Katedra Inteligencji Obliczeniowej

Bardziej szczegółowo

Wydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych

Wydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Informatyki i Elektroniki Instrukcja do zajęć laboratoryjnych wersja: 1.0 Nr ćwiczenia: 12, 13 Temat: Cel ćwiczenia: Wymagane przygotowanie

Bardziej szczegółowo

LEM wydobywanie statystyk z korpusów

LEM wydobywanie statystyk z korpusów LEM wydobywanie statystyk z korpusów Maciej Piasecki, Tomasz Walkowiak Politechnika Wroc awska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Maciej Maryl Instytut Bada Literackich Polska Akademia

Bardziej szczegółowo

Wyszukiwanie informacji w internecie. Nguyen Hung Son

Wyszukiwanie informacji w internecie. Nguyen Hung Son Wyszukiwanie informacji w internecie Nguyen Hung Son Jak znaleźć informację w internecie? Wyszukiwarki internetowe: Potężne machiny wykorzystujące najnowsze metody z różnych dziedzin Architektura: trzy

Bardziej szczegółowo

Sprzętowo wspomagane metody klasyfikacji danych

Sprzętowo wspomagane metody klasyfikacji danych Sprzętowo wspomagane metody klasyfikacji danych Jakub Botwicz Politechnika Warszawska, Instytut Telekomunikacji Plan prezentacji 1. Motywacje oraz cele 2. Problemy klasyfikacji danych 3. Weryfikacja integralności

Bardziej szczegółowo

Opis efektów kształcenia dla programu kształcenia (kierunkowe efekty kształcenia) WIEDZA. rozumie cywilizacyjne znaczenie matematyki i jej zastosowań

Opis efektów kształcenia dla programu kształcenia (kierunkowe efekty kształcenia) WIEDZA. rozumie cywilizacyjne znaczenie matematyki i jej zastosowań TABELA ODNIESIEŃ EFEKTÓW KSZTAŁCENIA OKREŚLONYCH DLA PROGRAMU KSZTAŁCENIA DO EFEKTÓW KSZTAŁCENIA OKREŚLONYCH DLA OBSZARU KSZTAŁCENIA I PROFILU STUDIÓW PROGRAM KSZTAŁCENIA: POZIOM KSZTAŁCENIA: PROFIL KSZTAŁCENIA:

Bardziej szczegółowo

Lokalizacja Oprogramowania

Lokalizacja Oprogramowania mgr inż. Anton Smoliński anton.smolinski@zut.edu.pl Lokalizacja Oprogramowania 16/12/2016 Wykład 6 Internacjonalizacja, Testowanie, Tłumaczenie Maszynowe Agenda Internacjonalizacja Testowanie lokalizacji

Bardziej szczegółowo

Co wylicza Jasnopis? Bartosz Broda

Co wylicza Jasnopis? Bartosz Broda Co wylicza Jasnopis? Bartosz Broda Analiza języka polskiego Ekstrakcja tekstu Dokument narzędzie do mierzenia zrozumiałości Analiza morfologiczna Analiza morfosyntaktyczna Indeksy Klasa trudności:

Bardziej szczegółowo

CLARIN-PL wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych

CLARIN-PL wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych wielka infrastruktura badawcza technologii językowych dla nauk humanistycznych i społecznych Maciej Piasecki Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Technologii Językowej

Bardziej szczegółowo

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego

Morfeusz 2 analizator i generator fleksyjny dla języka polskiego Morfeusz 2 analizator i generator fleksyjny dla języka polskiego Marcin Woliński i Anna Andrzejczuk Zespół Inżynierii Lingwistycznej Instytut Podstaw Informatyki Polskiej Akademii Nauk Warsztaty CLARIN-PL,

Bardziej szczegółowo

Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4.

Inforex - zarządzanie korpusami i ich anotacja. Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii Językowych G4. Inforex - zarządzanie korpusami i ich anotacja Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Marcin Oleksy Jan Wieczorek Jan Kocoń marcin.oleksy@pwr.edu.pl jan.wieczorek@pwr.edu.pl jan.kocon@pwr.edu.pl

Bardziej szczegółowo

Inforex - zarządzanie korpusami i ich anotacja

Inforex - zarządzanie korpusami i ich anotacja Inforex - zarządzanie korpusami i ich anotacja Marcin Oleksy marcin.oleksy@pwr.edu.pl Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Technologii

Bardziej szczegółowo

Elementy modelowania matematycznego

Elementy modelowania matematycznego Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski

Bardziej szczegółowo

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych AUTOMATYKA INFORMATYKA Technologie Informacyjne Sieć Semantyczna Przetwarzanie Języka Naturalnego Internet Edytor Serii: Zdzisław

Bardziej szczegółowo

OSA OTWARTY SYSTEM ANTYPLAGIATOWY

OSA OTWARTY SYSTEM ANTYPLAGIATOWY OSA OTWARTY SYSTEM ANTYPLAGIATOWY Kontrola antyplagiatowa pisemnych prac na Uniwersytecie Mikołaja Kopernika w Toruniu Mariusz Czerniak Plan prezentacji Informacje o systemie OSA Kontrola wstępnych wersji

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny

Bardziej szczegółowo

CLARIN-PL wielka infrastruktura badawcza technologii j zykowych dla nauk humanistycznych i spo ecznych

CLARIN-PL wielka infrastruktura badawcza technologii j zykowych dla nauk humanistycznych i spo ecznych wielka infrastruktura badawcza technologii j zykowych dla nauk humanistycznych i spo ecznych Maciej Piasecki Politechnika Wroc awska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 Technologii J

Bardziej szczegółowo

EXSO-CORE - specyfikacja

EXSO-CORE - specyfikacja EXSO-CORE - specyfikacja System bazowy dla aplikacji EXSO. Elementy tego systemu występują we wszystkich programach EXSO. Może on ponadto stanowić podstawę do opracowania nowych, dedykowanych systemów.

Bardziej szczegółowo

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:

Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne: WYDOBYWANIE I WYSZUKIWANIE INFORMACJI Z INTERNETU Forma wykład: 30 godzin laboratorium: 30 godzin Główny cel kursu W ramach kursu studenci poznają podstawy stosowanych powszechnie metod wyszukiwania informacji

Bardziej szczegółowo

Analiza danych tekstowych i języka naturalnego

Analiza danych tekstowych i języka naturalnego Kod szkolenia: Tytuł szkolenia: ANA/TXT Analiza danych tekstowych i języka naturalnego Dni: 3 Opis: Adresaci szkolenia Dane tekstowe stanowią co najmniej 70% wszystkich danych generowanych w systemach

Bardziej szczegółowo

Wykład 10 Skalowanie wielowymiarowe

Wykład 10 Skalowanie wielowymiarowe Wykład 10 Skalowanie wielowymiarowe Wrocław, 30.05.2018r Skalowanie wielowymiarowe (Multidimensional Scaling (MDS)) Główne cele MDS: przedstawienie struktury badanych obiektów przez określenie treści wymiarów

Bardziej szczegółowo

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor S O M SELF-ORGANIZING MAPS Przemysław Szczepańczyk Łukasz Myszor Podstawy teoretyczne Map Samoorganizujących się stworzył prof. Teuvo Kohonen (1982 r.). SOM wywodzi się ze sztucznych sieci neuronowych.

Bardziej szczegółowo

Systemy uczące się Lab 4

Systemy uczące się Lab 4 Systemy uczące się Lab 4 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 26 X 2018 Projekt zaliczeniowy Podstawą zaliczenia ćwiczeń jest indywidualne wykonanie projektu uwzględniającego

Bardziej szczegółowo

Technologie informacyjne - wykład 12 -

Technologie informacyjne - wykład 12 - Zakład Fizyki Budowli i Komputerowych Metod Projektowania Instytut Budownictwa Wydział Budownictwa Lądowego i Wodnego Politechnika Wrocławska Technologie informacyjne - wykład 12 - Prowadzący: Dmochowski

Bardziej szczegółowo

CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego

CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego CLARIN infrastruktura naukowa technologii językowych i jej potencjał jako narzędzia badawczego Maciej Piasecki Politechnika Wrocławska Instytut Informatyki Grupa Naukowa G4.19 maciej.piasecki@pwr.wroc.pl

Bardziej szczegółowo

Open Access w technologii językowej dla języka polskiego

Open Access w technologii językowej dla języka polskiego Open Access w technologii językowej dla języka polskiego Marek Maziarz, Maciej Piasecki Grupa Naukowa Technologii Językowych G4.19 Zakład Sztucznej Inteligencji, Instytut Informatyki, W-8, Politechnika

Bardziej szczegółowo

WYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO

WYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO Zał. nr 4 do ZW WYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO KARTA PRZEDMIOTU Nazwa w języku polskim STATYSTYKA STOSOWANA Nazwa w języku angielskim APPLIED STATISTICS Kierunek studiów (jeśli dotyczy): Specjalność

Bardziej szczegółowo

Projekt i implementacja systemu wspomagania planowania w języku Prolog

Projekt i implementacja systemu wspomagania planowania w języku Prolog Projekt i implementacja systemu wspomagania planowania w języku Prolog Kraków, 29 maja 2007 Plan prezentacji 1 Wstęp Czym jest planowanie? Charakterystyka procesu planowania 2 Przeglad istniejacych rozwiazań

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA Zał. nr 4 do ZW WYDZIAŁ ELEKTRONIKI KARTA PRZEDMIOTU Nazwa w języku polskim STATYSTYKA MATEMATYCZNA Nazwa w języku angielskim Mathematical Statistics Kierunek studiów (jeśli dotyczy): Specjalność (jeśli

Bardziej szczegółowo

Modelowanie Data Mining na wielką skalę z SAS Factory Miner. Paweł Plewka, SAS

Modelowanie Data Mining na wielką skalę z SAS Factory Miner. Paweł Plewka, SAS Modelowanie Data Mining na wielką skalę z SAS Factory Miner Paweł Plewka, SAS Wstęp SAS Factory Miner Nowe narzędzie do data mining - dostępne od połowy 2015 r. Aktualna wersja - 14.1 Interfejs webowy

Bardziej szczegółowo

Sposoby prezentacji problemów w statystyce

Sposoby prezentacji problemów w statystyce S t r o n a 1 Dr Anna Rybak Instytut Informatyki Uniwersytet w Białymstoku Sposoby prezentacji problemów w statystyce Wprowadzenie W artykule zostaną zaprezentowane podstawowe zagadnienia z zakresu statystyki

Bardziej szczegółowo

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych

Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych Narzędzia do automatycznego wydobywania słowników kolokacji i do oceny leksykalności połączeń wyrazowych Marek Maziarz, Maciej Piasecki, Michał Wendelberger Politechnika Wrocławska Katedra Inteligencji

Bardziej szczegółowo

Funkcje systemu infokadra

Funkcje systemu infokadra System Informacji Zarządczej - infokadra jest rozwiązaniem skierowanym dla kadry zarządzającej w obszarze administracji publicznej. Jest przyjaznym i łatwym w użyciu narzędziem analityczno-raportowym,

Bardziej szczegółowo

Grafika i Systemy Multimedialne (IGM)

Grafika i Systemy Multimedialne (IGM) Nowa Specjalność na Kierunku Informatyka Informatyka Techniczna (ITN) Grafika i Systemy Multimedialne (IGM) dr inż. Jacek Mazurkiewicz (K-9) Motywacja 2 narastająca potrzeba aktualizacji, modernizacji

Bardziej szczegółowo

Teraz bajty. Informatyka dla szkół ponadpodstawowych. Zakres rozszerzony. Część 1.

Teraz bajty. Informatyka dla szkół ponadpodstawowych. Zakres rozszerzony. Część 1. Teraz bajty. Informatyka dla szkół ponadpodstawowych. Zakres rozszerzony. Część 1. Grażyna Koba MIGRA 2019 Spis treści (propozycja na 2*32 = 64 godziny lekcyjne) Moduł A. Wokół komputera i sieci komputerowych

Bardziej szczegółowo

EmotiWord, semantyczne powiązanie i podobieństwo, odległość znaczeniowa

EmotiWord, semantyczne powiązanie i podobieństwo, odległość znaczeniowa , semantyczne powiązanie i podobieństwo, odległość Projekt przejściowy ARR Politechnika Wrocławska Wydział Elektroniki Wrocław, 22 października 2013 Spis treści 1 językowa 2, kryteria 3 Streszczenie artykułu

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia

Bardziej szczegółowo

SZKOLENIA SAS. ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie

SZKOLENIA SAS. ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie SZKOLENIA SAS ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie DANIEL KUBIK ŁUKASZ LESZEWSKI ROLE ROLE UŻYTKOWNIKÓW MODUŁU

Bardziej szczegółowo

Agnieszka Nowak Brzezińska

Agnieszka Nowak Brzezińska Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia

Bardziej szczegółowo

Zastosowanie metod eksploracji danych (data mining) do sterowania i diagnostyki procesów w przemyśle spożywczym

Zastosowanie metod eksploracji danych (data mining) do sterowania i diagnostyki procesów w przemyśle spożywczym POLITECHNIKA WARSZAWSKA Instytut Technik Wytwarzania Zastosowanie metod eksploracji danych (data mining) do sterowania i diagnostyki procesów w przemyśle spożywczym Marcin Perzyk Dlaczego eksploracja danych?

Bardziej szczegółowo

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1 Grupowanie Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Grupowanie wykład 1 Sformułowanie problemu Dany jest zbiór obiektów (rekordów). Znajdź naturalne pogrupowanie

Bardziej szczegółowo

System wspomagania harmonogramowania przedsięwzięć budowlanych

System wspomagania harmonogramowania przedsięwzięć budowlanych System wspomagania harmonogramowania przedsięwzięć budowlanych Wojciech Bożejko 1 Zdzisław Hejducki 2 Mariusz Uchroński 1 Mieczysław Wodecki 3 1 Instytut Informatyki, Automatyki i Robotyki Politechnika

Bardziej szczegółowo

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Marcin Oleksy Jan Wieczorek Jan Kocoń marcin.oleksy@pwr.edu.pl jan.wieczorek@pwr.edu.pl

Bardziej szczegółowo

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud

Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud Publikacja w repozytorium i przetwarzanie w systemach DSpace i NextCloud Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Marcin Oleksy marcin.oleksy@pwr.edu.pl Politechnika Wrocławska Katedra Inteligencji

Bardziej szczegółowo

O czym w Sejmie piszczy? Analiza tekstowa przemówień poselskich

O czym w Sejmie piszczy? Analiza tekstowa przemówień poselskich O czym w Sejmie piszczy? Analiza tekstowa przemówień poselskich mgr Aleksander Nosarzewski Szkoła Główna Handlowa w Warszawie pod kierunkiem naukowym dr hab. Bogumiła Kamińskiego, prof. SGH Problem Potrzeba

Bardziej szczegółowo

Przetwarzanie i analiza danych w języku Python / Marek Gągolewski, Maciej Bartoszuk, Anna Cena. Warszawa, Spis treści

Przetwarzanie i analiza danych w języku Python / Marek Gągolewski, Maciej Bartoszuk, Anna Cena. Warszawa, Spis treści Przetwarzanie i analiza danych w języku Python / Marek Gągolewski, Maciej Bartoszuk, Anna Cena. Warszawa, 2016 Spis treści Przedmowa XI I Podstawy języka Python 1. Wprowadzenie 3 1.1. Język i środowisko

Bardziej szczegółowo

Widzenie komputerowe (computer vision)

Widzenie komputerowe (computer vision) Widzenie komputerowe (computer vision) dr inż. Marcin Wilczewski 2018/2019 Organizacja zajęć Tematyka wykładu Cele Python jako narzędzie uczenia maszynowego i widzenia komputerowego. Binaryzacja i segmentacja

Bardziej szczegółowo

Techniki uczenia maszynowego nazwa przedmiotu SYLABUS

Techniki uczenia maszynowego nazwa przedmiotu SYLABUS Techniki uczenia maszynowego nazwa SYLABUS Obowiązuje od cyklu kształcenia: 2014/20 Część A. Informacje ogólne Elementy składowe sylabusu Nazwa jednostki prowadzącej studiów Poziom kształcenia Profil studiów

Bardziej szczegółowo

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja II

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja II Zespół TI Instytut Informatyki Uniwersytet Wrocławski ti@ii.uni.wroc.pl http://www.wsip.com.pl/serwisy/ti/ Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja II Rozkład wymagający

Bardziej szczegółowo

Nazwa wariantu modułu (opcjonalnie): Laboratorium programowania w języku C++

Nazwa wariantu modułu (opcjonalnie): Laboratorium programowania w języku C++ Uniwersytet Śląski w Katowicach str. 1 Kierunek i poziom studiów: Chemia, poziom pierwszy Sylabus modułu: Laboratorium programowania (0310-CH-S1-019) Nazwa wariantu modułu (opcjonalnie): Laboratorium programowania

Bardziej szczegółowo

Numeryczna algebra liniowa

Numeryczna algebra liniowa Numeryczna algebra liniowa Numeryczna algebra liniowa obejmuje szereg algorytmów dotyczących wektorów i macierzy, takich jak podstawowe operacje na wektorach i macierzach, a także rozwiązywanie układów

Bardziej szczegółowo

Katalog wymagań programowych na poszczególne stopnie szkolne. Matematyka. Poznać, zrozumieć

Katalog wymagań programowych na poszczególne stopnie szkolne. Matematyka. Poznać, zrozumieć Katalog wymagań programowych na poszczególne stopnie szkolne Matematyka. Poznać, zrozumieć Kształcenie w zakresie podstawowym. Klasa 3 Poniżej podajemy umiejętności, jakie powinien zdobyć uczeń z każdego

Bardziej szczegółowo

ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia

ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia ZP/ITS/11/2012 Załącznik nr 1a do SIWZ ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia Przedmiotem zamówienia jest: Przygotowanie zajęć dydaktycznych w postaci kursów e-learningowych przeznaczonych

Bardziej szczegółowo

Transformacja wiedzy w budowie i eksploatacji maszyn

Transformacja wiedzy w budowie i eksploatacji maszyn Uniwersytet Technologiczno Przyrodniczy im. Jana i Jędrzeja Śniadeckich w Bydgoszczy Wydział Mechaniczny Transformacja wiedzy w budowie i eksploatacji maszyn Bogdan ŻÓŁTOWSKI W pracy przedstawiono proces

Bardziej szczegółowo

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty

Bardziej szczegółowo

PODSTAWOWE ANALIZY I WIZUALIZACJA Z WYKORZYSTANIEM MAP W STATISTICA

PODSTAWOWE ANALIZY I WIZUALIZACJA Z WYKORZYSTANIEM MAP W STATISTICA PODSTAWOWE ANALIZY I WIZUALIZACJA Z WYKORZYSTANIEM MAP W STATISTICA Krzysztof Suwada, StatSoft Polska Sp. z o.o. Wstęp Wiele różnych analiz dotyczy danych opisujących wielkości charakterystyczne bądź silnie

Bardziej szczegółowo

Funkcjonalność Modułu Zobrazowania Operacyjnego WAZkA COP.

Funkcjonalność Modułu Zobrazowania Operacyjnego WAZkA COP. Funkcjonalność Modułu Zobrazowania Operacyjnego WAZkA COP. Zbiór usług zarządzania warstwami i obiektami geograficznymi na rzecz narzędzi zarządzania kryzysowego. Przedstawia: ppłk dr inż. Mariusz CHMIELEWSKI

Bardziej szczegółowo

Publikacja w repozytorium i przetwarzanie w systemie DSpace

Publikacja w repozytorium i przetwarzanie w systemie DSpace Publikacja w repozytorium i przetwarzanie w systemie DSpace Michał Marcińczuk michal.marcinczuk@pwr.edu.pl Marcin Oleksy marcin.oleksy@pwr.edu.pl Politechnika Wrocławska Katedra Inteligencji Obliczeniowej

Bardziej szczegółowo

Hierarchiczna analiza skupień

Hierarchiczna analiza skupień Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym

Bardziej szczegółowo

Modelowanie glikemii w procesie insulinoterapii

Modelowanie glikemii w procesie insulinoterapii Dawid Kaliszewski Modelowanie glikemii w procesie insulinoterapii Promotor dr hab. inż. Zenon Gniazdowski Cel pracy Zbudowanie modelu predykcyjnego przyszłych wartości glikemii diabetyka leczonego za pomocą

Bardziej szczegółowo

Odniesienie do efektów kształcenia dla obszaru nauk EFEKTY KSZTAŁCENIA Symbol

Odniesienie do efektów kształcenia dla obszaru nauk EFEKTY KSZTAŁCENIA Symbol KIERUNKOWE EFEKTY KSZTAŁCENIA Wydział Informatyki i Zarządzania Kierunek studiów INFORMATYKA (INF) Stopień studiów - pierwszy Profil studiów - ogólnoakademicki Projekt v1.0 z 18.02.2015 Odniesienie do

Bardziej szczegółowo

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018

EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018 EGZAMIN W KLASIE TRZECIEJ GIMNAZJUM W ROKU SZKOLNYM 2017/2018 CZĘŚĆ 1. JĘZYK POLSKI ZASADY OCENIANIA ROZWIĄZAŃ ZADAŃ ARKUSZ GH-P2 KWIECIEŃ 2018 Zadanie 1. (0 1) 9) wyciąga wnioski wynikające z przesłanek

Bardziej szczegółowo

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej

Bardziej szczegółowo

Programowanie Strukturalne i Obiektowe Słownik podstawowych pojęć 1 z 5 Opracował Jan T. Biernat

Programowanie Strukturalne i Obiektowe Słownik podstawowych pojęć 1 z 5 Opracował Jan T. Biernat Programowanie Strukturalne i Obiektowe Słownik podstawowych pojęć 1 z 5 Program, to lista poleceń zapisana w jednym języku programowania zgodnie z obowiązującymi w nim zasadami. Celem programu jest przetwarzanie

Bardziej szczegółowo

W poszukiwaniu sensu w świecie widzialnym

W poszukiwaniu sensu w świecie widzialnym W poszukiwaniu sensu w świecie widzialnym Andrzej Śluzek Nanyang Technological University Singapore Uniwersytet Mikołaja Kopernika Toruń AGH, Kraków, 28 maja 2010 1 Podziękowania Przedstawione wyniki powstały

Bardziej szczegółowo

TEORETYCZNE PODSTAWY INFORMATYKI

TEORETYCZNE PODSTAWY INFORMATYKI 1 TEORETYCZNE PODSTAWY INFORMATYKI WFAiS UJ, Informatyka Stosowana I rok studiów, I stopień Wykład 16 2 Data Science: Uczenie maszynowe Uczenie maszynowe: co to znaczy? Metody Regresja Klasyfikacja Klastering

Bardziej szczegółowo

I. OGÓLNE INFORMACJE PODSTAWOWE O PRZEDMIOCIE. Nie dotyczy. podstawowy i kierunkowy

I. OGÓLNE INFORMACJE PODSTAWOWE O PRZEDMIOCIE. Nie dotyczy. podstawowy i kierunkowy 1.1.1 Statystyka opisowa I. OGÓLNE INFORMACJE PODSTAWOWE O PRZEDMIOCIE STATYSTYKA OPISOWA Nazwa jednostki organizacyjnej prowadzącej kierunek: Kod przedmiotu: P6 Wydział Zamiejscowy w Ostrowie Wielkopolskim

Bardziej szczegółowo

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja I

Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja I Zespół TI Instytut Informatyki Uniwersytet Wrocławski ti@ii.uni.wroc.pl http://www.wsip.com.pl/serwisy/ti/ Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja I Rozkład zgodny

Bardziej szczegółowo

Jednolity System Antyplagiatowy. Jak interpretować wynik?

Jednolity System Antyplagiatowy. Jak interpretować wynik? Jednolity System Antyplagiatowy Jak interpretować wynik? 2018 Czym jest JSA? JSA Praca Raport PROMOTOR decyzja TAK/NIE Praca STUDENT Podstawy prawne Prawo o Szkolnictwie Wyższym i Nauce z dnia 20 lipca

Bardziej szczegółowo

Tom 6 Opis oprogramowania Część 8 Narzędzie do kontroli danych elementarnych, danych wynikowych oraz kontroli obmiaru do celów fakturowania

Tom 6 Opis oprogramowania Część 8 Narzędzie do kontroli danych elementarnych, danych wynikowych oraz kontroli obmiaru do celów fakturowania Część 8 Narzędzie do kontroli danych elementarnych, danych wynikowych oraz kontroli Diagnostyka stanu nawierzchni - DSN Generalna Dyrekcja Dróg Krajowych i Autostrad Warszawa, 21 maja 2012 Historia dokumentu

Bardziej szczegółowo

Semantyczne podobieństwo stron internetowych

Semantyczne podobieństwo stron internetowych Uniwersytet Mikołaja Kopernika Wydział Matematyki i Informatyki Marcin Lamparski Nr albumu: 184198 Praca magisterska na kierunku Informatyka Semantyczne podobieństwo stron internetowych Praca wykonana

Bardziej szczegółowo

Technologie cyfrowe. Artur Kalinowski. Zakład Cząstek i Oddziaływań Fundamentalnych Pasteura 5, pokój 4.15

Technologie cyfrowe. Artur Kalinowski. Zakład Cząstek i Oddziaływań Fundamentalnych Pasteura 5, pokój 4.15 Technologie cyfrowe Artur Kalinowski Zakład Cząstek i Oddziaływań Fundamentalnych Pasteura 5, pokój 4.15 Artur.Kalinowski@fuw.edu.pl Semestr letni 2014/2015 Zadanie algorytmiczne: wyszukiwanie dane wejściowe:

Bardziej szczegółowo

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE UNIWERSYTET WARMIŃSKO-MAZURSKI W OLSZTYNIE PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE http://matman.uwm.edu.pl/psi e-mail: psi@matman.uwm.edu.pl ul. Słoneczna 54 10-561

Bardziej szczegółowo