PRZEGLĄD METOD I TECHNIK EKSPLORACJI DANYCH TEKSTOWYCH
|
|
- Grażyna Górecka
- 7 lat temu
- Przeglądów:
Transkrypt
1 Studia i Materiały Informatyi Stosowanej, Tom 4, Nr 6, 2012 str PRZEGLĄD METOD I TECHNIK EKSPLORACJI DANYCH TEKSTOWYCH Marcin Mirończu Politechnia Białostoca Wydział Eletryczny ul Wiejsa 45A, Białysto mmarcinmichal@gmailcom Streszczenie : W artyule opisano autorsą lasyfiację metod i techni esploracji danych testowych Opisano atualnie dostępne oraz stosowane metody reprezentacji danych testowych oraz technii ich przetwarzania Przeprowadzono taże dysusję na temat przetwarzania doumentów za pomocą prezentowanych metod Omówiono możliwości ja i ograniczenia poszczególnych prezentowanych metod do przetwarzania doumentów testowych esploracja danych testowych, metody analizy danych testowych, esploracyjna analiza danych testowych Review of methods and text data mining techniques Abstarct: This article describes the author's classification of the methods and techniques of textual data mining In this article also describes the currently available methods and sauces representation of textual data and their processing techniques Also conducted a discussion on the processing of text documents using the presented methods This paper also discussed the possibilities and limitations of individual methods to process the presented text documents Keywords: text data mining, methods of analysis of textual data, exploratory analysis of text data, text analyzing 1 WSTĘP W badaniach dotyczących przetwarzania doumentacji ze zdarzeń [1-4], pochodzącej z systemu ewidencji zdarzeń EWID-99 [4-8] przeznaczonego dla Państwowej Straży Pożarnej PSP, autor wyorzystuje metody oraz technii z zaresu esploracyjnej analizy danych testowych (ang text mining) W publiacji [9] przedstawiono autorsi przegląd i lasyfiację zastosowań, metod oraz techni z zaresu ogólnie pojętej esploracji danych W niemniejszej publiacji opisano szczegółowo wybraną gałąź tej lasyfiacji związaną z testowym źródłem danych [9] tóre stanowią doumenty wyrażone za pomocą języa naturalnego Celem publiacji jest w szczególności przedstawienie czytelniowi tzw płytich metod analizy testu Atualnie dostępna jest dość znaczna ilość publiacji i siąże dotyczących głęboiego przetwarzania testów w języu polsim [10-13] Natomiast ilość pozycji dotyczących płytiej analizy testu jest znacznie ograniczona oraz nie omawia omplesowo pod względem 25 tasonomii tego zagadnienia [10, 14] Z tych względów autor zaproponował i opisał własny podział metod z zaresu metod analizy testu a w szczególności metod służących do płytiej analizy doumentów testowych Prezentacja rozważań nad metodami esploracji danych testowych (punt 2) została rozpoczęta od opisu atualnie dostępnych i używanych reprezentacji doumentów testowych (podpunt 21) Następnie omówiono metody analizy doumentów testowych niewymagające ja i wymagające (podpunt 22) opisanych reprezentacji testu W dalszej olejności opisano metody wizualizacji wyniów pochodzących z przetwarzania testów (podpunt (23) Na ońcu przedstawiono podsumowanie oraz wniosi dotyczące proponowanej tasonomii oraz samej esploracji danych testowych 2 METODY EKSPLORACJI DANYCH TEKSTOWYCH Dziedzina technii zajmująca się przetwarzaniem omputerowym nieustruturyzowanych danych w postaci
2 Marcin Mirończu, Przegląd metod i techni esploracji danych testowych doumentów testowych i wyciągania z nich informacji wysoiej jaości nazywa się esploracją testu [15, 16] W obrębie tej dziedziny powstało wiele nie do ońca usystematyzowanych metod, techni oraz pojęć, tóre w niniejszym artyule zostały odpowiednio pogrupowane i szczegółowo omówione Autorsą tasonomię metod analizy testu przedstawia rysune 1 Płytie Metody analizy Głęboie Sformalizowane Niesformalizowane Wizualizacje Wydobywanie wyrażeń Wyszuiwanie Technii wstępnego przetwarzania Estracja informacji rozpoznane z dużym stopniem pewności Strutury wymagające złożonej analizy wielu możliwych rozwiązań są pomijane lub analizowane częściowo Analiza sierowana jest głównie na rozpoznawanie nazw własnych, wyrażeń rzeczowniowych, grup czasowniowych bez rozpoznawania ich wewnętrznej strutury i funcji w zdaniu Analiza dotyczy też głównie dużych zbiorów doumentów testowych a nie pojedynczych doumentów a taże taich zagadnień ja min lasyfiacja (ategoryzacja) doumentów (ang document classification lub document categorization) ich grupowania (ang doument clustering) i wyszuiwania z nich informacji (ang information retrieval IR) [17-19] Celem tej analizy jest przyporządowanie nieustruturyzowanego testu wyrażonego za pomocą języa naturalnego do ustalonej reprezentacji (zazwyczaj sładającej się ze zbioru obietów) Przyporządowanie to odbywa się na drodze procesu wyorzystującego specyficzne dla danej dziedziny algorytmy [19] Druga metoda opiera się na tzw głęboiej analizie testu (ang deep text processing DTP) i jest procesem omputerowej analizy lingwistycznej wszystich możliwych interpretacji i relacji gramatycznych występujących w teście naturalnym Zazwyczaj jest bardzo złożona i z reguły dotyczy pojedynczego doumentu Pomija się wszelie zależności statystyczne i stosuje się rozwiązania polegające na przetwarzaniu danych w oparciu o predefiniowane wzorce lub gramatyi [10, 19] Klasyfiacja Grupowanie Automatyczne rozpoznawanie języa Automatyczna Translacja Streszczenia 21 Reprezentacja doumentów testowych Atualnie rozwinięte i wyorzystywane pratycznie są dwie reprezentacje doumentów testowych: reprezentacja wetorowa oraz reprezentacja grafowa Obie z nich zostały omówione w podpuntach 211 oraz Model wetorowy reprezentacji doumentów testowych Rysune 1 Tasonomia esploracyjnych metod analizy testu Źródło: [opracowanie własne] W esploracyjnej analizie testu dostępne są dwie metody przetwarzania testu: płytie i głęboie Pierwsza metoda dotycząca płytiej analizy testu (ang shallow text processing STP), oreśla grupę działań polegających na rozpoznawaniu strutur testów niereurencyjnych lub o ograniczonym poziomie reurencji, tóre mogą być Model wetorowy reprezentacji doumentów testowych polega na przedstawieniu ich w postaci przestrzenno-wetorowego opisu (modelu wetorowego, ang vector space model VSM) Doumenty i występujące w nich wyrażenia, są reprezentowane w postaci macierzy Powszechnie, za wyrażenie w reprezentacji przestrzenno-wetorowej, uważane jest jedno wyrażenie np pożar lub para wyrażeń np mocne zadymienie Zazwyczaj nie są to wszystie możliwe wyrażenia zwyle w etapie wstępnego przetwarzania 26
3 Studia i Materiały Informatyi Stosowanej, Tom 4, Nr 6, 2012 str (ang preprocessing) doonuje się ich selecji (za pomocą metod opisanych w podpuncie 221 i 222) oraz oceny ich istotności dla modelowanej dziedziny Rysune 2 przedstawia macierzową postać zapisu doumentów i związanych z nimi wyrażeń Doumenty reprezentowane są poprzez wiersze (m), natomiast wyrażenia znajdują się w olumnach (n) macierzy A zwanej macierzą doumentów-wyrażeń (ang term-document matrix) Bardziej ogólnym pojęciem stosowanym w lingwistyce omputerowej jest orpus oreślający dużą olecję doumentów, opisanych i sprowadzonych np w szczególnym przypadu do opisywanej postaci macierzowej (rysune 2) W niniejszym teście orpus będzie równoważny macierzy A w A = wi Gdzie : i m w1 j, A R w ij m n 1 j n Rysune 2 Strutura reprezentacji przestrzenno-wetorowej doumentów Źródło: [opracowanie własne na podstawie [20]] W rozwiązaniach pratycznych ilość wierszy macierzy A jest znacznie więsza od ilości wyrażeń (m >> n) Do poprawy przetwarzania, wydajniejszego sładowania taiej strutury w systemach informatycznych i analizy stosuje się onwencję odwróconą tj w wierszach zapisywane są wyrażenia natomiast w olumnach doumenty Wówczas tai zapis nosi nazwę pliu odwróconego a jego sposób indesowania wyrażony jest poprzez indes odwrotny [21, 22] Element macierzy w ij oznacza wagę, a tym samym znaczenie j-tego wyrażenia w i-tym doumencie (rysune 2 reprezentuje tai zapis) W zależności od sposobu odowania informacji zawartej w elemencie w ij czyli w wadze wyrażenia lub bardziej precyzyjnie w wartościach sładowych wetora wyrażeń, istnieje możliwość otrzymania różnych odmian reprezentacji przestrzenno-wetorowej testu Do popularnych, stosowanych w pratyce odmian zaliczamy min reprezentacje boolowsą (binarną), częstotliwościową występowania wyrażeń (ang term frequency TF), odwrotną częstość doumentu (ang inverse-documentfrequency IDF), mieszaną TF-IDF, logarytmiczną, ważoną logarytmiczną, oapi BM25 oraz probabilistyczną [10, 20, 23-25] Reprezentacja: a) boolowsa (binarna) występuje wówczas, iedy zostanie odnotowany fat zaistnienia j-tego wyrażenia w i-tym doumencie, natomiast nie precyzuje ona liczby wystąpień Element w ij macierzy A przyjmuje wartość 1 (j-te wyrażenie znajduje się w i-tym doumencie) lub 0 (j-te wyrażenie nie znajduje się w i-tym doumencie), b) częstotliwościowa występowania wyrażeń (ang term frequency TF) występuje wówczas, iedy oprócz odnotowania fatu zaistnienia j-tego wyrażenia w i-tym doumencie zostanie oreślona taże jego częstość, czyli liczba jego wystąpień w zadanym doumencie, c) odwrotnej częstości doumentu (ang inverse-documentfrequency IDF) polegającą na tym, iż poszczególne wagi w ij wyrażone są za pomocą wyrażenia log(n/n j ), gdzie: N reprezentuje liczbę wszystich doumentów zaś n j liczbę doumentów z j-tym wyrażeniem, d) mieszana TF-IDF występuje wówczas, gdy pomnożone zostaną przez siebie wagi w ij wyrażone za pomocą ww schematu TF i IDF, czyli mieszana reprezentacja TF-IDF równa jest TF IDF, e) logarytmiczna występuje wówczas, gdy następuje zastąpienie wszystich niezerowych elementów macierzy A wartościami w ij równymi 1+log(w ij ), f) ważona logarytmiczna występuje wówczas, gdy następuje zastąpienie wszystich niezerowych elementów macierzy A wartościami w ij obliczonymi za pomocą N następującej formuły (1 + log( wij )) log( ) n j, g) oapi BM25 stosowana jest w przypadach długich doumentów testowych, gdzie prawdopodobieństwo, że dany wyraz pojawi się wiele razy jest wysoie Powoduje to wzrost wartości wagi TF co w efecie sprawia, że długie doumenty są bardziej faworyzowane BM25 to rodzina funcji wyorzystywana do obliczenia wagi w ij z uwzględnieniem długości doumentów Mając doument d (od angielsiego słowa document) i wyrażenie t (od angielsiego słowa term) można obliczyć wagę orzystając z zależności: f ( t, d ) ( 1 + 1) bm25( d, t) = idf (1) d f ( t, d ) + 1 (1 b + b avg( d ) 27
4 Marcin Mirończu, Przegląd metod i techni esploracji danych testowych Gdzie: - f(t,d) liczba wystąpień wyrażenia t w doumencie d - d długość doumentu d - avg(d) średnia długość doumentu w olecji - 1 i b wartości stałe (przeważnie przyjmuje się 1 = 12 i b = 075) - idf zmodyfiowany schemat IDF wyrażony w postaci N n( t) + 05 formuły idf ( t) = log, N oznacza liczbę n( t) + 05 wszystich doumentów, a n(t) liczbę doumentów zawierających wyrażenie t h) probabilistyczna występuje wówczas, gdy waga w ij wyrażenia t w doumencie d zostanie oszacowana na podstawie zdarzenia losowego, polegającego na wystąpieniu danego wyrażenia t w doumencie d pod waruniem modelu M Model M zawiera informacje na temat orpusu A tj całowitą ilość wyrażeń oraz częstotliwość występowania poszczególnych wyrażeń w orpusie A Proste oszacowanie prawdopodobieństwa wystąpienia wyrażenia t można doonać zgodnie z zasadą estymacji najwięszej wiarygodności (ang maximum lielihood estimation MLE) [23]: TF t, d w ij = P ML ( Y i = t d, M ) = (2) t d TF t, d Wzór na wagę wyrażenia przedstawiony w postaci estymacji najwięszej wiarygodności można interpretować następująco: P ML ( Y i = t d, M ) = czestotliwosc wystepowania wyrazenia t w doumencie d suma wszystich czestotliwosci wyrazen t w doumencie d Na podstawie macierzy A z odpowiednio sonstruowanymi wagami w ij możliwe jest więc wyznaczenie podobieństwa słów oraz doumentów Podobieństwo słów wyrażane jest poprzez oreślenie podobieństwa odpowiadających im olumn tej macierzy, natomiast o podobieństwie doumentów wniosuje się na podstawie analizy podobieństwa wierszy tej macierzy (3) Najczęściej wszystie wagi w ij wetorów macierzy A w zastosowaniach pratycznych są normalizowane do 1 Wprowadzenie wetorowo-przestrzennego modelu doumentów umożliwia matematyczną analizę zagadnienia np wyszuiwania doumentów testowych Zagadnienie wyszuiwania zostało omówione w podpuncie 222 Budowanie reprezentacji testu na samych wyrażeniach jest jedna często mocno ograniczone Do zasadniczych wad tego modelu należą: - utrata wszeliej informacji na temat strutury doumentów: tytuł, nagłówi etc, - pominięcie informacji na temat olejności słów a więc i związów między nimi (występowanie wyrażeń jest niezależne od siebie), - istnieje onieczność wyboru wyrażeń, dla tórych zostanie stworzona macierz liczba wymiarów musi być z góry znana Ze względu na ww ograniczenia, proponowane są taie rozwiązania aby sładowymi wetora reprezentującego doument były automatycznie wydobyte cechy testu (ja języ, styl, itp) zamiast wyrażeń luczowych oraz elementy wydobyte z semantycznego zbioru, a więc wyrażenia i powiązania między nimi soncentrowane na stronie znaczeniowej testu [17] Ograniczenia związane z reprezentacją przestrzenno-wetorową wymogły stosowanie drugiego sposobu reprezentacji doumentów testowych, a mianowicie ich opis grafowy Należy zaznaczyć, że reprezentacja przestrzenno-wetorowa mimo ograniczeń posiada też zalety Sprawiają one, że jest ona dalej powszechnie stosowaną i badaną reprezentacją doumentów testowych Zaletą wyboru taiej reprezentacji doumentów jest jej zbieżność z reprezentacją stosowaną typowo w uczeniu maszynowym (obiety opisane za pomocą atrybutów), dzięi czemu można do niej zastosować istniejące metody z tej dziedziny Badania taże dowodzą, że nietóre relacje semantyczne mogą zostać wydobyte z testu z dużą doładnością z pominięciem olejności słów [26], natomiast związe pomiędzy wyrażeniami może zostać ustalony za pomocą analizy współwystępowania wyrażeń [27] Również wyonywanie operacji, taich ja: liczenie odległości, przeprowadzanych na wetorach, jest apliacyjnie łatwiejsze w realizacji i bardziej efetywne obliczeniowo od onurencyjnej reprezentacji, np opartej na modelu grafowym 28
5 Studia i Materiały Informatyi Stosowanej, Tom 4, Nr 6, 2012 str Model grafowy reprezentacji doumentów testowych Model grafowy reprezentacji testu bazuje na teorii grafów Model ten nazywany jest taże modelem ustruturyzowanym Początowo został on zaproponowany do analizy stron ogólnoświatowej sieci (ang World Wide Web WWW) a potem do opisu, analizy i poddawania procesom np lasyfiacji [28] doumentów z pewną struturą [29] Podstawowym założeniem wprowadzenia reprezentacji grafowej była chęć przeciwdziałania manamentom związanym z reprezentacją przestrzenno-wetorową Dzięi zastosowaniu grafów do opisu doumentów testowych możliwe stało się przechowywanie informacji min o: związach wyniających z olejności wyrazów, charaterystyach opisywanych w doumentach obietów, relacjach między nimi oraz zależnościach przyczynowosutowych Schener i współautorzy [30] zaproponowali podejście modelowania całego doumentu testowego jao grafu połączeń między wyrażeniami W swojej pracy przedstawili następujące sposoby reprezentacji doumentu: standardowa (ang standard representation), prosta (ang simple representation), n-odległości (ang n-distance representation), prostej n-odległości (ang n-simple distance), bezwzględnej częstości (ang absolute frequency), względnej częstości (ang relative frequency) [30, 31] Kolejno poszczególne sposoby reprezentacji doumentów definiowane są następująco: a) reprezentacja standardowa (ang standard representation) dla ażdego wyrażenia tworzony jest węzeł, przy czym jedno wyrażenie występuje tylo raz w grafie dla doumentu Doument jest podzielony na secje: tytuł (wraz z metadanymi), odnośnii (test w odnośniach), test (cały widoczny test, włącznie z odnośniami) Jeżeli dwa wyrażenia występują bezpośrednio po sobie w obrębie jednej secji to jest tworzony łu sierowany od pierwszego do drugiego z nich Łu jest oznaczony zgodnie z miejscem występowania jao tytuł (ang title TI), powiązanie (ang lins L) lub test (ang text TX) Po zbudowaniu grafu wyrażenia sprowadzane są do rdzeni morfologicznych (ang stemming) a węzły są zwijane do najczęściej występującej formy, b) reprezentacja prosta (ang simple representation) analogiczna do reprezentacji standardowej z tą różnicą, że przetwarzany jest tylo test widoczny na stronie a do łuów nie są przypisywane etyiety, c) reprezentacja n-odległości (ang n-distance representation) łui grafu są tworzone nie tylo dla wyrażeń występujących bezpośrednio po sobie, ale również dla n wyrażeń do przodu (n jest parametrem dostarczanym przez użytownia) Połączenie między wyrażeniami jest tworzone tylo wtedy, gdy nie zostaną napotane predefiniowane znai interpuncyjne Łu jest etyietowany odległością pomiędzy słowami, d) reprezentacja prostej n-odległości (ang n-simple distance) analogiczna reprezentacja do n-odległości, z tą różnicą, że łui nie są etyietowane odległością Graf mówi tylo o tym, że pomiędzy wyrażeniami występuje połączenie, ale nie mówi ja jest ono silne, e) reprezentacja bezwzględnej częstości (ang absolute frequency) podobna do reprezentacji prostej węzły są tworzone dla wyrażeń występujących bezpośrednio po sobie, nie są uwzględniane informacje struturalne Do węzła przypisywana jest ilość wystąpień wyrażenia w doumencie, do łuu częstość wystąpienia dwóch wyrażeń po sobie, f) reprezentacja względnej częstości (ang relative frequency) analogicznie do reprezentacji bezwzględnej częstości, przy czym ilość wystąpień wyrażenia (etyiety węzłów) są normalizowane przez masimum z częstości wszystich węzłów, a ilość powiązań miedzy wyrażeniami (etyiety łuów) przez masimum liczebności wszystich powiązań Model grafowy często powiązany jest z ontologią, rozumianą jao formalny sposób opisu wyodrębnionego fragmentu rzeczywistości [32] Definicja ontologii obejmuje opis obietów występujących w rzeczywistości oraz opis zależności pomiędzy nimi Pod tym względem możliwe więc jest aby reprezentatywne, wybrane wyrażenia z grafu stały się obietami z ontologii lub lasami z hierarchii las obietów Wśród zależności występujących pomiędzy reprezentowanymi w ontologii obietami szczególnie ważną role odgrywają relacje semantyczne np zawiera, obejmuje, posiada Z tego powodu uład obietów wraz z opisem występujących pomiędzy nimi relacji semantycznych nazywa się siecią semantyczną Dogodną struturą do reprezentowania taich sieci są grafy, raty (ang lattice) ja i hierarchie las obietów Wyrażenie hierarchie las obietów należy tratować jao termin z dziedziny programowania obietowego [33] Wadą reprezentacji grafowej jest znacznie mniejszy wachlarz metod analitycznych przystosowanych do operowania na informacjach przechowywanych przy wyorzystaniu złożonych strutur danych [34] Ograniczenia te w szczególności związane 29
6 Marcin Mirończu, Przegląd metod i techni esploracji danych testowych z przechowywaniem danych, powoli przestają mieć znaczenie ze względu na opracowywany prototypowy model zorientowany oncepcyjnie, przystosowany do przechowywania strutur zagnieżdżonych [35-37] Model zorientowany oncepcyjnie lub model zorientowany na pojęcia (ang concept oriented model COM) zaproponowany został przez Savinova w 2004 [36] Model ten stanowi nowe podejście do modelowania danych i bazuje na trzech głównych zasadach [37, 38]: zasadzie dwoistości (ang duality principle) mówiącej, że ażdemu elementowi (pojęciu) przypisana jest tożsamość (ang identity) oraz encja (ang entity), zasadzie włączenia (ang inclusion principle) dotyczącej używania hierarchicznej strutury dla modelowania tożsamości oraz zasadzie porządu (ang order principle) tóra mówi o używaniu matematycznej zasady porządu częściowego (ang partial order) do reprezentowania semantyi danych W przypadu modelu grafowego onceptami z modelu COM mogą być wybrane wyrażenia z modelu grafowego 22 Metody analizy testu Metody płytiej analizy testu można podzielić ze względu na to czy do ich działania potrzebna jest sformalizowana reprezentacja doumentu opisana w podpuntach 211 i 212 czy też nie Przyład sformalizowanej reprezentacji testu stanowi reprezentacja wetorowa opisana w podpuntach 211 i 212 Niesformalizowana reprezentacja natomiast nie wymaga żadnej z powyższych reprezentacji Metodami, tóre nie wymagają sformalizowanej reprezentacji, są: wstępne przetwarzanie testu, estracja informacji, automatyczne rozpoznawanie języa, automatyczna translacja testów Metody te olejno zostały omówione w podpuncie 221 W przypadu sformalizowanych reprezentacji testu do metod jego analizy zaliczane są: wydobywanie wyrażeń z testów, wyszuiwanie informacji w szczególności wyszuiwanie informacji w reprezentacji przestrzenno wetorowej oraz grafowej, lasyfiacja oraz grupowanie Metody te zostały omówione w podpuncie Metody analizy bezpośredniej na teście Metodami, tóre nie wymagają sformalizowanej reprezentacji testu, są: wstępne przetwarzanie testu (podpunt 2211), estracja informacji (podpunt 2212), automatyczne rozpoznawanie języa (podpunt 2213), automatyczna translacja testów (podpunt 2214) oraz streszczenia doumentów testowych (podpunt 2215) 2211 Technii wstępnego przetwarzania doumentów testowych Do techni wstępnego przetwarzania doumentów testowych należą: estracja rdzeni wyrażeń (ang stemming), tagowanie (ang tagging), lematyzacja, usuwanie słów ze stop listy, przycinanie (ang pruning) [10, 18] Operacje te podejmowane są zanim doument lub grupa doumentów testowych zostanie przesłana do głównego procesu analizy np wyszuiwania pełnotestowego (ang full text serach) [39] czy też innych metod przetwarzania testu Przedstawione terminy, związane ze wstępnym przetwarzaniem testu, można zdefiniować w następujący sposób [10, 18]: a) estracja rdzeni wyrażeń (ang stemming) oreśla znajdowanie tematów słów lub tych ich fragmentów, tóre są niezmienne dla wszystich form, b) tagowanie (ang tagging) oznacza wybór opisu morfosładniowego, tóry jest właściwy w onretnym onteście użycia danej formy, c) lematyzacja jest to analiza morfologiczna ograniczana do znalezienia podstawowej formy wyrazu (identyfiacja lesemu), d) usuwanie słów ze stop listy na stop liście umieszcza się wyrażenia, tóre występują zbyt często by ich użycie jao luczy wyszuiwania było celowe Wyrażenia umieszczone na stop liście słów są odrzucane (filtrowane) podczas wczytywania doumentu, e) przycinanie (ang pruning) polega na usuwaniu niepotrzebnych słów, operacja ta ma na celu polepszenie suteczności lasyfiacji Można usuwać wyrażenia występujące najczęściej (ang most frequent) i najrzadziej (ang least frequent) Wszystie wyżej wymienione zabiegi stosuje się w celu ulepszenia przeprowadzanej analizy doumentów testowych oraz ich wydajniejszego indesowania Zabiegi te stosowane w onteście analizy testu pozwalają na identyfiację początowego zestawu cech, tóry może być później ograniczony (i zoptymalizowany) w procesie wydobywania wyrażeń (podpunt 222) 2212 Estracja informacji Estracja informacji (ang information extraction IE) jest to identyfiacja, polegająca na odnajdywaniu właściwej informacji w nieustruturyzowanych danych testowych wyrażonych za pomocą języa naturalnego Proces ten jest zgodny z lasyfiacją polegającą na struturyzowaniu poprzez nadawanie las semantycznych dla wybranych elementów testu Proces ten czyni informację zawartą w 30
7 Studia i Materiały Informatyi Stosowanej, Tom 4, Nr 6, 2012 str teście bardziej właściwą i przydatną w realizowanych zdaniach [40] Estracja informacji nazywana jest taże estracją (rozpoznawaniem) encji i modelowania ich relacji (ang concept/entity extraction, named entity recognition) [41], jedna jest to ograniczenie definicji estracji informacji tylo do jednego z podstawowych jej zadań Wymienione zadanie polega na pozysiwaniu z doumentów testowych nazw obietów np osób oraz na wyznaczaniu związów i relacji pomiędzy wydobytymi obietami W ogólnym przypadu można pozysiwać w ten sposób z testu nazwy miast, imiona i nazwisa osób, ody pocztowe, numery PESEL itp W przypadu szczególnym, tóry stanowią analizy raportów z acji ratowniczogaśniczych, można pozysać informacje na temat: ilości acji, w tórych brała udział dana osoba, ilości ofiar śmiertelnych zarejestrowanych w acji ratunowej Przy pomocy ta wydobytych cech można sprawdzać czy analizowany obiet np osoba nie zmieniła rangi (nie awansowała na wyższy stopień), czy nie zaszły jaieś luczowe zmiany na obiecie np niedziałające hydranty, czy też w przestrzeni mediów nie pojawiły się informacje o zdarzeniach oreślonego typu (atastrofy, wypadi, aty terrorystyczne) Do pozostałych podstawowych zadań z zaresu estracji informacji należą: rozróżnianie wyrażeń rzeczowniowych z relacją gramatyczną (ang noun phrase coreference resolution), rozpoznawanie ról semantycznych (ang semantic role recognition), rozpoznawanie relacji między encjami (ang entity relation recognition) czy też rozpoznanie czasu oraz oreślanie linii czasu zachodzenia zdarzeń (ang timex and time line recognition) [40] Do typowych problemów, tóre muszą być rozwiązane przez system estracji informacji, należą następujące zagadnienia [10, 40]: a) rozpoznanie i utworzenie sryptów (scenariuszy) będących omplesowym opisem zdarzeń, b) utworzenie modeli (wzorców) wyniających z testu, c) podział testu na ciągi zdań, d) podział zdań na wyrażenia z przypisanymi wartościami cech gramatycznych, e) rozpoznawanie srótów, fraz rzeczowniowych, nazw bez wniania w ich struturę wewnętrzną i ich funcje w zdaniu, f) budowanie przybliżonej strutury zdania (np drzewa rozbioru) ze słów i wcześniej rozpoznanych elementów, g) wypełnienie przygotowanych modeli informacjami z testu 31 Pierwsze cztery ww zadania mają charater ogólny i ich rozwiązania mogą być stosowane w wielu różnych systemach Ostatnie zadanie natomiast jest ściśle związane z onretnym zastosowaniem Wzorce i reguły ich wypełniania zależą od tego, jaich informacji poszuujemy Przytoczone wyżej pojęcia estracji informacji wiążą się najczęściej z normalizacją i identyfiacją w teście wybranych typów danych oraz ich powiązań Niemniej w sład tej metody można zaliczyć podejścia i zabiegi stosowane do wydobywania wyrażeń (cech) reprezentatywnych, od jaości tórych zależą np wynii wyszuiwania informacji dla doumentu czy też ich grupy W onteście analizy testu i niniejszego opracowania cecha (ang feature) znaczeniowo tratowana jest jao wyrażenie (ang term) W dalszej olejności, oprócz samego wydobywania, wyrażeń można też estrahować semantyę tych wyrażeń za pomocą np analizy opartej o dane z orpusu lingwistycznego (reprezentacji przestrzennowetorowej doumentów) [31] Ogólnie do obu tych celów mogą służyć metody grupujące opisane w podpuncie 222, jeżeli zadanie grupowania zostanie zdefiniowane na mniejszym poziomie ziarnistości niż doument, a mianowicie na poziomie wyrażeń 2213 Automatyczne rozpoznawanie języa Automatyczne rozpoznawanie języa (ang automatic language identification ALI) polega na identyfiacji wersji języowej doumentu, w szczególności doumentu testowego, tóry może zostać napisany w więcej niż jednym języu [42] Do automatycznej identyfiacji wersji języowej wyorzystywane są głównie dwa rodzaje rozwiązań Pierwsze rozwiązanie bazuje na statystycznym modelu języa i polega na oszacowaniu prawdopodobieństwa (ang estimate the probability), że dana wejściowa próba testu jest napisana w zadanym języu Drugie rozwiązanie polega na porównaniu pomiędzy częstotliwością używanych wspólnych słów lub wyrażeń w próbce testowej z częstotliwością wydobytą ze statystycznej analizy dużego orpusu służącego jao odniesienie Automatyczne rozpoznawanie języa wyorzystywane jest najczęściej w sieci internetowej do analizowania wersji języowych stron internetowych, czy też orespondencji Pewne jego elementy mogą też być wyorzystane we wstępnym procesie testowej esploracji danych w celu polepszenia jaości analizy 2214 Automatyczna translacja testów Automatyczna translacja testów nazywana taże tłumaczeniem maszynowym TM, polega na doonywaniu
8 Marcin Mirończu, Przegląd metod i techni esploracji danych testowych przeładu z jednego języa na drugi Pierwsze próby TM były podejmowane w latach 50-tych W latach 70-tych dziedzina ta przeżyła swój rozwit ze względu na gwałtowny rozwój sprzętu ja i oprogramowania omputerowego Do automatycznego tłumaczenia testu podchodzi się dwojao tj doonuje się tłumaczenia zgrubnego, przeznaczonego do poprawiania przez człowiea (mamy tutaj do czynienie raczej ze wspomaganiem tłumaczenia, a nie z samym tłumaczeniem) oraz tłumaczenia ograniczonego do wąsiego podzbioru języa (np prognozy pogody, raportów giełdowych) [10] Najwięszym problemem w tłumaczeniu i luczem do jego sucesu jest prawidłowe tłumaczenie słów a raczej ich znaczeń Mimo pojawiających się problemów związanych z TM, w dalszym ciągu budzi ono wielie zainteresowanie zarówno w środowisu nauowców ja i biznesowym [43-45] 2215 Streszczenia doumentów testowych Streszczenia (podsumowania) doumentów testowych (ang text document summarization) polegają na wytwarzaniu streszczenia z obszernego doumentu lub ich grupy [22, 34, 46] Przyładowy algorytm bada powiązania między wyrażeniami Jeżeli następuje odwołanie ilu wyrażeń do danego wyrażenia, wówczas zachodzi zwięszenie jego pozycji w raningu Jao podsumowanie analizy wyświetlane jest n zdań o najwyższym raningu, tworząc w ten sposób streszczenie Zagadnienie streszczenia doumentów może zostać sprowadzone do podejścia selecje cech ze względu na zastosowane technii uczenia: uczenie nadzorowane lub nienadzorowane Uczenie nadzorowane polega na estracji cech z odpowiednio dużego oznaczonego orpusu testowego (mamy dostęp do predefiniowanych las cech) [47, 48] Uczenie nienadzorowane natomiast polega na uchwyceniu pewnych właściwości testu, tóre umożliwią wydobycie wyrażeń luczowych dla danego doumentu lub ich grupy W przypadu zastosowania uczenia nienadzorowanego możliwe jest podejście loalne lub globalne Przypade loalny, w onteście analizy testu, występuje wówczas, gdy w procesie wydobywania słów luczowych wyorzystywana jest tylo informacja o dostępnej grupie doumentów lub pojedynczym doumencie Przyładowy algorytm wydobywania słów luczowych oparty o tylo jeden doument testowy, bez wyorzystania całego orpusu testów, zaproponowali Matsno i Ishizua [27] Podejście globalne bazuje natomiast, przy wydobywaniu wyrażeń luczowych, na informacji o grupie doumentów ja i całego orpusu Propozycja analizy testu opartej o metodę globalną została opisana w pracy [49] 222 Metody analizy sformalizowanych reprezentacji testu W przypadu sformalizowanych reprezentacji testu do metod jego analizy zaliczane są: wydobywanie wyrażeń z testów (podpunt 2221), wyszuiwanie informacji w szczególności wyszuiwanie informacji w reprezentacji przestrzenno wetorowej oraz grafowej (podpunt 2222), lasyfiacja (podpunt 2223) oraz grupowanie (podpunt 2224) 2221 Wydobywanie wyrażeń Wydobywanie wyrażeń może następować poprzez ich estracje (ang feature extraction) Estracja cech w literaturze oreślana jest taże jao transformacja cech (ang feature transform) czy też generowanie, uogólnianie cech (ang feature generation) Proces estracji cech podzielony jest na dwa etapy: onstruowania cech (ang feature construction) a następnie ich selecji (ang feature selection) [50, 51] Selecja cech w literaturze oreślana jest taże jao: selecja zmiennych (ang variable selection), reducja cech (ang feature reduction), selecja atrybutów (ang attribute selection), lub selecja podzbioru zmiennych (ang variable subset selection) Metody selecji cech można rozpatrywać w onteście dziedziny naui związanej z uczeniem maszynowym (ang machine learning), wówczas otrzymany zostanie dodatowy podział (ze względu na zastosowane ryterium oceny podzbioru cech), na tóry sładają się podategorie: filtry (ang filters), opaowywacze (ang wrapper) i metody wbudowane (ang embedded methods) Metody estracji, nie tylo samych wyrażeń lecz i ich semantyi, są oparte na hipotezie dystrybucyjnej [52] i stanowią specyficzną odmianę metod estracji specjalnie stworzonych na potrzeby analizy testów Metody wydobywania podobieństwa semantycznego wyrażeń z testów opierają się na uzysaniu funcji podobieństwa semantycznego Przegląd taich metod, odwołania do nich i opisy można znaleźć w pracy [31] Powyżej zostały opisane lasyfiacyjne statyczne aspety estracji cech Na proces estracji cech można spojrzeć w sposób dynamiczny, wyrażony w postaci algorytmu i automatu z oreśloną ilością sewencji (stanów, etapów), tórego działanie ma przynieść wydobycie interesujących sładowych Kluczowe etapy tego procesu przedstawia rysune 3 32
9 Studia i Materiały Informatyi Stosowanej, Tom 4, Nr 6, 2012 str Rysune 3 Kluczowe etapy estracji cech Źródło: [rozszerzone opracowanie własne na podstawie [53]] Rysune 3 prezentuje omplesowy proces estracji cech obietów, tóry w przypadu analizy testu obejmuje: onstruowanie cech, generowanie ich podzbioru, ocenianie otrzymanych podzbiorów oraz zatwierdzanie rezultatów jeśli uprzednio zostało spełnione ryterium stopu W nietórych zastosowaniach pierwszy etap onstruowania cech nazywany jest etapem wstępnego przetwarzania (ang preprocessing) Konstruowanie cech w analizie testu zawiera taie działania, ja standaryzacja (ang standadization), normalizacja (ang normalization), wydobycie loalnych cech (ang extraction of local features) [54] Dodatowo, do działań tych można zaliczyć technii wstępnego przetwarzania doumentów testowych wymienione w podpuncie 221 Konstruowanie cech polega więc na wyorzystaniu całej dostępnej informacji w celu przejścia do nowej przestrzeni Nowo uzysana przestrzeń może być, w zależności od wyorzystanych metod, zreduowana, rozszerzona, pozostawiona bez zmian lub wewnętrznie zmieniana w różnych ierunach Reducja wymiaru dotyczy zastosowania metod wbudowanych, tóre również powodują sonstruowanie nowych cech (pseudo wyrażeń) z cech wyjściowych (podstawowych, bazowych) [55-57] Transformacja reduująca odbywa się na drodze przeształcenia liniowego bądź nieliniowego Do liniowych przeształceń należą: analiza sładowych głównych (ang principal components analysis PCA) lub rozład na wartości osobliwe (ang singular value decomposition SVD) wyorzystywane w urytym indesowaniu semantycznym (ang latent semantic indexing LSI) [20, 58] Natomiast do nieliniowych przeształceń można zaliczyć odwzorowanie Sammona oraz salowanie 33 wielowymiarowe (ang multi dimensional scaling MDS) [56] Rozszerzanie przestrzeni w przypadu analizy testu (estracji wyrażeń) nie znajduje zastosowania Metodą, tóra działa i modyfiuje w różnych ierunach zbiór cech, jest metoda wydobywania cech loalnych Przypade, gdy przestrzeń cech (jej wymiarowość) pozostaje bez zmian, świadczy o zastosowaniu metod z zaresu standaryzacji, normalizacji i zabiegów semantycznych omówionych w podpuncie 221 Etapem, tóry następuje po onstruowaniu cech obietów, jest ich selecja Polega ona na wyborze możliwie małego podzbioru cech, tóry da ja najwięszą możliwość rozróżnienia obietów (doumentów lub wyrażeń w orpusie lingwistycznym) Należy przy tym zaznaczyć, że może być wiele różnych ryteriów oceny, zależnych od specyficznego zastosowania (zwłaszcza w przypadu podejścia typu wrapper) Wybór cech polega więc na zachowaniu jedynie tych użytecznych, tóre niosą najwięszą ilość informacji i wyeliminowaniu pozostałych [55] Proces selecji z oryginalnego zbioru cech dąży do otrzymania optymalnego ich podzbioru, tóry zazwyczaj jest niemożliwy do osiągnięcia Podzbiór ten otrzymywany jest w wyniu procesu (rysune 3) sładającego się z liu podetapów generowania podzbioru cech na drodze pomiaru i związanego z nim przyjętego ryterium oceny, oraz decyzji czy wygenerowany podzbiór cech jest odpowiedni po spełnieniu zadanego ryterium stopu [53, 54] Po sparametryzowaniu i wyonaniu etapu generującego podzbiory dochodzi się do ich oceny Posługując się ryterium oceny podzbiorów, można podzielić algorytmy selecji cech na cztery ategorie: filtry, wrapper, metody wbudowane (ang embedded methods) oraz hybrydy [54, 57, 59] Przy użyciu wrappera oraz metod wbudowanych można otrzymać różne podzbiory cech z małymi peturbacjami w zbiorze danych W celu zminimalizowania tego efetu wyorzystuje się zbiór różnych metod (ang ensemble learning) [60] Dodatowo, oprócz ww podziału na filtry, wrappery, metody wbudowane i hybrydy, wprowadzane są ryteria niezależne (ang independent criteria) oraz zależne (ang dependent criteria) [53] Kryteria niezależne zazwyczaj związane są z modelem filtrów i do oceny podzbioru cech nie wyorzystują żadnego algorytmu esploracji danych Kryteria te posługują się pomiarem odległości (ang distance measures), zawartości informacji (ang information measures), zależności (ang dependency measures) i spójności zmiennych (ang consistency measures) Drugie ryterium zależne,
10 Marcin Mirończu, Przegląd metod i techni esploracji danych testowych odnosi się do modelu wrappera i wyorzystuje predefiniowane i wydajne algorytmy esploracji danych w selecji cech Niezależnie od podziału, w przypadu wrapperów oraz rozwiązań hybrydowych, wybrane cechy są dobierane w tai sposób, aby zapewnić możliwe najlepsze wynii działania docelowej metody (np grupowanie, lasyfiacja), podczas gdy filtr jest niezależny od stosowanej później metody przetwarzania doumentów Wybór podzbiorów odpowiednich cech i ich ocenianie trwa dopói nie zostanie spełniony warune stopu Rysune 3 prezentuje ten warune jao ację decyzyjną pt Kryterium stopu spełnione? Warune stopu jest spełniony gdy spełnione są następujące waruni: a) przeszuiwanie jest ompletne tj zbadano całą przestrzeń za pomocą algorytmu przeszuiwania, b) osiągnięta została specyficzna granica np ilości iteracji czy też ilości cech, c) dodawanie lub usuwanie cech nie polepsza i nie generuje ich podzbiorów o lepszych parametrach, d) oreślony błąd pomiaru spadł poniżej wyznaczonej granicy Ostatnim etapem selecji cech, choć nie oniecznie ończącym ten proces, jest faza zatwierdzania rezultatów Bezpośrednio jaość wybranego podzbioru cech można ocenić a priori na podstawie jego porównania z cechami jaie się oczeuje Zazwyczaj taa wiedza a priori nie jest dana, wówczas wyorzystywane są metody pośrednie polegające na badaniu jaości osiągów (zwięszanie, bądź zmniejszanie np celności lasyfiacji) algorytmów esploracyjnych do wyznaczonego zadania np lasyfiacji W ogólnym przypadu zastosowanie selecji cech, czy też ogólniej estracji cech, ma dodatowo za zadanie: zreduować dane, zmniejszyć ilość potrzebnej pamięci i tym samym przyczynić się do przyśpieszenia algorytmów operujących na tych danych, zreduować zbiór cech, ulepszyć przetwarzanie (osiągi) związane z doładnością przewidywania oraz doprowadzić do zrozumienia danych poprzez pozysanie wiedzy o procesie, tóry generuje dane i dostarczyć możliwość ich wizualizowania [54] Koncepcję podziału selecji cech wyrażoną w postaci trójwymiarowego szieletu (ang three-dimensional framewor), oraz uogólnione, algorytmiczne modele filtrów zostały przedstawione w pracy [53] 2222 Wyszuiwanie informacji Termin wyszuiwanie informacji oreśla i odnosi się do procesów oraz metod i techni wyorzystywanych w wyszuiwaniu żądanej informacji w zbiorze doumentów testowych) [10, 20, 61, 62] Wyszuiwanie to odbywa się na podstawie zadanych zapytań sładających się z wyrażeń t (ang terms) Z dziedziny wyszuiwania informacji wywodzą się też oncepcje dotyczące min budowy i reprezentacji doumentów testowych, ich indesowania oraz oceny zastosowanego rozwiązania Koncepcje te stosowane są przy analizach doumentów testowych opisanych w niniejszym opracowaniu Wyszuiwanie informacji reprezentacja przestrzenno-wetorowa Na podstawie macierzy A z odpowiednio sonstruowanymi wagami w ij możliwe jest wyznaczenie podobieństwa słów oraz doumentów Podobieństwo słów wyrażane jest poprzez oreślenie podobieństwa odpowiadających im olumn tej macierzy, natomiast o podobieństwie doumentów wniosuje się na podstawie analizy podobieństwa wierszy tej macierzy Najczęściej wszystie wagi w ij wetorów macierzy A w zastosowaniach pratycznych są normalizowane do 1 W celu oreślenia miary podobieństwa (doumentów ja i wyrażeń) stosuje się metryi ja np: eulidesową, bloową (Manhattanowi), L, uogólnioną Minowsiego L λ, cosinusową, Jaccarda czy też Dicea [10, 20, 23] Podobieństwo doumentów ustala się na podstawie pomiaru odległości W wyszuiwaniu należy minimalizować odległość masymalizując w ten sposób podobieństwo Najpopularniejsze w zastosowaniach metryi, oreślające podobieństwo doumentów wrażane są w następujący sposób: a) miara Eulidesowa, wyrażana jest w postaci wzoru: (, ) = n d E i j = ( w ( i) w ( j)) (4) 1 Gdzie: - i oraz j oznaczają i-ty i j-ty doument między tórymi wyznaczana jest odległość (odpowiednie wiersze macierzy A z reprezentacji, tórą przedstawia rysune 2) - n ilość sładowych (wyrażeń) występujących w macierzy A - w (i) i w (j) olejne -te wagi (wartości obserwacji) dla i-tego oraz j-tego doumentu b) miara Manhattanu (L 1 ) nazywana taże miarą miejsą, wyrażana jest w postaci wzoru: d = n M ( i, j) ( w ( i) w ( j)) (5) = 1 c) miara L, wyrażana jest w postaci wzoru: 34
11 Studia i Materiały Informatyi Stosowanej, Tom 4, Nr 6, 2012 str d ( i, j) = max ( w ( i) w ( j) (6) d) miara uogólniona Minowsiego L λ, wyrażana jest w postaci wzoru: 1 d λ λ λ ( i, j) = ( n ( w ( i) w ( j)) ) (7) = 1 Gdzie: - λ 1 jeśli za λ przyjęte zostanie: λ = 2 uzysana zostanie metrya Eulidesowa, λ = 1 to uzysana zostanie metrya Manhattanu i λ à to uzysana zostanie metrya L e) miara odległości osinusowa, wyrażana jest w postaci wzoru: n w ( i) w ( j) d = = C ( i, j) 1 (8) n n w ( i) 2 w ( j) 2 = 1 = 1 f) miara Jaccarda, wyrażana jest w postaci wzoru: n 2 w ( i) w ( j) d = = J ( i, j) 1 n (9) n w ( i) 2 + w ( j) 2 = 1 = 1 g) miara współczynnia Dicea, wyrażany jest w postaci wzoru: 2 d i d j d D ( i, j) = (10) ( d i + d j ) Wzór (współczynni) Dicea można interpretować następująco: 2 liczba wspolnych wyrazen w doumencie d i i d j d D ( i, j) = (11) liczba wyrazen w doumencie d i + liczba wyrazen w doumencie d j h) miara oszacowania porycia (ang expected overlap measure) [23], wyorzystywana gdy wagi wyrażeń w ij zostały wyrażone probabilistycznie (równanie 2) Miara ta wyrażana jest w postaci wzoru: P( Y i = t d i, M ) d EO ( d i, d j, A) = (12) t d d P( Y = t d M i j j j, ) W przestrzeni wetorowej wyorzystując ww miary podobieństwa istnieje możliwość wyszuiwania doumentów na podstawie zapytania Q Wyszuiwanie to polega na wniosowaniu opierającym się na zapytaniu Q, prowadzącym do odnalezienia najbardziej podobnych do niego obietów Obiety te w opisywanym przypadu stanowią zbiór doumentów testowych Zapytanie Q może zostać wyrażone w postaci: a) Boolowsiej funcji logicznej na zbiorze dostępnych wyrażeń np pożar AND mocne zadymienie AND prąd gaśniczy AND NOT (prąd eletryczny), b) wetora wag Q = (q 1,,q j ), gdzie q j stanowi wagę wyrażenia w zapytaniu i q j є <0,1> Jeżeli zapytanie Q będzie sładało się z poszuiwanych wyrażeń i w przypadu zastosowania innej reprezentacji ich wag niż Boolowsa, to otrzymany zostanie raning poszuiwanych doumentów Zastosowanie zapytania Q w wetorowej wagowej postaci wyrażeń i zastosowanie jednolitego zapisu, tj taiej samej wetorowej reprezentacji dla zbioru doumentów i wyrażeń w postaci macierzy A oraz wetora Q, umożliwia stworzenie raningu poszuiwanych doumentów Wyszuiwanie w tym przypadu opiera się na badaniu odległości, tóra jest oreślona za pomocą opisanych powyżej miar między wetorem zapytań Q sładającym się z wybranych wyrażeń i ich wag a macierzą A (wierszami w przyjętej w opracowaniu reprezentacji) W przypadu zastosowania reprezentacji Boolowsiej zarówno dla A ja i Q przy wyszuiwaniu nie opartym na mierze lecz na dopasowaniu, istnieje szereg problemów min: a) bra jest naturalnego znaczenia pojęcia odległości między zapytaniem a doumentem W wyniu wyszuiwania uzysiwany jest nieuporządowany zbiór (względem miary) doumentów, pasujących doładnie do zapytania Q, b) bra jest możliwości wprowadzenia raningu doumentów, c) powstaje problem z onstruowaniem wyrażeń boolowsich, stąd pojawia się problem użyteczności (ang usability) polegający na zrozumieniu przez 35
12 Marcin Mirończu, Przegląd metod i techni esploracji danych testowych użytownia sposobu formułowania tych wyrażeń i ich stosowaniu Mimo tych wad rozwiązanie oparte o reprezentacje Boolowsą jest dalej popularne i szeroo stosowane ze względu na implementacyjną prostotę i efetywność W celu przezwyciężenia ww problemów stosuje się rozszerzone podejścia boolowsie do reprezentacji i wyszuiwania doumentów, tóre pozwalają na uzysanie raningu (załadają one częściowe dopasowanie doumentów do zapytania) Wyorzystuje się również pozostałe wyżej wymienione odmiany reprezentacji doumentów testowych tj: częstotliwościową występowania wyrażeń, odwrotną częstość etc Ich głównym atutem jest to iż umożliwiają tworzenie raningu istotności zwracanych doumentów na podstawie zadanego wzorca Q Wyszuiwanie informacji reprezentacja grafowa W reprezentacji grafowej analogicznie ja w reprezentacji przestrzenno-wetorowej w celu np wyszuiwania informacji, należy oreślić czym jest podobieństwo pomiędzy samymi doumentami ja i doumentami a wzorcem zapytania Q Wzorzec zapytania Q w tym przypadu może być tratowany i reprezentowany jao pewnego rodzaju graf Schener i współpracownicy zdefiniowali ila miar, min: opartych na masymalnym wspólnym podgrafie, odległości edycyjnej (ile operacji należy wyonać aby przeształcić jeden graf w drugi) itp Po zdefiniowaniu odpowiednich miar możliwe jest taże przeprowadzenie innych niżej opisanych metod analizy testu ja np lasyfiacja czy grupowanie opisanych poniżej 2223 Klasyfiacja doumentów testowych Klasyfiacja, nazywana taże ategoryzacją, doumentów testowych polega na oreśleniu do jaiej lasy doumentów można zaliczyć wybrany test [18, 63-66] lub jego fragment [67, 68] Klasyfiacja odbywa się za pomocą wyznaczonego w procesie uczenia lasyfiatora, tóry będzie doonywał przyporządowania doumentów do jednej lub ilu uprzednio zdefiniowanych las Klasy te nie są definiowane wprost, lecz poprzez zbiór trenujący, tóry stanowi grupa doumentów już odpowiednio zalasyfiowana ręcznie np przez espertów W więszości przypadów lasy nie są zagnieżdżane, natomiast przyjmuje się, iż jeden doument może należeć do więcej niż jednej lasy Do ategoryzacji doumentów testowych używane są taie technii, ja: drzewa decyzyjne (ang decission tree), reguły decyzyjne, algorytmy najbliższych sąsiadów i związane z nimi różne metryi (min przedstawione w podpuncie 211), lasyfiator bayesowsi, sieci neuronowe, metody regresyjne czy też technii z zaresu maszyn wetorów wspierających (ang suport vector machines SVM) [69] oraz metody odnajdywania wspólnych podgrafów opartej na metodzie najbliższych sąsiadów ze specjalizowaną miarą odległości, w przypadu zastosowania modelu grafowego doumentów [30] 2224 Grupowanie doumentów testowych Grupowanie doumentów testowych polega na wyznaczeniu grup podobnych doumentów np ze względu na ich tematyę, min za pomocą analizy statystycznej słów występujących w teście [17, 18, 31, 70-72] Grupowanie doumentów testowych jest zadaniem porewnym do lasyfiacji W tym przypadu jedna system nie posiada wejściowej wiedzy w postaci już zawalifiowanych doumentów, czy też las wyznaczonych przez espertów Zadaniem tej metody jest taie pogrupowanie doumentów, by doumenty należące do jednej lasy były do siebie ja najbardziej podobne i jednocześnie różniły się znacząco od tych należących do innych las Do grupowania doumentów testowych używane są taie technii, ja: analiza supień, lastrowanie (ang clustering) [73], samoorganizujące się mapy (ang self-organization map) [74], algorytmy aprosymacji wartości oczeiwanej (ang expectationmaximization) [75] czy też zbiory przybliżone [76] 23 Wizualizacja Wizualizacja to metoda związana z ońcową realizacją analizy testu i wyonywana jest w celu zaprezentowania i lepszego zrozumienia otrzymanych wyniów Głównym celem wizualizacji jest zapewnienie inżynierowi wiedzy lub oprogramowania prostej metody interpretacji uzysanych wyniów Najczęściej wizualizacji poddawane są związi zachodzące pomiędzy wyodrębnionymi fatami lub zależności zachodzące w struturze rozpatrywanego zbioru doumentów testowych [34] Metody wizualizacyjne związane są zarówno z inżynierią wiedzy ja i esploracyjną analizą testu Do najbardziej znanych metod reprezentacji (wizualizacji) wyniów (danych), należą: sieci semantyczne związane z ontologiami, raty pojęć (ang line diagrams) wyorzystywane w formalnej analizie pojęć (ang formal concept analysis FCA), histogramy, grafy strony internetowych (ang websites as graphs), wyresy słupowe, olumnowe, mapy znaczeń (ang mindmaps), wyresy gwiazdowe, macierze orelacji 36
13 Studia i Materiały Informatyi Stosowanej, Tom 4, Nr 6, 2012 str narysowane jao obrazy piselowe wyorzystywane w wyszuiwaniu, lasyfiowaniu oraz grupowaniu doumentów testowych [20, 72, 77-79] Przyład wizualizacji za pomocą piselowych macierzy orelacji stosowanych podczas wyszuiwania doumentów testowych W przypadu gdy doumenty są reprezentowane za pomocą modelu wetorowego (podpunt 211) i gdy jest budowana macierz strutury reprezentacji przestrzenno-wetorowej doumentów (rysune 2) o znacznych wymiarach wówczas pomocne oazują się piselowe macierze orelacji Ułatwiają one porównanie i wyznaczenie podobnych do siebie doumentów Przyładową piselową macierz orelacji przedstawia rysune 4 Rysune 4 Odległość między parami doumentów Źródło: [opracowanie własne] Rysune 4 przedstawia sytuację, w tórej do porównania zostały wzięte trzy doumenty, ta więc macierz A ma wymiary 3x3 Stopień orelacji pomiędzy doumentami oreśla się na podstawie wybranej odległości (podpunt 222): Minowsiego, osinusowej, Jacarda czy też Dicea Odległość pomiędzy doumentami w rozpatrywanej macierzy została znormalizowana do 1 i wartościom od 0 do 1 przypisano odpowiednią salę barw Kwadraty blisie niebiesiemu oznaczają doumenty mniej podobne do siebie, blisie czerwonemu zaś bardziej podobne W przypadu, gdy np zostanie użyta odległość osinusowa to wówczas: bardziej czerwone pisele odpowiadać będą więszym wartościom osinusa (bliższe ąty), a bardziej niebiesie dopowiadać mniejszym wartościom osinusa (więsze ąty) 3 PODSUMOWANIE I WNIOSKI W procesie wstępnego przetwarzania analizy doumentów testowych stosuje się zabiegi związane 37 z automatyczną oretą testów (ortograficzną, gramatyczną) w celu polepszenia jaości doonywanej analizy Dodatowo w tym celu stosuje się również taie metody, ja: wyrywanie ońca zdań, analizę morfologiczną, usuwanie niejednoznaczności (estracja rdzeni wyrażeń, lematyzacja), wyrywanie występowania zaimów, wyrywanie nazw własnych i terminów specjalistycznych, rozład zdań złożonych na zdania proste, rozpoznawanie wyrażeń rzeczowniowych oraz grup czasowniowych, zmniejszanie liter wyrażeń etc Zadania te należą do głęboiej analizy testu Podczas doonywania płytiej analizy testu we wstępnym przetwarzaniu zazwyczaj wyorzystuje się tylo część techni z głęboiej analiza testu Rola jej ograniczana jest najczęściej do odfiltrowania zbędnych wyrażeń, znalezienia formy podstawowej wyrażenia lub wyestrahowania i uwypulenia najważniejszych poszuiwanych cech w zależności od rodzaju doonywanej analizy W dalszym procesie płytiej analizy pomija się jedna rozpoznawanie wewnętrznej strutury i funcji wyrażeń w zdaniach czy całych testach Ze względu na zastosowanie niepełnej głęboiej analizy testu na początu procesu płytiej analizy, otrzymywany jest ompromis w postaci hybrydowego przetwarzania testu W wielu przypadach np podczas przeszuiwania i wyszuiwania doumentów zastosowanie płytiej analizy testu z elementami złożonej analizy we wstępnym przetwarzaniu oazuje się wystarczającym podejściem do uzysania potrzebnych informacji Uproszczenia pozwalają na uzysanie oszczędności czasu w przetwarzaniu dużych orpusów i grup doumentów testowych Pomimo ich zastosowania płyta analiza testu wciąż jest procesem złożonym i silnie związanym z jaością danych testowych (użytego języa i jego poprawności do opisu pewnej rzeczywistości) oraz ze słownictwem, tóre wyznacza ontest doumentów np raporty biznesowe będą posiadać inne słownictwo niż raporty z acji ratowniczo-gaśniczych Kontest ten powoduje iż trzeba będzie poszuiwać i modelować różne zagadnienia i starać się estrahować cechy specyficzne dla danej dziedziny Powoduje to potrzebę tworzenia narzędzi dedyowanych i profilowanych pod daną dziedzinę zastosowań, nie zaś uniwersalnych, działających na dużym poziomie abstracji niezależnym od dziedziny i ontestu analizy Oczywiście sam mechanizm taiego wysoo abstracyjnego, wstępnego przetwarzania doumentów testowych, może być zaimplementowany Główny rdzeń płytiej analizy, prowadzący np do
14 Marcin Mirończu, Przegląd metod i techni esploracji danych testowych wyestrahowania cech analizowanej dziedziny i przetworzenia wyniów w ontologie, już taim automatycznym procesem być nie musi Wynia to z tego, iż espert z danej dziedziny decyduje o tym czy pozysane atrybuty są przydatne czy też nie w modelowaniu danego zjawisa Algorytm, czy wybrana technia, jest sama w sobie mało użyteczna w tym sensie, że to człowie nadaje znaczenie uzysanym rezultatom w wyniu zastosowania taiego a nie innego podejścia w badaniach Należy podreślić fat, że wyżej wymienione i opisane metody analizy w zastosowaniach coraz bardziej przestają być autonomiczne Należy przez to rozumieć, że w celu przeprowadzenia np wyszuiwania testu stosuje się zabiegi związane z grupowaniem doumentów testowych lub grupowaniem pojęć przy wyorzystaniu przyładowo metody urytego indesowania semantycznego [20, 58, 80] Zabiegi te mają zazwyczaj na celu zmniejszenie, w tym przypadu, przestrzeni wyszuiwanych doumentów oraz indesujących je wyrażeń Poprzez taie mieszane podejście omponowania techni uzysuje się znaczną poprawę jaości przeprowadzanej analizy W przypadu wyszuiwania testów następuje polepszenie stosunu doładności do ompletności w zwracanej odpowiedzi, inaczej mówiąc polepsza się precyzja i przywołanie doumentów testowych na podstawie wygenerowanego zapytania Możliwe staje się taże, w przypadu łączenia wyszuiwania z grupowaniem, otrzymanie wydzielonych grup tematycznych doumentów w zależności od zadanego wzorca wyszuiwania Każda metoda charateryzuje się własnym sposobem oceniania jaości i dobieraniem odpowiedniej do tego miary Zagadnienia te są specyficzne i zależne od sposobu wybranej reprezentacji testu ja i algorytmu przetwarzania testu a nawet samego sposobu indesowania (różne sposoby indesowania i metody mogą wpływać np na szybość analizy) Wobec tego mierzenie jaości tórejś z metod ja i procesu esploracji doumentów testowych wydaje się być procesem wielowymiarowym i złożonym, zależnym od tego co chcemy osiągnąć w badaniu Musi jedna pozostać obietywne, reprezentatywne i rytyczne Literatura [1] Mirończu M Esploracja Danych w ontescie procesu Knowledge Discovery In Databases (KDD) i metodologii Cross-Industry Standard Process for Data Mining (CRISP-DM) Metody Informatyi Stosowanej, No 2, 2009 [2] Mirończu M Zmodyfiowana analiza FMEA z elementami SFTA w projetowaniu systemu wyszuiwania informacji na temat obietów hydrotechnicznych w nierelacyjnym atalogowym rejestrze Studia Informatica, No 2, 2011 [3] Mirończu M, Macia T Problematya projetowania modelu hybrydowego systemu wspomagania decyzji dla Państwowej Straży Pożarnej Zeszyty Nauowe SGSP, No 39, 2009 [4] Rozporządzenie Ministra Spraw Wewnętrznych i Administracji z dnia 29 grudnia 1999 r w sprawie szczegółowych zasad organizacji rajowego systemu ratowniczo-gaśniczego DzU pt 5 i 6 [5] Abaus: System EWID99 [on-line] [dostęp: 1 maja 2009] Dostępny w Internecie: [6] Abaus: System EWIDSTAT [on-line] [dostęp: 1 maja 2009] Dostępny w Internecie: [7] Strona firmy abaus [on-line] [dostęp: 1 marca 2009] Dostępny w Internecie: [8] Krasusi A, Kreńs K Ewid 9x i co dalej? Przegląd Pożarniczy, No 6, 2006 [9] Mirończu M Przegląd i lasyfiacja zastosowań, metod oraz techni esploracji danych Studia i Materiały Informatyi Stosowanej SIMIS, No 2, 2010 [10] Myowieca A Inżynieria lingwistyczna Komputerowe przetwarzanie testów w języu naturalnym Warszawa: PJWSTK, 2007 [11] Przepiórowsi A Technii dezambiguacji morfo syntatycznej Powierzchniowe przetwarzanie języa polsiego Warszawa: Aademica oficyna wydawnicza EXIT, 2008 s [12] Vetulani Z Komuniacja człowiea z maszyną Komputerowe modelowanie ompetencji języowej Warszawa: Aademica Oficyna Wydawnicza Exit, 2004 [13] Przepiórowsi A, Kupść A, Marcinia M, Myowieca A Formalny opis języa polsiego Teoria i implementacja Warszawa: Aademica Ofcyna Wydawnicza Exit, 2002 [14] Lubaszewsi W (redator) Słownii omputerowe i automatyczna estracja informacji z testu Kraów: AGH, 2009 [15] Feldman R, Dagan I, Hirsh H Mining Text Using Keyword Distributions Journal of Intelligent Information Systems, No 10, 1998 [16] Witten I H, Don K J, Dewsnip M, Tablan V Text mining in a digital library International Journal on Digital Libraries, No 4, 2004, s
15 Studia i Materiały Informatyi Stosowanej, Tom 4, Nr 6, 2012 str [17] Kozłowsi J, Neuman Ł Wspomaganie wyszuiwania doumentów mapami samoorganizującymi [Wrocław]: III Krajowa Konferencja MISSI 2002, września - Multimedialne i Sieciowe Systemy Informacyjne, 2002 [dostęp: 10 czerwca 2009] Dostępny w Internecie: [18] Boryci Ł, Sołdaci P Automatyczna lasyfiacja testów [Wrocław]: III Krajowa Konferencja MISSI 2002, września - Multimedialne i Sieciowe Systemy Informacyjne, 2002 [dostęp: 10 czerwca 2009] Dostępny w Internecie: [19] Neumann G, Pisorsi J A Shallow Text Processing Core Engine Computational Intelligence, No 18, 2002, s [20] Hand D,, Mannila H, Smith P Esploracja danych Wydanie 1 Warszawa: Wydawnictwo Nauowo- Techniczne, 2005 [21] Morzy M, Króliowsi Z Metody indesowania atrybutów zawierajacych zbiory Pro Dialog, No 15, 2003, s [22] Dudcza A Zastosowanie wybranych metod esploracji danych do tworzenia streszczeń testów prasowych dla języa polsiego Wydział Informatyi i Zarządzania Instytut Informatyi Poznań: Politechnia Poznańsa 2007 [23] Goldszmidt M, Sahami M A Probabilistic Approach to Full-Text Document Clustering 1998 [24] Singhal A, Bucley C, Mitra M, Mitra A Pivoted Document Length Normalization ACM Press, 1996, s [25] Robertson S E, Waler S, Jones S, Hancoc-Beaulieu M M, Gatford M Oapi at TREC , s [26] Lin D Using syntactic dependency as local context to resolve word sense ambiguity [Madrid, Spain]: Annual Meeting of the ACL Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics and Eighth Conference of the European Chapter of the Association for Computational Linguistics, 1997 [27] Matsuo Y, Ishizua M Keyword Extraction From A Single Document Using Word Co-Occurrence Statistical Information International Journal on Artificial Intelligence Tools, No 13, 2004, s [28] Maciołe P, Dobrowolsi G Propozycja metody lasyfiacji doumentów w języu polsim In: Grzech A, Juszczyszyn K, Kwaśnica H and Nguyes NT, editors Inżynieria wiedzy i systemy espertowe Warszawa: Aademica oficyna wydawnicza EXIT, 2009 [29] Chow T W S, Haijun Zhang, Rahman M K M A new document representation using term frequency and vectorized graph connectionists with application to document retrieval Expert Systems with Applications, No 36, 2009, s [30] Schener A, Kandel A, Bune H, Last M Graph- Theoretic Techniques for Web Content Mining World Scientific Publishing Co, 2005 [31] Broda B Mechanizmy grupowania doumentów w automatycznej estracji sieci semantycznych dla języa polsiego Wydział Informatyi i Zarządzania Wrocław: Politechnia Wrocławsa, 2007 [32] Gruber T R A translation approach to portable ontology specifications Knowledge Acquisition, No 5, 1993, s [33] Meyer B Programowanie zorientowane obietowo 2005 [34] Lula P Text mining jao narzędzie pozysiwania informacji z doumentów testowych StatSoft, 2005 [35] Savinov A Concept-Oriented Model In: Ferraggine V E, Doorn J H, Rivero L C, editors Handboo of Research on Innovations in Database Technologies and Applications: Current and Future Trends: IGI Global, 2009 [36] Savinov A Principles of the Concept-Oriented Data Model 2004 [dostęp: 22 grudnia 2009] Dostępny w Internecie: 04pdf [37] Savinov A Informal introduction into the Concept- Oriented Data Model 2005 [dostęp: 22 grudnia 2009] Dostępny w Internecie: pdf [38] Savinov AA Concept-Oriented Model and Query Language CoRR, No abs/ , 2009 [39] Praca zbiorowa Wiipedia Full text search [dostęp: 22 grudnia 2009] Dostępny w Internecie: [40] Moens M F Information Extraction: Algorithms and Prospects in a Retrieval Context (The Information Retrieval Series) Springer, 2006 [41] Biel D M, Schwartz R, Weischedel R M An Algorithm that Learns What's in a Name Machne Learning, 1999, s [42] McNamee P Language identification: a solved problem suitable for undergraduate instruction Journal of Computing Sciences in Colleges, No 20, 2005, s
16 Marcin Mirończu, Przegląd metod i techni esploracji danych testowych [43] He X, Yang M, Gao J, Nguyen P, Moore R Improved Monolingual Hypothesis Alignment for Machine Translation System Combination No 8, 2009, s 1-19 [44] Feng Y, Liu Y, Mi H, Liu Q Lattice-based system combination for statistical machine translation [Singapore]: Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing Volume 3, 2009 [45] He X, Toutanova K Joint optimization for machine translation system combination [Singapore]: Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing Volume 3, 2009 [46] Afantenos S, Karaletsis V, Stamatopoulos P Summarization from medical documents: a survey No 33, 2005, s [47] Turney P D Learning Algorithms for Keyphrase Extraction Information retrieval, No 2, 2000, s [48] Turney P D Mining the Web for Lexical Knowledge to Improve Keyphrase Extraction: Learning from Labeled and Unlabeled Data 2002 [49] Indya-Piaseca A Model użytownia w internetowych systemach wyszuiwania informacji Wydział Informatyi i Zarządzania Wrocław: Politechnia Wrocławsa, 2004 [50] Dasgupta A, Drineas P, Harb B, Josifovsi V, Mahoney M W Feature selection methods for text classification [San Jose, California, USA]: Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining, 2007 [51] Li S, Xia R, Zong C, Huang C R A framewor of feature selection methods for text categorization [Suntec, Singapore]: Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP Volume 2, 2009 [52] Karlgren J, Sahlgren M From Words to Understanding 2001 [dostęp: 10 stycznia 2010] Dostępny w Internecie: df [53] Liu H, Yu L Toward integrating feature selection algorithms for classification and clustering Knowledge and Data Engineering, IEEE Transactions on, No 17, 2005, s [54] Guyon I, Elisseeff A Introduction to Feature Extraction Studies in Fuzziness and Soft Computing Berlin/Heidelberg: Springer 2006 [55] Torola K Feature extraction by non parametric mutual information maximization The Journal of Machine Learning Research, No 3, 2003, s [56] Pal S K, Mitra P Pattern Recognition Algorithms for Data Mining Scalability, Knowledge Discovery and Soft Granular Computing London New Yor Washington, DC: CHAPMAN & HALL/CRC, 2004 [57] Praca zbiorowa JMLR Special Issue on Variable and Feature Selection [dostęp: 5 stycznia 2010] Dostępny w Internecie: [58] Deerwester S, Dumais S T, Furnas G W, Landauer T K, Harshman R Indexing by latent semantic analysis Journal of the American Society for Information Science, No 41, 1990, s [59] Kozłowsi M Systemy uczące się - studium problemów Warszawa: Politechnia Warszawsa, Wydział Eletronii i Techni Informacyjnych [dostęp: 12 stycznia 2010] Dostępny w Internecie: sipdf [60] Tuv E Ensemble Learning In: Guyon I, Gunn S, Niravesh M, Zadeh L A, editors Feature Extraction: Foundations and Applications (Studies in Fuzziness and Soft Computing) (Hardcover): Springer, 2006 [61] Baeza-Yates R, Ribeiro-Neto B Modern Information Retrieval Boston: Addison-Wesley Longman Publishing, 1999 [62] Manning C D, Raghavan P, Schtze H Introduction to Information Retrieval Cambridge University Press India, 2008 [63] Song F, Liu S, Yang J A comparative study on text representation schemes in text categorization Pattern Analysis & Applications, No 8, 2005, s [64] Weigend A S, Wiener E D, Pedersen J O Exploiting Hierarchy in Text Categorization Information Retrieval, No 1, 1999 [65] Yang Y, Liu X A re-examination of text categorization methods [New Yor]: ACM SIGIR Conference of Research and Development in Information Retrieval, 1998 [66] Łażewsi Ł, Piuła M, Siemion A, Szlarzewsi M Klasyfiacja doumentów testowych Warszawa: PJWSTK 2005 Dostępny w Internecie: [67] Agarwal S, Yu H Automatically classifying sentences in full-text biomedical articles into Introduction, Methods, Results and Discussion Bioinformatics, No 25, 2009, s [68] Sebastiani F Machine learning in automated text categorization ACM Comput Surv, No 34, 2002, s 1-47 [69] Aas K, Eivil L Text Categorisation: A Survey Technical Report, Norwegian Computing Center,
17 Studia i Materiały Informatyi Stosowanej, Tom 4, Nr 6, 2012 str [70] Weiss S, White B, Apte C, Weiss S M, White B F, Apte V Lightweight Document Clustering 2000 [71] Domeniconi C, Gunopulos D, Ma S, Papadopoulos D, Yan B Locally adaptive metrics for clustering high dimensional data Data Mining and Knowledge Discovery, No 1, 2006, s [72] Sola J L Text Data Mining: Theory and Methods Statistic Survey [73] Everitt B S, Landau S, Leese M Cluster Analysis 2001 [74] Kohonen T Self-Organizing Maps In: Sciences SSiI, editor Wydanie 3 Berlin: Springer, 2001 [75] Dempster A P, Laird N M, Rdin D B Maximum Lielihood from Incomplete Data via the EM Algorithm Journal of the Royal Statistical Society, No 39, 1977, s 1-38 [76] Rutowsi L Metody i technii sztucznej inteligencji Wydawnictwo Nauowe PWN, 2005 [77] Wolff K E A first course in formal concept analysis 1994 [dostęp: 22 grudnia 2009] Dostępny w Internecie: _Formal_Concept_Analysispdf [78] Friedman V Data Visualization: Modern Approaches [dostęp: 29 grudnia 2009] Dostępny w Internecie: [79] Piwowar K Wizualizacja danych a ich używalność czyli poazać to ta, aby inni to zrozumieli [dostęp: 29 grudnia 2009] Dostępny w Internecie: esperci/blogi/wizualizacja-danych-a-ich-uzywalnosc czyli-poazac-to-ta-aby-inni-to-zrozumieli-384 [80] Osińsi S, Weiss D Projet Lingo i Carrot2 [dostęp: 1 stycznia 2010] Dostępny w Internecie: Projet współfinansowany ze środów Europejsiego Funduszu Społecznego w ramach Programu Operacyjnego Kapitał Ludzi Działanie 82 Transfer wiedzy, Poddziałanie 822 Regionalne strategie innowacji, budżetu państwa oraz środów Samorządu Województwa Podlasiego 41
MODYFIKACJA KOSZTOWA ALGORYTMU JOHNSONA DO SZEREGOWANIA ZADAŃ BUDOWLANYCH
MODYFICJ OSZTOW LGORYTMU JOHNSON DO SZEREGOWNI ZDŃ UDOWLNYCH Michał RZEMIŃSI, Paweł NOW a a Wydział Inżynierii Lądowej, Załad Inżynierii Producji i Zarządzania w udownictwie, ul. rmii Ludowej 6, -67 Warszawa
A. Cel ćwiczenia. B. Część teoretyczna
A. Cel ćwiczenia Celem ćwiczenia jest zapoznanie się z wsaźniami esploatacyjnymi eletronicznych systemów bezpieczeństwa oraz wyorzystaniem ich do alizacji procesu esplatacji z uwzględnieniem przeglądów
Grupowanie sekwencji czasowych
BIULETYN INSTYTUTU AUTOMATYKI I ROBOTYKI NR 3, 006 Grupowanie sewencji czasowych Tomasz PAŁYS Załad Automatyi, Instytut Teleinformatyi i Automatyi WAT, ul. Kalisiego, 00-908 Warszawa STRESZCZENIE: W artyule
wtedy i tylko wtedy, gdy rozwiązanie i jest nie gorsze od j względem k-tego kryterium. 2) Macierz części wspólnej Utwórz macierz
Temat: Programowanie wieloryterialne. Ujęcie dysretne.. Problem programowania wieloryterialnego. Z programowaniem wieloryterialnym mamy do czynienia, gdy w problemie decyzyjnym występuje więcej niż jedno
OPTYMALIZACJA PRZEPUSTOWOŚCI SIECI KOMPUTEROWYCH ZA POMOCĄ ALGORYTMÓW GENETYCZNYCH
OPTYMALIZACJA PRZEPUSTOWOŚCI SIECI KOMPUTEROWYCH ZA POMOCĄ ALGORYTMÓW GENETYCZNYCH Andrzej SZYMONIK, Krzysztof PYTEL Streszczenie: W złożonych sieciach omputerowych istnieje problem doboru przepustowości
Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu
Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu
TEORIA OBWODÓW I SYGNAŁÓW LABORATORIUM
EORI OBWODÓW I SYGNŁÓW LBORORIUM KDEMI MORSK Katedra eleomuniacji Morsiej Ćwiczenie nr 2: eoria obwodów i sygnałów laboratorium ĆWICZENIE 2 BDNIE WIDM SYGNŁÓW OKRESOWYCH. Cel ćwiczenia Celem ćwiczenia
Optymalizacja harmonogramów budowlanych - problem szeregowania zadań
Mieczysław POŁOŃSKI Wydział Budownictwa i Inżynierii Środowisa, Szoła Główna Gospodarstwa Wiejsiego, Warszawa, ul. Nowoursynowsa 159 e-mail: mieczyslaw_polonsi@sggw.pl Założenia Optymalizacja harmonogramów
Podstawy rachunku prawdopodobieństwa (przypomnienie)
. Zdarzenia odstawy rachunu prawdopodobieństwa (przypomnienie). rawdopodobieństwo 3. Zmienne losowe 4. rzyład rozładu zmiennej losowej. Zdarzenia (events( events) Zdarzenia elementarne Ω - zbiór zdarzeń
ZARYS METODY OPISU KSZTAŁTOWANIA SKUTECZNOŚCI W SYSTEMIE EKSPLOATACJI WOJSKOWYCH STATKÓW POWIETRZNYCH
Henry TOMASZEK Ryszard KALETA Mariusz ZIEJA Instytut Techniczny Wojs Lotniczych PRACE AUKOWE ITWL Zeszyt 33, s. 33 43, 2013 r. DOI 10.2478/afit-2013-0003 ZARYS METODY OPISU KSZTAŁTOWAIA SKUTECZOŚCI W SYSTEMIE
DSP-MATLAB, Ćwiczenie 5, P.Korohoda, KE AGH. Ćwiczenie 5. Przemysław Korohoda, KE, AGH
DSP-MATLAB, Ćwiczenie 5, P.Korohoda, KE AGH Instrucja do laboratorium z cyfrowego przetwarzania sygnałów Ćwiczenie 5 Wybrane właściwości Dysretnej Transformacji Fouriera Przemysław Korohoda, KE, AGH Zawartość
Ćwiczenie 4 Badanie wpływu asymetrii obciążenia na pracę sieci
Ćwiczenie 4 - Badanie wpływu asymetrii obciążenia na pracę sieci Strona 1/13 Ćwiczenie 4 Badanie wpływu asymetrii obciążenia na pracę sieci Spis treści 1.Cel ćwiczenia...2 2.Wstęp...2 2.1.Wprowadzenie
PLAN WYKŁADU OPTYMALIZACJA GLOBALNA ALGORYTM MRÓWKOWY (ANT SYSTEM) ALGORYTM MRÓWKOWY. Algorytm mrówkowy
PLAN WYKŁADU Algorytm mrówowy OPTYMALIZACJA GLOBALNA Wyład 8 dr inż. Agniesza Bołtuć (ANT SYSTEM) Inspiracja: Zachowanie mrówe podczas poszuiwania żywności, Zachowanie to polega na tym, że jeśli do żywności
Aproksymacja funkcji a regresja symboliczna
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą
Wyszukiwanie informacji w internecie. Nguyen Hung Son
Wyszukiwanie informacji w internecie Nguyen Hung Son Jak znaleźć informację w internecie? Wyszukiwarki internetowe: Potężne machiny wykorzystujące najnowsze metody z różnych dziedzin Architektura: trzy
Modelowanie przez zjawiska przybliżone. Modelowanie poprzez zjawiska uproszczone. Modelowanie przez analogie. Modelowanie matematyczne
Modelowanie rzeczywistości- JAK? Modelowanie przez zjawisa przybliżone Modelowanie poprzez zjawisa uproszczone Modelowanie przez analogie Modelowanie matematyczne Przyłady modelowania Modelowanie przez
LABORATORIUM 4: Wpływ operatorów mutacji na skuteczność poszukiwań AE
Instytut Mechanii i Inżynierii Obliczeniowej Wydział Mechaniczny Technologiczny, Politechnia Śląsa www.imio.polsl.pl OBLICZENIA EWOLUCYJNE LABORATORIUM 4: Wpływ operatorów mutacji na suteczność poszuiwań
S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor
S O M SELF-ORGANIZING MAPS Przemysław Szczepańczyk Łukasz Myszor Podstawy teoretyczne Map Samoorganizujących się stworzył prof. Teuvo Kohonen (1982 r.). SOM wywodzi się ze sztucznych sieci neuronowych.
SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.
SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:
ALGORYTM RANDOM FOREST
SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM
Analiza korespondencji
Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy
Metody numeryczne. Instytut Sterowania i Systemów Informatycznych Wydział Elektrotechniki, Informatyki i Telekomunikacji Uniwersytet Zielonogórski
Metody numeryczne Instytut Sterowania i Systemów Informatycznych Wydział Eletrotechnii, Informatyi i Teleomuniacji Uniwersytet Zielonogórsi Eletrotechnia stacjonarne-dzienne pierwszego stopnia z tyt. inżyniera
Wydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych
Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Informatyki i Elektroniki Instrukcja do zajęć laboratoryjnych wersja: 1.0 Nr ćwiczenia: 12, 13 Temat: Cel ćwiczenia: Wymagane przygotowanie
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia
ROZDZIAŁ 10 METODA KOMPONOWANIA ZESPOŁU CZYNNIKI EFEKTYWNOŚCI SKŁADU ZESPOŁU
Agniesza Dziurzańsa ROZDZIAŁ 10 METODA KOMPONOWANIA ZESPOŁU 10.1. CZYNNIKI EFEKTYWNOŚCI SKŁADU ZESPOŁU Przeprowadzona analiza formacji, jaą jest zespół (zobacz rozdział 5), wyazała, że cechy tóre powstają
Restauracja a poprawa jakości obrazów
Restauracja obrazów Zadaniem metod restauracji obrazu jest taie jego przeształcenie aby zmniejszyć (usunąć) znieształcenia obrazu powstające przy jego rejestracji. Suteczność metod restauracji obrazu zależy
Znaczenie kapitału ludzkiego w budowie spójności społeczno-gospodarczej w wymiarze lokalnym (na przykładzie woj. mazowieckiego)
Znaczenie apitału ludziego w budowie spójności społeczno-gospodarczej... 365 Dr hab. Danuta Kołodziejczy Instytut Eonomii Rolnictwa i Gospodari Żywnościowej Państwowy Instytut Badawczy Znaczenie apitału
Prognozowanie notowań pakietów akcji poprzez ortogonalizację szeregów czasowych 1
Prognozowanie notowań paietów acji poprzez ortogonalizację szeregów czasowych Andrzej Kasprzyci. WSĘP Dynamię rynu finansowego opisuje się indesami agregatowymi: cen, ilości i wartości. Indes giełdowy
( ) + ( ) T ( ) + E IE E E. Obliczanie gradientu błędu metodą układu dołączonego
Obliczanie gradientu błędu metodą uładu dołączonego /9 Obliczanie gradientu błędu metodą uładu dołączonego Chodzi o wyznaczenie pochodnych cząstowych funcji błędu E względem parametrów elementów uładu
Elementy modelowania matematycznego
Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski
w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(), zwaną funkcją aproksymującą
Komputerowa reprezentacja oraz prezentacja i graficzna edycja krzywoliniowych obiektów 3d
Komputerowa reprezentacja oraz prezentacja i graficzna edycja rzywoliniowych obietów 3d Jan Prusaowsi 1), Ryszard Winiarczy 1,2), Krzysztof Sabe 2) 1) Politechnia Śląsa w Gliwicach, 2) Instytut Informatyi
Wpływ zamiany typów elektrowni wiatrowych o porównywalnych parametrach na współpracę z węzłem sieciowym
Wpływ zamiany typów eletrowni wiatrowych o porównywalnych parametrach na współpracę z węzłem sieciowym Grzegorz Barzy Paweł Szwed Instytut Eletrotechnii Politechnia Szczecińsa 1. Wstęp Ostatnie ila lat,
Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl
Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl 1. Wstęp Aby skorzystać z możliwości RapidMinera w zakresie analizy tekstu, należy zainstalować Text Mining Extension. Wybierz: 1 Po
1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie
Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty
METODY INŻYNIERII WIEDZY ASOCJACYJNA REPREZENTACJA POWIĄZANYCH TABEL I WNIOSKOWANIE IGOR CZAJKOWSKI
METODY INŻYNIERII WIEDZY ASOCJACYJNA REPREZENTACJA POWIĄZANYCH TABEL I WNIOSKOWANIE IGOR CZAJKOWSKI CELE PROJEKTU Transformacja dowolnej bazy danych w min. 3 postaci normalnej do postaci Asocjacyjnej Grafowej
Wybrane rozkłady zmiennych losowych i ich charakterystyki
Rozdział 1 Wybrane rozłady zmiennych losowych i ich charaterystyi 1.1 Wybrane rozłady zmiennych losowych typu soowego 1.1.1 Rozład równomierny Rozpatrzmy esperyment, tóry może sończyć się jednym z n możliwych
(U.3) Podstawy formalizmu mechaniki kwantowej
3.10.2004 24. (U.3) Podstawy formalizmu mechanii wantowej 33 Rozdział 24 (U.3) Podstawy formalizmu mechanii wantowej 24.1 Wartości oczeiwane i dyspersje dla stanu superponowanego 24.1.1 Założenia wstępne
Matematyka dyskretna. Wykład 2: Kombinatoryka. Gniewomir Sarbicki
Matematya dysretna Wyład 2: Kombinatorya Gniewomir Sarbici Kombinatorya Definicja Kombinatorya zajmuje się oreślaniem mocy zbiorów sończonych, w szczególności mocy zbiorów odwzorowań jednego zbioru w drugi
CYKLICZNY PROBLEM PRZEPŁYWOWY Z PRZEZBROJENIAMI MASZYN
CYKLICZNY PROBLEM PRZEPŁYWOWY Z PRZEZBROJENIAMI MASZYN Wojciech BOŻEJKO, Łuasz KACPRZAK, Mieczysław WODECKI Streszczenie: W pracy zajmujemy się cylicznym problemem przepływowym z przezbrojeniami maszyn.
NEURONOWE MODELOWANIE OCENY JAKOŚCI USŁUG TRANSPORTOWYCH
Andrzej ŚWIDERSKI Wojsowa Aademia Techniczna Wydział Mechaniczny Załad Systemów Jaości i Zarządzania 02-010 Warszawa, ul. Nowowiejsa 26 aswidersi@wat.edu.pl NEURONOWE MODELOWANIE OCENY JAKOŚCI USŁUG TRANSPORTOWYCH
Optymalizacja harmonogramów budowlanych - problem szeregowania zadań
Mieczysław OŁOŃSI Wydział Budownictwa i Inżynierii Środowisa, Szoła Główna Gospodarstwa Wiejsiego, Warszawa, ul. Nowoursynowsa 159 e-mail: mieczyslaw_polonsi@sggw.pl Założenia Optymalizacja harmonogramów
R w =
Laboratorium Eletrotechnii i eletronii LABORATORM 6 Temat ćwiczenia: BADANE ZASLACZY ELEKTRONCZNYCH - pomiary w obwodach prądu stałego Wyznaczanie charaterysty prądowo-napięciowych i charaterysty mocy.
Wykład 9. Fizyka 1 (Informatyka - EEIiA 2006/07)
Wyład 9 Fizya 1 (Informatya - EEIiA 006/07) 9 11 006 c Mariusz Krasińsi 006 Spis treści 1 Ruch drgający. Dlaczego właśnie harmoniczny? 1 Drgania harmoniczne proste 1.1 Zależność między wychyleniem, prędością
Hurtownie danych. Przetwarzanie zapytań. http://zajecia.jakubw.pl/hur ZAPYTANIA NA ZAPLECZU
Hurtownie danych Przetwarzanie zapytań. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/hur ZAPYTANIA NA ZAPLECZU Magazyny danych operacyjnych, źródła Centralna hurtownia danych Hurtownie
SPOTKANIE 2: Wprowadzenie cz. I
Wrocław University of Technology SPOTKANIE 2: Wprowadzenie cz. I Piotr Klukowski Studenckie Koło Naukowe Estymator piotr.klukowski@pwr.edu.pl 17.10.2016 UCZENIE MASZYNOWE 2/27 UCZENIE MASZYNOWE = Konstruowanie
Zagadnienia AI wykład 3
Zagadnienia I wyład 3 Rozmyte systemy wniosujące by móc sterować pewnym procesem technologicznym lub tez pracą urządzeń onieczne jest zbudowanie modelu, na podstawie tórego można będzie podejmować decyzje
A i A j lub A j A i. Operator γ : 2 X 2 X jest ciągły gdy
3. Wyład 7: Inducja i reursja struturalna. Termy i podstawianie termów. Dla uninięcia nieporozumień notacyjnych wprowadzimy rozróżnienie między funcjami i operatorami. Operatorem γ w zbiorze X jest funcja
A4: Filtry aktywne rzędu II i IV
A4: Filtry atywne rzędu II i IV Jace Grela, Radosław Strzała 3 maja 29 1 Wstęp 1.1 Wzory Poniżej zamieszczamy podstawowe wzory i definicje, tórych używaliśmy w obliczeniach: 1. Związe między stałą czasową
4.15 Badanie dyfrakcji światła laserowego na krysztale koloidalnym(o19)
256 Fale 4.15 Badanie dyfracji światła laserowego na rysztale oloidalnym(o19) Celem ćwiczenia jest wyznaczenie stałej sieci dwuwymiarowego ryształu oloidalnego metodą dyfracji światła laserowego. Zagadnienia
4. Weryfikacja modelu
4. Weryfiacja modelu Wyznaczenie wetora parametrów struturalnych uładu ończy etap estymacji. Kolejnym etapem jest etap weryfiacji modelu. Przeprowadza się ją w dwóch ujęciach: merytorycznym i statystycznym.
Algebra liniowa z geometrią analityczną
WYKŁAD. Własności zbiorów liczbowych. Podzielność liczb całowitych, relacja przystawania modulo, twierdzenie chińsie o resztach. Liczby całowite Liczby 0,±,±,±3,... nazywamy liczbami całowitymi. Zbiór
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji
SZTUCZNA INTELIGENCJA
ZTUCZNA INTELIGENCJA WYKŁAD 6. ALGORYTMY GENETYCZNE - CHEMATY, METODY ELEKCJI Częstochowa 204 Dr hab. inż. Grzegorz Dude Wydział Eletryczny Politechnia Częstochowsa CHEMATY chemat zbór chromosomów o wspólnych
Metoda rozwiązywania układu równań liniowych z symetryczną, nieokreśloną macierzą współczynników ( 0 )
MATEMATYKA STOSOWANA 7, 2006 Izabella Czochralsa (Warszawa) Metoda rozwiązywania uładu równań liniowych z symetryczną, nieoreśloną macierzą współczynniów ( 0 ) Streszczenie. W pracy zaadaptowano opracowaną
METODY GENERACJI I SELEKCJI CECH GRAFU W ROZPOZNAWANIU ZDJĘĆ SATELITARNYCH *)
Wojciech CZECH METODY GENERACJI I SELEKCJI CECH GRAFU W ROZPOZNAWANIU ZDJĘĆ SATELITARNYCH *) STRESZCZENIE W pracy tej przedstawiona została nowa metoda rozpoznawania zdjęć satelitarnych i lotniczych w
WYMAGANIA Z WIEDZY I UMIEJĘTNOŚCI NA POSZCZEGÓLNE STOPNIE SZKOLNE DLA KLASY 3g. zakres rozszerzony
WYMAGANIA Z WIEDZY I UMIEJĘTNOŚCI NA POSZCZEGÓLNE STOPNIE SZKOLNE DLA KLASY 3g zares rozszerzony 1. Wielomiany bardzo zna pojęcie jednomianu jednej zmiennej; potrafi wsazać jednomiany podobne; potrafi
Systemy uczące się wykład 1
Systemy uczące się wykład 1 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 5 X 2018 e-mail: przemyslaw.juszczuk@ue.katowice.pl Konsultacje: na stronie katedry + na stronie domowej
DRGANIA WŁASNE RAM OBLICZANIE CZĘSTOŚCI KOŁOWYCH DRGAŃ WŁASNYCH
Część 5. DRGANIA WŁASNE RAM OBLICZANIE CZĘSTOŚCI KOŁOWYCH... 5. 5. DRGANIA WŁASNE RAM OBLICZANIE CZĘSTOŚCI KOŁOWYCH DRGAŃ WŁASNYCH 5.. Wprowadzenie Rozwiązywanie zadań z zaresu dynamii budowli sprowadza
WYKŁAD 5 METODY OPTYMALIZACJI NIELINIOWEJ BEZ OGRANICZEŃ
WYKŁAD 5 METODY OPTYMALIZACJI NIELINIOWEJ BEZ OGRANICZEŃ Wstęp. Za wyjątie nielicznych funcji, najczęściej w postaci wieloianów, dla tórych ożna znaleźć iniu na drodze analitycznej, pozostała więszość
Systemy Wspomagania Decyzji
Rodzaje danych oraz ich przetwarzanie Szkoła Główna Służby Pożarniczej Zakład Informatyki i Łączności January 29, 2014 1 Dane tabelaryczne 2 Dane tekstowe 3 Dane sensoryczne 4 Dane multimedialne 5 Podsumowanie
Zaliczenie wykładu Technika Analogowa Przykładowe pytania (czas zaliczenia minut, liczba pytań 6 8)
Zaliczenie wyładu Technia Analogowa Przyładowe pytania (czas zaliczenia 3 4 minut, liczba pytań 6 8) Postulaty i podstawowe wzory teorii obowdów 1 Sformułuj pierwsze i drugie prawo Kirchhoffa Wyjaśnij
Hierarchiczna analiza skupień
Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym
Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU
Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów
Prawdopodobieństwo i statystyka
Zadanie Rozważmy następujący model strzelania do tarczy. Współrzędne puntu trafienia (, Y ) są niezależnymi zmiennymi losowymi o jednaowym rozładzie normalnym N ( 0, σ ). Punt (0,0) uznajemy za środe tarczy,
Analiza danych tekstowych i języka naturalnego
Kod szkolenia: Tytuł szkolenia: ANA/TXT Analiza danych tekstowych i języka naturalnego Dni: 3 Opis: Adresaci szkolenia Dane tekstowe stanowią co najmniej 70% wszystkich danych generowanych w systemach
Zastosowanie metody PCA do opisu wód naturalnych
autorzy: Stanisław Koter, Klaudia Wesołowsa 2 Uniwersytet Miołaja Kopernia, Toruń, 2 Politechnia Śląsa, Gliwice Zastosowanie metody PCA do opisu wód naturalnych W niniejszej pracy przedstawiono zastosowanie
Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania
Analiza skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania Analiza Skupień Elementy składowe procesu grupowania obiekt Ekstrakcja cech Sprzężenie zwrotne Grupowanie klastry Reprezentacja
Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18
Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)
Stanisław Cichocki. Natalia Nehrebecka. Wykład 10
Stanisław Cichoci Natalia Nehrebeca Wyład 10 1 1. Testowanie hipotez prostych Rozład estymatora b Testowanie hipotez prostych przy użyciu statystyi t Przedziały ufności Badamy czy hipotezy teoretyczne
Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16
Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego
Metody komputerowe i obliczeniowe Metoda Elementów Skoczonych. Element jednowymiarowy i jednoparametrowy : spryna
Metody omputerowe i obliczeniowe Metoda Elementów Soczonych Element jednowymiarowy i jednoparametrowy : spryna Jest to najprostszy element: współrzdne loalne i globalne jego wzłów s taie same nie potrzeba
ZASTOSOWANIE DYSKRETNEJ ANALIZY FALKOWEJ DO WYKRYWANIA ZWARĆ ZWOJOWYCH W SILNIKU INDUKCYJNYM
Zeszyty problemowe Maszyny Eletryczne Nr 100/2013 cz. II 191 Marcin Woliewicz, Czesław T. Kowalsi Politechnia Wrocławsa, Instytut Maszyn Napędów i Pomiarów Eletrycznych ZASTOSOWANIE DYSKRETNEJ ANALIZY
Metody optymalizacji nieliniowej (metody programowania nieliniowego) Ewa Niewiadomska-Szynkiewicz Instytut Automatyki i Informatyki Stosowanej
Metody optymalizacji nieliniowej metody programowania nieliniowego Ewa Niewiadomsa-Szyniewicz Instytut Automatyi i Inormatyi Stosowanej Ewa Niewiadomsa-Szyniewicz ens@ia.pw.edu.pl Instytut Automatyi i
HIERARCHICZNY SYSTEM ZARZĄDZANIA RUCHEM LOTNICZYM - ASPEKTY OCENY BEZPIECZEŃSTWA
Jace Sorupsi Hierarchiczny system Zarządzania ruchem lotniczym aspety oceny bezpieczeństwa, Logistya (ISSN 1231-5478) No 6, Instytut Logistyi i HIERARCHICZNY SYSTEM ZARZĄDZANIA RUCHEM LOTNICZYM - ASPEKTY
AUTOMATYKA INFORMATYKA
AUTOMATYKA INFORMATYKA Technologie Informacyjne Sieć Semantyczna Przetwarzanie Języka Naturalnego Internet Edytor Serii: Zdzisław Kowalczuk Inteligentne wydobywanie informacji z internetowych serwisów
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny
Technologie Informacyjne
Przygotowanie danych Szkoła Główna Służby Pożarniczej Zakład Informatyki i Łączności December 5, 2016 1 Dane tabelaryczne 2 Dane tekstowe 3 Dane sensoryczne 4 Dane multimedialne Dane tabelaryczne ID data
zna metody matematyczne w zakresie niezbędnym do formalnego i ilościowego opisu, zrozumienia i modelowania problemów z różnych
Grupa efektów kierunkowych: Matematyka stosowana I stopnia - profil praktyczny (od 17 października 2014) Matematyka Stosowana I stopień spec. Matematyka nowoczesnych technologii stacjonarne 2015/2016Z
SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska
SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska DRZEWO REGRESYJNE Sposób konstrukcji i przycinania
Wykaz tematów prac magisterskich w roku akademickim 2018/2019 kierunek: informatyka
Wykaz tematów prac magisterskich w roku akademickim 2018/2019 kierunek: informatyka L.p. Nazwisko i imię studenta Promotor Temat pracy magisterskiej 1. Wojciech Kłopocki dr Bartosz Ziemkiewicz Automatyczne
Metody selekcji cech
Metody selekcji cech A po co to Często mamy do dyspozycji dane w postaci zbioru cech lecz nie wiemy które z tych cech będą dla nas istotne. W zbiorze cech mogą wystąpić cechy redundantne niosące identyczną
Przykład budowania macierzy sztywności.
Co dzisiaj Przyład bdowania macierzy sztywności. Podejście logiczne Podejście algorytmiczne Przyłady modelowania i interpretacji wyniów Model płytowo-powłoowy i interpretacja naprężeń Błędy modelowania
Metody numeryczne Technika obliczeniowa i symulacyjna Sem. 2, EiT, 2014/2015
Metody numeryczne Technika obliczeniowa i symulacyjna Sem. 2, EiT, 2014/2015 1 Metody numeryczne Dział matematyki Metody rozwiązywania problemów matematycznych za pomocą operacji na liczbach. Otrzymywane
Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.
Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe. Autor: Mariusz Sasko Promotor: dr Adrian Horzyk Plan prezentacji 1. Wstęp 2. Cele pracy 3. Rozwiązanie 3.1. Robot
STATYSTYKA MATEMATYCZNA
STATYSTYKA MATEMATYCZA 1. Wyład wstępny. Teoria prawdopodobieństwa i elementy ombinatoryi. Zmienne losowe i ich rozłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez statystycznych
Wyznaczenie prędkości pojazdu na podstawie długości śladów hamowania pozostawionych na drodze
Podstawy analizy wypadów drogowych Instrucja do ćwiczenia 1 Wyznaczenie prędości pojazdu na podstawie długości śladów hamowania pozostawionych na drodze Spis treści 1. CEL ĆWICZENIA... 3. WPROWADZENIE...
Priorytetyzacja przypadków testowych za pomocą macierzy
Priorytetyzacja przypadków testowych za pomocą macierzy W niniejszym artykule przedstawiony został problem przyporządkowania priorytetów do przypadków testowych przed rozpoczęciem testów oprogramowania.
INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH
INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH 1. Czym jest eksploracja danych Eksploracja danych definiowana jest jako zbiór technik odkrywania nietrywialnych zależności i schematów w dużych
Wyszukiwanie dokumentów/informacji
Wyszukiwanie dokumentów/informacji Wyszukiwanie dokumentów (ang. document retrieval, text retrieval) polega na poszukiwaniu dokumentów tekstowych z pewnego zbioru, które pasują do zapytania. Wyszukiwanie
ZASTOSOWANIE ALGORYTMÓW GENETYCZNYCH DO OPTYMALIZACJI SIECI KOMPUTEROWYCH
Algorytmy genetyczne, optymalizacja sieci omputerowych Krzysztof Pytel Grzegorz Klua Jerzy Kisilewicz*** ZASTOSOWANIE ALGORYTMÓW GENETYCZNYCH DO OPTYMALIZACJI SIECI KOMPUTEROWYCH W artyule zaproponowano
Systemy uczące się Lab 4
Systemy uczące się Lab 4 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 26 X 2018 Projekt zaliczeniowy Podstawą zaliczenia ćwiczeń jest indywidualne wykonanie projektu uwzględniającego
P k k (n k) = k {O O O} = ; {O O R} =
Definicja.5 (Kombinacje bez powtórzeń). Każdy -elementowy podzbiór zbioru A wybrany (w dowolnej olejności) bez zwracania nazywamy ombinacją bez powtórzeń. Twierdzenie.5 (Kombinacje bez powtórzeń). Liczba
Wykorzystanie metody DEA w przestrzenno-czasowej analizie efektywności inwestycji
Wyorzystanie metody DEA w przestrzenno-czasowej analizie... 49 Nierówności Społeczne a Wzrost Gospodarczy, nr 39 (3/04) ISSN 898-5084 dr Bogdan Ludwicza Katedra Finansów Uniwersytet Rzeszowsi Wyorzystanie
Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:
WYDOBYWANIE I WYSZUKIWANIE INFORMACJI Z INTERNETU Forma wykład: 30 godzin laboratorium: 30 godzin Główny cel kursu W ramach kursu studenci poznają podstawy stosowanych powszechnie metod wyszukiwania informacji
166 Wstęp do statystyki matematycznej
166 Wstęp do statystyki matematycznej Etap trzeci realizacji procesu analizy danych statystycznych w zasadzie powinien rozwiązać nasz zasadniczy problem związany z identyfikacją cechy populacji generalnej
σ-ciało zdarzeń Niech Ω będzie niepustym zbiorem zdarzeń elementarnych, a zbiór F rodziną podzbiorów zbioru Ω spełniającą warunki: jeśli A F, to A F;
Zdarzenie losowe i zdarzenie elementarne Zdarzenie (zdarzenie losowe) - wyni pewnej obserwacji lub doświadczenia; może być ilościowy lub jaościowy. Zdarzenie elementarne - najprostszy wyni doświadczenia
Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner
Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner Wydział Matematyki i Nauk Informacyjnych Politechnika Warszawska Elementy nieprzystające Definicja odrzucania Klasyfikacja
Sygnały stochastyczne
Sygnały stochastyczne Zmienne losowe E zbiór zdarzeń elementarnych (zbiór możliwych wyniów esperymentu) e E zdarzenie elementarne (wyni esperymentu) B zbiór wybranych podzbiorów zbioru E β B zdarzenie
Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,
Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której