TADEUSZ KWATER 1, ROBERT PĘKALA 2, ALEKSANDRA SALAMON 3

Podobne dokumenty
Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Pattern Classification

Wykorzystanie testu Levene a i testu Browna-Forsythe a w badaniach jednorodności wariancji

Wykorzystanie komputera przez uczniów klas IV VI szkoły podstawowej w uczeniu się sprawozdanie z badań sondażowych

Agnieszka Nowak Brzezińska

Agnieszka Nowak Brzezińska Wykład III

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Agnieszka Nowak Brzezińska Wykład III

SYSTEM BIOMETRYCZNY IDENTYFIKUJĄCY OSOBY NA PODSTAWIE CECH OSOBNICZYCH TWARZY. Autorzy: M. Lewicka, K. Stańczyk

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633

Wprowadzenie do uczenia maszynowego

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1

Metody Sztucznej Inteligencji II

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Statystyczna analiza awarii pojazdów samochodowych. Failure analysis of cars

Sztuczna inteligencja : Algorytm KNN

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane.

WSTĘP I TAKSONOMIA METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza

Elementy modelowania matematycznego

AUTOMATYKA INFORMATYKA

Statystyka w pracy badawczej nauczyciela

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

Klasyfikacja metodą Bayesa

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING

Lekcja 5: Sieć Kohonena i sieć ART

TRANSFORMACJE I JAKOŚĆ DANYCH

Techniki uczenia maszynowego nazwa przedmiotu SYLABUS

Text mining w programie RapidMiner Michał Bereta

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

SPOTKANIE 2: Wprowadzenie cz. I

METODY INŻYNIERII WIEDZY

SZTUCZNA INTELIGENCJA

1. Historia 2. Podstawy neurobiologii 3. Definicje i inne kłamstwa 4. Sztuczny neuron i zasady działania SSN. Agenda

Podejście obiektowe - podstawowe pojęcia

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Sieci Kohonena Grupowanie

Podstawy sztucznej inteligencji

WYKŁAD 12. Analiza obrazu Wyznaczanie parametrów ruchu obiektów

ALGORYTM RANDOM FOREST

KOMPUTEROWY MODEL UKŁADU STEROWANIA MIKROKLIMATEM W PRZECHOWALNI JABŁEK

Wybrane statystyki nieparametryczne. Selected Nonparametric Statistics

Hierarchiczna analiza skupień

Systemy uczące się wykład 1

Systemy uczące się wykład 2

Systemy uczące się Lab 4


Automatyczna klasyfikacja zespołów QRS

Analiza danych. TEMATYKA PRZEDMIOTU

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Biostatystyka, # 3 /Weterynaria I/

SZTUCZNA INTELIGENCJA

CLUSTERING. Metody grupowania danych

WYBÓR PUNKTÓW POMIAROWYCH

Inteligentne systemy przeciw atakom sieciowym

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015

Komputerowe Systemy Przemysłowe: Modelowanie - UML. Arkadiusz Banasik arkadiusz.banasik@polsl.pl

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska

Uczenie się pojedynczego neuronu. Jeśli zastosowana zostanie funkcja bipolarna s y: y=-1 gdy z<0 y=1 gdy z>=0. Wówczas: W 1 x 1 + w 2 x 2 + = 0

Prof. Stanisław Jankowski

Analiza możliwości szacowania parametrów mieszanin rozkładów prawdopodobieństwa za pomocą sztucznych sieci neuronowych 4

Uniwersytet w Białymstoku Wydział Ekonomiczno-Informatyczny w Wilnie SYLLABUS na rok akademicki 2012/2013

Metody systemowe i decyzyjne w informatyce

Procesowa specyfikacja systemów IT

Widzenie komputerowe (computer vision)

Testowanie modeli predykcyjnych

Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować?

ZAGADNIENIA DO EGZAMINU DYPLOMOWEGO NA STUDIACH INŻYNIERSKICH. Matematyka dyskretna, algorytmy i struktury danych, sztuczna inteligencja

Metody eksploracji danych. Reguły asocjacyjne

Metody symulacji komputerowych Modelowanie systemów technicznych

Metody systemowe i decyzyjne w informatyce

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Metody oceny podobieństwa

Wprowadzenie. Data Science Uczenie się pod nadzorem

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane cd.

Diagnostyka procesów przemysłowych Kod przedmiotu

SCENARIUSZ LEKCJI. Streszczenie. Czas realizacji. Podstawa programowa

Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych

Przykładowa analiza danych

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Cel normalizacji. Tadeusz Pankowski

Analiza metod wykrywania przekazów steganograficznych. Magdalena Pejas Wydział EiTI PW

Optymalizacja systemów

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane.

mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

ALGORYTMY SZTUCZNEJ INTELIGENCJI

Badanie możliwości edukacyjnych rozszerzonej rzeczywistości sprawozdanie z badań 1

Modelowanie jako sposób opisu rzeczywistości. Katedra Mikroelektroniki i Technik Informatycznych Politechnika Łódzka

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań

Granular Computing 9999 pages 15 METODY SZTUCZNEJ INTELIGENCJI - PROJEKTY

4.3 Grupowanie według podobieństwa

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

Klasyfikacja i regresja Wstęp do środowiska Weka

Transkrypt:

Wydawnictwo UR 2016 ISSN 2080-9069 ISSN 2450-9221 online Edukacja Technika Informatyka nr 4/18/2016 www.eti.rzeszow.pl DOI: 10.15584/eti.2016.4.46 TADEUSZ KWATER 1, ROBERT PĘKALA 2, ALEKSANDRA SALAMON 3 Algorytm klasyfikacji obiektów na przykładzie przestrzeni medialnej The algorithm for the classification of the example of media space 1 Doktor habilitowany profesor UR, Uniwersytet Rzeszowski, Wydział Matematyczno-Przyrodniczy, Katedra Inżynierii Komputerowej, Polska 2 Doktor, Państwowa Wyższa Szkoła Techniczno-Ekonomiczna w Jarosławiu, Polska 3 Studentka, Państwowa Wyższa Szkoła Techniczno-Ekonomiczna w Jarosławiu, Polska Streszczenie W artykule zaprezentowano rozwiązanie zagadnienia klasyfikacji obiektów w przestrzeni medialnej. Zastosowano sekwencyjny algorytm grupowania dla wybranych obiektów będących informacjami w portalach internetowych, a reprezentowanych wektorem cech. Uzyskano zadawalające rezultaty klasyfikacji zależne od przyjętego wektora cech i od założonych parametrów wejściowych. Słowa kluczowe: sekwencyjny algorytm grupowania, nienadzorowana klasyfikacja, przestrzeń medialna, wektor cech. Abstract The solution of the problem of classification of objects in the media is presented in the article. Sequential algorithm was used to group the selected objects in selected portals internet. Objects were information s of portals represented by a feature vector. Achieved satisfactory results classification dependent adopted the feature vector and the assumed input parameters. Key words: the sequence clustering algorithm, unsupervised classification, media space, the feature vector. Wstęp Pojęcie klasyfikacji obiektów jest ściśle związane z ich rozpoznawaniem, czyli dokonaniem podziału na grupy [Stąpor 2011; Klasyfikacja]. Jest to metoda eksploracji danych. Jako obiekt należy rozumieć sygnał, proces czy informację 352

zwartą, a rozpoznanie jako przyporządkowanie według podobieństw pewnych cech. Klasyfikacja znalazła obecnie zastosowanie wszędzie tam, gdzie wykorzystuję się informatykę. Informacje w przestrzeni medialnej (internet, radio, telewizja) można potraktować jako obiekt scharakteryzowany pewnymi cechami. Wybór cech może być rozmaity i często zależy od rozpoznawanych obiektów. Określenie podobieństwa obiektów oznacza przypisanie ich do zbioru traktowanego jako klasa obiektów. Takie uogólnienie pozwala na odwzorowanie przestrzeni medialnej na przestrzeń z metryczną, w której odległości są mierzone przyjętymi cechami. Podejście związane z klasyfikacją przestrzeni medialnej w takim ujęciu może stanowić pewnego rodzaju system monitorowania; może być pomocne w kreowaniu programów danego portalu, aby stał się atrakcyjnym w sensie zainteresowań odbiorców. Algorytm grupowania sekwencyjnego Drążenie danych, pozyskiwanie wiedzy, wydobywanie danych lub ekstrakcja danych zwane klasyfikacją danych są określane jako automatyczne odkrywanie nieznanych wcześniej reguł i zależności w zbiorze danych [Rozpoznawanie; Fatyga, Podraza 2010]. Uzyskane w ten sposób dane mogą być wykorzystane do różnych celów, np. do określania trendów. W przypadku klasyfikacji odpowiedzią jest klasa (kategoria, grupa) obiektu. Rys. 1. Obraz procesu klasyfikacji obiektów W celu zunifikowanego podejścia do dokonania odpowiedniego podziału na klasy każdy obiekt jest reprezentowany cechami (mierzonymi lub obliczonymi). Ponadto przyjmuje się, iż proces klasyfikacji (rozpoznawania) jest efektem uprzedniego procesu uczenia z przykładów. W zależności od rodzaju informacji dostarczonej systemowi w zbiorze przykładów uczenie może przebiegać w sposób nadzorowany lub nienadzorowany. W klasyfikacji nadzorowanej zakłada się, że na całej populacji obiektów jest określona pewna (nieznana oczywiście 353

systemowi) funkcja przypisująca każdemu obiektowi etykietę jednej z klas, a systemowi dostarcza się jedynie mały podzbiór w postaci tzw. zbioru uczącego. System ma za zadanie odnaleźć jak najlepsze (w sensie przyjętego kryterium) przybliżenie φ nieznanej mu funkcji Ф, które pozwoli przypisywać dowolny obiekt o i ze zbioru O do jednej z c klas. Jednym z wielu składowych odwzorowań φ jest funkcja Ψ, która odwzorowuje zbiór wszystkich możliwych reprezentacji obiektów w zbiór etykiet klas (zob. rys. 1). Funkcja ta nazywana jest algorytmem klasyfikacji, regułą decyzyjną lub czasami potocznie klasyfikatorem. W klasyfikatorze danymi wejściowymi są zbiory krotek, zaś danymi wyjściowymi są odpowiedzi, które przydzielają wartość atrybutu każdej krotce. Wartość atrybutu zostaje przydzielona krotce na podstawie wartości pozostałych atrybutów [Rozpoznawanie]. Istnieje wiele metod klasyfikacji obiektów. W artykule zaprezentowano najczęściej stosowaną metodę grupowania sekwencyjnego, zwłaszcza w początkowym etapie klasyfikacji. Jest to metoda nienadzorowana, wykorzystująca pojęcia takie jak wektor cech oraz prototyp, stosowane w klasyfikatorze minimalno-odległościowym. Pojęcie prototyp m i określono jako środek (średni wektor cech) danej klasy: N i m i = 1 (x) N i i=1 i=1,, c, (1) gdzie: x wektor cech obiektu, c liczba klas, n i liczebność klasy U i. Do rozważań przyjęto, iż miarą podobieństwa obiektu reprezentowanego przez wektora cech x i do grupy G k jest odległość euklidesowa d(x i, G k ) od prototypu m i dana w postaci: d(x i, G k ) = (x i m k ) T (x i m k ). (2) Dla tak przyjętych założeń zastosowano sekwencyjny algorytm, którego schemat zamieszczono na rys. 2. Umożliwia on przydzielanie obiektów do odpowiednich klas, jeśli spełnione będą warunki odległościowe (2), przy czym wartość progową tworzenia nowej klasy oznaczono jako T, a maksymalną liczbę klas jako l cmax. Eksperymenty, obiekty medialne, specyfikacja cech Obiektami badań były informacje prezentowane w następujących portalach internetowych: Onet.pl, Wp.pl, Interia.pl, Gazeta.pl, Dziennik.pl. Obejmowały one artykuły z sekcji wiadomości, sport, ekonomia/biznes w lutym 2016 r. Dla sekcji sport została wybrana jedna grupa tematyczna dotycząca startu Justyny Kowalczyk w Pucharze Świata. Natomiast dla sekcji ekonomia/biznes zostały wybrane artykuły/obiekty dotyczące kryzysu w polskich kopalniach. Dla wybranych obiektów jako cechy przyjęto: 1) pozycja w agendzie (W1), 2) gęstość informowania (W2) [Salamon 2016]. Zatem obiekt będzie reprezentowany 354

2-elementowym wektorem cech. Dla otrzymanych wartości cech zastosowano wstępną obróbkę danych w postaci normalizacji. Badania były przeprowadzane od godziny 8:00 do godziny 18:00. Rys. 2. Schemat algorytmu sekwencyjnego Sposób wyznaczenia cechy W1 oraz W2 określono z zależności: W1 = a 1+a 2 + +a n + l pom, x = n M T, (3) 355

gdzie: a 1, a 2,, a n pozycja informacji w danym momencie pomiarowym, l pom liczba pozycji dla danej informacji, n liczba pojawień się informacji, M liczba portali, na których pojawiła się informacja, T okres czasowy, w ciągu którego gęstość była mierzona. Po dokonaniu normalizacji współrzędnych wektora cech dla zrealizowanych pomiarów przyjętego progu nieprawdopodobieństwa T = 0,35 i obliczeń zgodnie z algorytmem sekwencyjnym (rys. 2) otrzymano rezultat prezentowany na rys. 3. Rys. 3. Rezultat klasyfikacji obiektów w przestrzeni medialnej Podsumowanie W artykule przedstawiono zagadnienie klasyfikacji obiektów w przestrzeni medialnej. Obiektami były informacje prezentowane w wybranych portalach internetowych. Rozwiązanie dla takiego zagadnienia dokonano, stosując algorytm sekwencyjnego grupowania pozwalającego na przypisanie do poszczególnych grup obiektów o podobnych cechach. Algorytm ten należy do grupy klasyfikacji nienadzorowanej. Interesującym elementem w tym podejściu jest wyznaczenie cech informacji, traktowanej jako obiekt. Przyjęto, iż cechami tymi są: pozycja w agendzie oraz gęstość informacji. Dla tak określonych cech zastosowano sekwencyjny algorytm grupujący obiekty z różnymi miarami podobieństwa traktowanymi jako wartości parametrów wejściowych. W wyniku takiego postępowania uzyskano zadawalające rezultaty końcowe w postaci wyodrębnionych klas obiektów. Otrzymany rozkład klas charakteryzuje się kształtami kulistymi, liczebność klas zależy od przyjętej progowej definicji odległości. Przeprowadzone testy wykazały poprawne funkcjonowanie algorytmu. Dalsze prace badawcze mogłyby obejmować modyfikacje zaprezentowanego algorytmu np. w postaci podwójnej prezentacji wektorów obiektów czy losowy wybór obiektów do klasyfikacji. 356

Literatura Fatyga P., Podraza R. (2010), Klasyfikacja danych przegląd wybranych metod, Warszawa. Klasyfikacja, http://wazniak.mimuw.edu.pl/images/5/5f/ed-4.2-m07-1.0.pdf. Rozpoznawanie, http://www.eletel.p.lodz.pl/pstrumil/po/rozpoznawanie.pdf. Salamon A. (2016), Automatyczna klasyfikacja obiektów na przykładzie przestrzeni medialnej, praca inż., promotor: T. Kwater, PWSTE, Jarosław. Stąpor K. (2011), Automatyczna klasyfikacja obiektów w wizji komputerowej, Warszawa. 357