PODZIAŁ DANYCH NA KLASY

Podobne dokumenty
Matematyka dyskretna. Wykład 2: Kombinatoryka. Gniewomir Sarbicki

ALGEBRA Z GEOMETRIĄ ANALITYCZNĄ

( ) + ( ) T ( ) + E IE E E. Obliczanie gradientu błędu metodą układu dołączonego


TEORIA OBWODÓW I SYGNAŁÓW LABORATORIUM

Algebra liniowa z geometrią analityczną

Ćwiczenie 4 Badanie wpływu asymetrii obciążenia na pracę sieci

σ-ciało zdarzeń Niech Ω będzie niepustym zbiorem zdarzeń elementarnych, a zbiór F rodziną podzbiorów zbioru Ω spełniającą warunki: jeśli A F, to A F;

Metody probabilistyczne Rozwiązania zadań

Grupowanie sekwencji czasowych

MODYFIKACJA KOSZTOWA ALGORYTMU JOHNSONA DO SZEREGOWANIA ZADAŃ BUDOWLANYCH

Modelowanie przez zjawiska przybliżone. Modelowanie poprzez zjawiska uproszczone. Modelowanie przez analogie. Modelowanie matematyczne

7. Klasyfikacja skończenie generowanych grup przemiennych

BELKI CIĄGŁE STATYCZNIE NIEWYZNACZALNE

Programowanie wielocelowe lub wielokryterialne

PROCENTY, PROPORCJE, WYRAŻENIA POTEGOWE

Uwaga 1.1 Jeśli R jest relacją w zbiorze X X, to mówimy, że R jest relacją w zbiorze X. Rozważmy relację R X X. Relację R nazywamy zwrotną, gdy:

Działanie grupy na zbiorze

Co to jest algorytm? przepis prowadzący do rozwiązania zadania, problemu,

ELEKTROTECHNIKA I ELEKTRONIKA

Programowanie wielocelowe lub wielokryterialne

Optymalizacja harmonogramów budowlanych - problem szeregowania zadań

WAHADŁO SPRĘŻYNOWE. POMIAR POLA ELIPSY ENERGII.

Korzystając z własności metryki łatwo wykazać, że dla dowolnych x, y, z X zachodzi

Wyznaczenie prędkości pojazdu na podstawie długości śladów hamowania pozostawionych na drodze

Prognozowanie notowań pakietów akcji poprzez ortogonalizację szeregów czasowych 1

Działanie grupy na zbiorze

jest scharakteryzowane przez: wektor maksymalnych żądań (ang. claims), T oznaczający maksymalne żądanie zasobowe zadania P j

Metody komputerowe i obliczeniowe Metoda Elementów Skoczonych. Element jednowymiarowy i jednoparametrowy : spryna

Optymalizacja harmonogramów budowlanych - problem szeregowania zadań

ALGORYTMY OPTYMALIZACJI wyklad 3.nb 1. Wykład 3. Sformułujemy teraz warunki konieczne dla istnienia rozwiązań zagadnienia optymalizacyjnego:

wtedy i tylko wtedy, gdy rozwiązanie i jest nie gorsze od j względem k-tego kryterium. 2) Macierz części wspólnej Utwórz macierz

Zestaw 12- Macierz odwrotna, układy równań liniowych

Indukcja matematyczna

Ćwiczenie nr 1: Wahadło fizyczne

LZNK. Rozkªad QR. Metoda Householdera

A. Cel ćwiczenia. B. Część teoretyczna

jednoznacznie wyznaczają wymiary wszystkich reprezentacji grup punktowych, a związki ortogonalności jednoznacznie wyznaczają ich charaktery

Restauracja a poprawa jakości obrazów







Wybrane rozkłady zmiennych losowych i ich charakterystyki

Podstawy rachunku prawdopodobieństwa (przypomnienie)

Wyk lad 14 Formy kwadratowe I

A i A j lub A j A i. Operator γ : 2 X 2 X jest ciągły gdy

Teoria automatów i języków formalnych. Określenie relacji

i = n = n 1 + n 2 1 i 2 n 1. n(n + 1)(2n + 1) n (n + 1) =

INTERPOLACJA I APROKSYMACJA FUNKCJI

DSP-MATLAB, Ćwiczenie 5, P.Korohoda, KE AGH. Ćwiczenie 5. Przemysław Korohoda, KE, AGH

(U.3) Podstawy formalizmu mechaniki kwantowej

5. Rozwiązywanie układów równań liniowych

3 k a 2k + 3 k b 2k = φ((a k ) k=1 ) + φ((b k) k=1 ). a 2k p 3 q (1 3 q ) 1 (a k ) k=1 p,

ANALIZA WIELOKRYTERIALNA

Informatyka medyczna

Agnieszka Nowak Brzezińska Wykład III

Aproksymacja. j<k. L 2 p[a, b] l 2 p,n X = Lemat 1. Wielomiany ortogonalne P 0,P 1,...,P n tworza przestrzeni liniowej Π n. Dowód.

Matematyka Dyskretna - zagadnienia

Metody Lagrange a i Hamiltona w Mechanice

A4: Filtry aktywne rzędu II i IV







Klasyczne zagadnienie przydziału

Układy równań i równania wyższych rzędów

Analiza matematyczna i algebra liniowa Macierze

Algorytm wyznaczania krotności diagnostycznej struktury opiniowania diagnostycznego typu PMC 1

Zadania z algebry liniowej Iloczyn skalarny, przestrzenie euklidesowe

KINEMATYKA ROLKOWYCH PRZEKŁADNI TOCZNYCH KINEMATICS OF THE ROLLER SCREW

Optymalizacja ciągła

Zaawansowane metody numeryczne

Wyznaczanie rozmiaro w przeszko d i szczelin za pomocą s wiatła laserowego

4.15 Badanie dyfrakcji światła laserowego na krysztale koloidalnym(o19)



Agnieszka Nowak Brzezińska Wykład III

Stanisław Cichocki. Natalia Nehrebecka. Wykład 10

Ćw. 5. Badanie ruchu wahadła sprężynowego sprawdzenie wzoru na okres drgań

Charakterystyka oprogramowania obiektowego

jest rozwiązaniem równania jednorodnego oraz dla pewnego to jest toŝsamościowo równe zeru.

mgr Anna Bernaciak Wyższa Szkoła Logistyki Badania operacyjne II Zagadnienie komiwojażera Zadanie 1 Rozwiązanie zadania 1. Krok i to minimalny

LUBELSKA PRÓBA PRZED MATURĄ

Wrocław 2003 STATECZNOŚĆ. STATYKA 2 - projekt 1 zadanie 2

Definicja pochodnej cząstkowej

DRGANIA MECHANICZNE. materiały uzupełniające do ćwiczeń. Wydział Samochodów i Maszyn Roboczych studia inżynierskie

ZASADY WYZNACZANIA BEZPIECZNYCH ODSTĘPÓW IZOLACYJNYCH WEDŁUG NORMY PN-EN 62305

det[a 1,..., A i,..., A j,..., A n ] + det[a 1,..., ka j,..., A j,..., A n ] Dowód Udowodniliśmy, że: det[a 1,..., A i + ka j,..., A j,...

2 Rodziny zbiorów. 2.1 Algebry i σ - algebry zbiorów. M. Beśka, Wstęp do teorii miary, rozdz. 2 11

Uczenie sieci radialnych (RBF)

Rozwiązywanie układów równań liniowych

PROGRAM NAUCZANIA PRZEDMIOTU OBOWIĄZKOWEGO NA WYDZIALE LEKARSKIM I ROK AKADEMICKI 2017/2018 PRZEWODNIK DYDAKTYCZNY dla STUDENTÓW II ROKU STUDIÓW

P(T) = P(T M) = P(T A) = P(T L) = P(T S) = P(T L M) = P(T L A) = P(T S M) = P(T S A) =

Zasada indukcji matematycznej

4. Weryfikacja modelu

Transkrypt:

PODZIAŁ DANYCH NA KLASY Definicja Dana jest macierz danych X. Podziałem P macierzy na las(lasyfiacją) nazywamy przyporządowanieindesomwierszymacierzyrozłącznychzbiorówi 1,I,...,I,taich, Ŝe j1 I j 1,,...,n.WierszX i naleŝydoj-tejlasy,jeślii I j.niechn j #I j. Wtedy j1 n j n Wiersze macierzy danych moŝna przestawiać. Dla prostoty uporządujmy je ta, Ŝe pierwszychn 1 wierszyzajmąelementynaleŝącedopierwszejlasy,olejnychn wierszyzajmąelementynaleŝącedodrugiejlasy,...,ostatnichn wierszyzajmą elementy naleŝące do -tej lasy: X 1 X X... X gdzie X j T T X n1 n...n j1 1 T T,X n1 n...n j1,...,x n1 n...n j1 n j jestpodmacierząwymiarun j p,zawierającądane,naleŝącedoj-tejlasy. Oznaczmyprzezg j środecięŝościj-tejlasy:g j gx j,orazprzezg PXmacierz środów cięŝości las podziału; g 1 n 1 G PX g n... g n Lemat 1 gg PX p j g j gx g, j1 p j n j n gg PX 1 n G PX T 1 n 1 n g 1 n 1 g n... g n 1 n 1 n n j g j, j1 g 1 n j1 X i 1 n n j g j ii j j1 1

Twierdzenie 1[Huygensa dla podziału] JX p j JX j JG PX j1 J WP J MP FuncjeJ WPi J MPnazywająsiębezwładnościąwewnątrzlasową(J WP)i bezwładnościąmiędzylasową(j MP)podziałuP. JX 1 n n i1 Teza wynia z toŝsamości: X i g 1 n j1 ii j X i g 1 n X i g j g j g X i g j,g j g j1 ii j ii j X i g j,g j g ii j X i g j,g j g 0,g j g 0, ii j X i g j n j JX j, 1 n j1 ii j g j g JG PX. Wniose 1 J MP p j g j g j1 Zadaniem naszym będzie dobry podział(lasyfiacja) danych X na las. MoŜliwe są dwa sposoby doonania taiego podziału: lasyfiacjaznauczycielem,zwanadysryminacją, lasyfiacjabeznauczyciela(grupowanie,analizasupień) Klasyfiacja z nauczycielem słada się z dwóch faz: uczenia i dysryminacji. W fazie uczenia zadany jest podział na las(podział wzorcowy). Na jego podstawie wytwarza się funcję dysryminacyjną. Funcja dysryminacyjna przypisuje aŝdemu nowemu wetorowi numer lasy do tórej on naleŝy. Dobra funcja dysryminacyjna ustala to przyporządowanie z moŝliwie najmniejszym błędem. Przyładem lasyfiacji z nauczycielem jest diagnostya medyczna. W fazie uczenia wypracowuje się metody diagnozy na podstawie znanych przypadów róŝnych chorób (podział wzorcowy). Learz stosując swoją wiedzę(funcję dysryminacyjną) stara się postawić dobrą diagnozę(ustala przyporządowanie objawów do choroby z moŝliwie najmniejszym błędem) W lasyfiacji bez nauczyciela nie mamy podziału wzorcowego. W tym przypadu naleŝy wytworzyć lasy ta, aby elementy naleŝące do jednej lasy były do siebie podobne, a elementy z róŝnych las były ja najbardziej do siebie niepodobne. Przyładem lasyfiacji bez nauczyciela jest lasyfiacja, zaproponowana przez Linneusza(1707-1778), w tórej do jednej lasy przypisał zwierzęta o podobnej

budowie zewnętrznej. Grupowanie W lasyfiacji bez nauczyciela elementy naleŝące do jednej lasy mają być do siebie podobne, a elementy z róŝnych las- ja najbardziej do siebie niepodobne. MiarąpodobieństwawlasiejmoŜebyćbezwładnośćtejlasyJX j.immniejsza ta liczba, tym bardziej podobne do siebie są elementy lasy. Podział P jest dobry gdy średnia bezwładność we wszystich lasach jest mała, czyli gdy bezwładność wewnątrzlasowaj WPjestmała. Miarą niepodobieństwa(odległości) między lasami moŝe być bezwładność międzylasowaj MP.ImonawięszatymbardziejodległesąodsiebieśrodicięŜości las. Dobregrupowanietotaie,gdziebezwładnośćJ WPjestmałaaJ MP-duŜa.Z twierdzenia 1 wynia, Ŝe te waruni są równowaŝne. Przyład 1 Porównajmy dwa podziały zbioru X 1 1 3 3 3 3 5 PodziałP:I 1 1,,I 3,,5,6. gx 1 T 1.5,1.5,JX 1 1 0.5 0.5 0.5, gx T 3.75,3.0,JX 1 0.56 1.56 0.06.56 1.18, J WP 1 0.5 1.18 0.95 6 PodziałQ:I 1 5,6,I 1,,3,. gx 1 T.5,.5,JX 1 1 0.5 0.5 0.5, gx T.5,.5,JX 1 3.81 0.31 0.81.81 1.9, J WQ 1 0.5 1.9 1.6 6 PodziałPjestlepszyodpodziałuQ,gdyŜJ WP J WQ. Podziały P i Q moŝna porównać, obliczając bezwładność międzylasową(jest ona prostsza do obliczenia): Dla podziału P gx T 3,.5 J MP 6 gx 1 gx 6 gx gx 6 1.5 1 6 0.75 0.5 1.6 Dla podziału Q 3

J MP 6 gx 1 gx 6 gx gx 6 1.5 0 6 0.75 0 1.1 PodziałPjestlepszyodpodziałuQ,gdyŜJ MP J MQ Sprawdzając wszystie 63 moŝliwe podziały na dwie lasy moŝna wyznaczyć najlepszypodział. W ogólnym przypadu wybór najlepszego podziału przez sprawdzanie wszystich moŝliwych przypadów wymaga gigantycznej liczby obliczeń. Jeden z moŝliwych sposobów, pozwalających uzysać dobry, ale nie zawsze optymalny podział jest algorytm pochłaniajacy, wyorzystujący podział na omóri Woronoja. Definicja PodziałdanychXnaomóriWoronojaocentrachc 1,c,...,c jestrozbiciemxnalasy I 1,I,...,I : I j i:x i c j X i c r,r 1,,...,,i I 1,I,...I j1 Komóri Woronoja sładają się z puntów najbliŝszych centrom. Punty leŝące w tej samej odległości od ilu centrów naleŝą do omóri o najniŝszym numerze(umowa). Twierdzenie NiechPbędziepodziałemWoronojanaomóriocentrachc 1,c,...,c.NiechQ będziepodziałemworonojanaomóriocentrachgx 1,gX,...,gX.PodziałQ jestniegorszyodpodziałup. Dowód NiechPbędziepodziałemnalasyI 1,I,...,I,Qpodziałemnalasy L 1,L,...,L,Y r podmacierząxowierszach,tórychnumerynaleŝądol r. Oznaczmy Mamy: J WP 1 n j1 n j #X j,m r #Y r n j JX j 1 n n j d X j,gx j n j j1 1 n X i gx j j1 ii j Ostatnią sumę, dla ustalonego j, moŝna zapisać: ii j X i gx j r1 ii j L r X i gx j X i gx j ii j L j r1 r1 ii rlj r jx i gx j ii j L r r jx i gx j r1 ii rlj r1 r jx i gx j ii j L r r jx i gx j m j d Y j,gx j m j r j X i gx j X i gx j r1 ii j L r ii rlj

Ale z twierdzenia Huygensa-Pitagorasa d Y j,gy j m j d Y r,gx j m j Stąd X i gx j m j d Y j,gy j mj ii j Sumując po wszystich j otrzymamy J WP J WQ 1 n j1 r1 r j X i gx j X i gx j ii j L r ii rlj r j X i gx j X i gx j r1 ii j L r ii rlj Korzystając z symetrii indesów j i r moŝna zapisać: j1 j1 j1 r j X i gx j X i gx j r1 ii j L r ii rlj r j X i gx j X i gx r r1 ii j L r ii j Lr r1 ii j L r r j X i gx j X i gx r gdyi I j L r towierszx i zostanieprzeniesionyzlasyjwpodzialepdolasyrw podziale Q, co oznacza Ŝe Wyniaztego,Ŝe awięc j1 r1 coończydowód. lemattw3przyład X i gx r X i gx j ii j L r r j X i gx j X i gx r 0 J WP J WQ 5