ANALIZA SKUPIEŃ NA PRZYKŁADZIE SEGMENTACJI NOWOTWORÓW

Wielkość: px
Rozpocząć pokaz od strony:

Download "ANALIZA SKUPIEŃ NA PRZYKŁADZIE SEGMENTACJI NOWOTWORÓW"

Transkrypt

1 StatSoft Polska, tel. (1) 3, (1) 1151, ANALIZA SKUPIEŃ NA PRZYKŁADZIE SEGMENTACJI NOWOTWORÓW Grzegorz Harańczyk, StatSoft Polska Sp. z o.o. Analiza skupień to edna z nabardzie znanych metod data miningu. Zaprezentuemy zastosowanie te metody do segmentaci nowotworów, wykorzystuąc algorytm k-średnich i ego implementacę w programie STATISTICA. Wprowadzenie do analizy skupień Ogólny problem badaczy wielu dyscyplin polega na organizowaniu obserwowanych danych w sensowne struktury lub grupowaniu danych. Obecnie zagadnienie to est szczególnie istotne, gdyż coraz częście mamy do czynienia z ogromnymi ilościami danych. Właśnie do tych celów można zastosować analizę skupień. Analiza skupień (ang. cluster analysis, termin wprowadzony w 1939 roku przez Tryona), nazywana również segmentacą lub klastrowaniem danych, est przykładem analizy polegaące na szukaniu i wyodrębnieniu z danych skupień, czyli grup obiektów podobnych. Jest to metoda nieukierunkowana (unsupervised), to znaczy, że wszelkie związki i prawidłowości znadowane są tylko na postawie cech weściowych. Celem segmentaci est wydzielanie grup obserwaci podobnych, dalszym etapem może być szukanie cech charakterystycznych dla obserwaci wchodzących w skład dane grupy. W przeciwieństwie do klasyfikaci wzorcowe (analizy z nauczycielem), polegaące na przyporządkowywaniu przypadków do edne z określonych klas, tu klasy nie są znane ani w żaden sposób scharakteryzowane przed przystąpieniem do analizy. Jednak po scharakteryzowaniu wyodrębnionych skupień można w dalszym etapie badań klasyfikować nowe przypadki, przyporządkowuąc e do odpowiedniego skupienia. Pośrednio celem analizy skupień est także weryfikaca ednorodności danych. Jeśli można wyróżnić skupienia, wtedy oczywiście danych nie można uznać za ednorodne. Organizowanie obiektów w skupienia opiera się na szukaniu obserwaci podobnych. Aby móc porównywać obserwace między sobą, określać, na ile są one do siebie podobne, musimy wprowadzić miarę podobieństwa obserwaci. W przypadku zmiennych akościowych będą to tak zwane indeksy podobieństwa (np. indeks Russela i Rao, indeks Jaccarda, Copyright StatSoft Polska,

2 StatSoft Polska, tel. (1) 3, (1) 1151, indeks Sokala i Michnera), a w przypadku zmiennych ilościowych odległości (np. odległość euklidesowa, odległość Czebyszewa, odległość Manhattan). Są też specalne miary podobieństwa, które można stosować, gdy podczas analizy wykorzystuemy ednocześnie cechy o charakterze akościowym i ilościowym. Wyróżnia się dwa zasadnicze typy algorytmów grupowania danych: algorytmy hierarchiczne i algorytmy niehierarchiczne. Hierarchiczne metody aglomeracyne prowadzą do stworzenia tzw. hierarchii drzewkowe elementów analizowanego zbioru (dendrogramu). Na wstępie procedury przymue się, że każdy obiekt stanowi osobne skupienie, następnie krokowo łączy się w podzbiory podgrupy nabardzie do siebie podobne, aż do otrzymania ednego skupienia zawieraącego wszystkie obserwace. W ten sposób otrzymue się wynikową segmentacę, będącą uporządkowanym zestawieniem podziałów na segmenty. Hierarchiczne metody grupowania nie wymagaą wcześnieszego podania liczby skupień (na dendrogramach wyboru liczby skupień można dokonać na końcu analizy, przecinaąc go na odpowiednie wysokości, rys. 1), ale wymagaą duże mocy obliczeniowe. Dla zbiorów danych o znaczne wielkości obliczenia mogą zaąć dużo czasu lub wręcz być niewykonalne. 7 Diagram drzewa Metoda Warda 5 Odległość wiąz. 3 1 Var5 Var51 Var5 Var9 Var Var7 Var Var5 Var Var3 Var Var37 Var3 Var35 Var55 Var5 Var Var39 Var3 Var1 Var3 Var Var3 Var Var1 Var Var59 Var5 Var57 Var5 Var33 Var3 Var31 Var Var7 Var Var5 Var53 Var9 Var Var17 Var13 Var1 Var1 Var15 Var1 Var11 Var Var1 Var19 Var1 Var3 Var Var1 Var3 Var9 Var Var7 Var Var5 Var Var3 Var Var1 Rys. 1. Dendrogram Metody niehierarchiczne są szybkie, ale wymagaą wcześnieszego podania liczby skupień, do których dane maą zostać zakwalifikowane. Wybór liczby skupień ma duży wpływ na akość uzyskane segmentaci. Podanie zbyt duże liczby skupień może spowodować, że wyznaczone skupienia będą co prawda wewnętrznie ednorodne, ednak utrudniona będzie interpretaca uzyskanych wyników i stosowanie ich w praktyce. Z drugie strony, im mniesza liczba skupień, tym skupienia są mnie ednorodne wewnętrznie. Za wadę może być również uznane to, że wewnątrz skupień nie mamy żadnego porządku, a także fakt, że gdy zmienimy liczbę skupień, na przykład zwiększymy o 1, to skupienia utworzone w wyniku nowego podziału nie będą zawierać się we wcześnie uzyskanych. 7 Copyright StatSoft Polska 5

3 StatSoft Polska, tel. (1) 3, (1) 1151, W ninieszym artykule przede wszystkim skupimy się na ednym z algorytmów z grupy metod niehierarchicznych procedurze k-średnich. Jest to eden z napopularnieszych algorytmów analizy skupień. W następne części opiszemy algorytm k-średnich, a potem zastosuemy ego implementacę w systemie STATISTICA do segmentaci nowotworów na podstawie poziomu ekspresi genów. Zaprezentuemy rozwiązanie problemu segmentaci opartego na przykładzie z książki Hastie, Tibshirani, Friedman [1]. Algorytm k-średnich Standardowo algorytm k-średnich wymaga, aby wszystkie zmienne, użyte podczas analizy, były zmiennymi ilościowymi, a więc podobieństwo między obserwacami będzie mierzone za pomocą odległości. Implementaca algorytmu k-średnich w STATISTICA (Analiza skupień uogólnioną metodą k-średnich) pozwala na wykorzystanie podczas analizy również cech akościowych poprzez automatyczne przekształcenie ich w odpowiedni sposób. Algorytm ten polega na przenoszeniu obiektów ze skupienia do skupienia w celu zminimalizowania zmienności wewnątrz skupień i zmaksymalizowania zmienności między skupieniami. Zasada działania algorytmu k-średnich est następuąca koleno wykonuemy kroki: 1. Ustalamy liczbę skupień, liczba tych skupień oznaczana est literą k i stąd nazwa te metody.. Ustalamy wstępnie środki skupień. 3. Obliczamy odległości obiektów od środków skupień.. Przypisuemy obiekty do skupień dla danego obiektu porównuemy odległości do wszystkich środków skupień (obliczone w punkcie 3) i przypisuemy go do tego skupienia, do którego środka ma nabliże. 5. Ustalamy nowe środki skupień naczęście przymue się, że est to punkt, którego współrzędnymi są średnie arytmetyczne współrzędnych obiektów, które na danym etapie działania algorytmu należą do danego skupienia.. Jeśli w punkcie 5 przesunęliśmy środki skupień, to powtarzamy kroki 3,, 5, natomiast eśli nie, to algorytm zatrzymue się, a za ostateczną segmentacę przymuemy bieżący podział. Ilustraca te procedury znadue się także na diagramie na rys. (poniże). Jak zaznaczono powyże, przed przystąpieniem do analizy należy określić liczbę skupień, na którą chcemy dzielić interesuące nas obiekty. Aby ustalić optymalną liczbę skupień można skorzystać z szeregu metod ich wyznaczania (są one przedstawione np. w []). Metody te opiszemy w dalsze części artykułu. Copyright StatSoft Polska,

4 StatSoft Polska, tel. (1) 3, (1) 1151, Rys.. Algorytm k-średnich Dla akości uzyskanych wyników duży wpływ ma właśnie etap ustalania parametrów algorytmu, czyli kroki 1, oraz określenie, w aki sposób będzie obliczana odległość między obiektami. W przypadku zmiennych ilościowych naczęście stosue się odległość euklidesową. Odległość euklidesowa, tak ak inne podobne do nie miary odległości, ma ednak pewną wadę, może silnie podlegać wpływowi edne ze zmiennych, mianowicie te, które zakres wartości est nawiększy. Jeśli wartości te zmienne są znacznie większe od wartości innych zmiennych, wtedy o różnicy bądź podobieństwie między obserwacami będzie, w duże mierze, decydowała tylko ta edna zmienna (wynika to wprost z formuły, za pomocą które wyliczamy odległość euklidesową). Może to mieć miesce na przykład, gdy zmienne wyrażone są w różnych ednostkach lub reprezentuą różny rząd wielkości. Aby zapobiec takie sytuaci, stosue się normalizacę, czyli wartości każde ze zmiennych ( X ) przekształca w następuący sposób: X ( ) ' Min X X, Max( X ) Min( X ) gdzie Min ( X ), Max ( X ) oznaczaą odpowiednio namnieszą i nawiększą wartość zmienne X. Po takim zabiegu wszystkie zmienne przymuą wartości z tego samego przedziału [,1]. W niektórych przypadkach odchodzi się ednak od procedury Copyright StatSoft Polska 5

5 StatSoft Polska, tel. (1) 3, (1) 1151, normalizaci, szczególnie w sytuaci, gdy zmienne maą takie same zakresy wartości. Normalizaca może wtedy usunąć różnice między zmiennymi, podczas gdy mogą one nieść ważne informace (np. edna ze zmiennych może zawsze przymować tylko wartości uemne, mimo że wartości dodatnie też są dla nie dozwolone, przypominamy, że po normalizaci wszystkie zmienne maą wartości z przedziału [,1]). Z sytuacą taką będziemy mieć do czynienia w naszym przykładzie. W praktyce oczywiście nie ma edne uniwersalne metodyki, ednego uniwersalnego zestawu parametrów (liczby skupień, metody wyznaczania wstępnych centrów skupień, liczby iteraci, sposobu mierzenia podobieństwa między obserwacami) daącego nalepsze rezultaty dla każdego typu danych. W dalsze części omówimy niektóre aspekty ustalania tych parametrów w odniesieniu do konkretne analizy. Prezentaca rozwiązywanego problemu W ostatnich latach nastąpił ogromny przyrost danych pochodzących z eksperymentów medycznych i genetycznych. Spowodowane to est postępem w poznawaniu ludzkiego genomu (Human Genome Proect) oraz technologią mikromacierzy DNA. Mikromacierze umożliwiaą badanie w ednym eksperymencie wielu genów - ocenę, które z nich są czynne, a które wyłączone, i aki est poziom ich ekspresi. Pozwala to badać mechanizmy regulacyne żywe komórki, ednak wymaga specalnych narzędzi do analizy tak duże liczby danych. W naszym przykładzie będziemy właśnie analizować taki zbiór danych, gdzie zmiennymi są poziomy ekspresi genów. Do analizy takich danych wykorzystamy opisaną wcześnie analizę skupień. Zwykle pierwszym etapem analizy est wstępne zbadanie danych oraz określenie celów analizy. W naszym przypadku podczas badań pobrano próbki DNA od różnych pacentów z chorobą nowotworową. Dla każde próbki zbadano ekspresę wybranych 3 genów. Dane zestawione są w macierzy, w które każdy wiersz reprezentue próbkę (podae poziomy ekspresi genów dla dane próbki), natomiast w kolumnach mamy ekspresę poszczególnych genów. Ekspresa każdego genu charakteryzowana est przez liczbę rzeczywistą mierzącą poziom kwasu mrna obecnego w danym genie. Będziemy rozpatrywać związki między wierszami macierzy reprezentuące poziomy ekspresi poszczególnych genów. Każda z próbek ma dodatkowo etykietę mówiącą, z akie części organizmu została pobrana. Nie będziemy używać tych etykiet podczas nasze analizy, dopiero na koniec porównamy, czy próbki nowotworów tego samego rodzau trafiły do tych samych skupień. Oczywiście nie est to kryterium poprawności analizy, ponieważ nie mamy żadnych przesłanek, aby twierdzić, że próbki pobrane z tych samych tkanek maą tę samą ekspresę genów, a z różnych części - różną, aczkolwiek wydae się, że tak powinno być. Warto eszcze raz podkreślić, że wszystkie zmienne w naszym przykładzie maą wartości w zbiorze liczb rzeczywistych i dodatkowo maą taki sam potencalny zakres wartości, Copyright StatSoft Polska, 5 1

6 StatSoft Polska, tel. (1) 3, (1) 1151, dlatego też przed przystąpieniem do analizy nie będziemy wykonywać normalizaci zmiennych. Rys. 3. Arkusz danych ncidata.sta Na etapie zapoznawania się z danymi warto również sprawdzić, czy nie ma obserwaci odstaących, ponieważ wówczas podczas analizy skupień prawdopodobnie zostanie utworzone edno skupienie zawieraące tę obserwacę odstaącą, a wszystkie pozostałe przypadki mogą zostać zakwalifikowane do ednego skupienia. Co będzie celem nasze analizy? Przede wszystkim chcielibyśmy się dowiedzieć, czy istnieą akieś różnice pomiędzy nowotworami ze względu na poziom ekspresi genów, a eśli tak, to czy można e akoś scharakteryzować. Zależałoby nam również na tym, aby wyodrębnić ednorodne grupy nowotworów podobnych. Będziemy się starali pogrupować próbki, biorąc pod uwagę tylko poziomy ekspresi genów. Ponieważ mamy do dyspozyci bardzo dużo zmiennych, aż 3, interesowałoby nas więc także to, które z nich są naistotniesze, które maą nawiększy wpływ na uzyskany podział. Spróbuemy znaleźć te zmienne, po czym sprawdzimy, czy dla wybranego podzbioru zmiennych mamy podobne wyniki, czyli ocenimy, na ile dobry est wybrany podzbiór predyktorów. Do powyższych analiz użyemy metodę k-średnich. Analiza w środowisku STATISTICA Data Miner Do przeprowadzenia analizy możemy wybrać Grupowanie metodą k-średnich z modułu Wielowymiarowe techniki eksploracyne lub Analizę skupień uogólnioną metodą k-średnich z modułu Uogólniona analiza skupień. Podczas wykonywania analizy Copyright StatSoft Polska 5

7 StatSoft Polska, tel. (1) 3, (1) 1151, uogólnioną metodą k-średnich we wstępne fazie wykonywana est normalizaca zmiennych, toteż z powodów opisanych wcześnie wybierzemy zwykłe Grupowanie metodą k-średnich. Po wykonaniu segmentaci postaramy się znaleźć te zmienne, które miały nawiększy wpływ na przeprowadzony podział. Wybierzemy 5 nalepszych predyktorów. Do tego celu użyemy modułu Dobór zmiennych i analiza przyczyn, a następnie zobaczymy, aki podział uzyskamy, używaąc tylko tych wybranych zmiennych. Tak więc plan nasze analizy to: analiza skupień na całości danych (I), potem wybór nalepszych predyktorów (II), a następnie analiza skupień dla nich (III). Wszystkie analizy przeprowadzimy w przestrzeni robocze STATISTICA Data Miner, dzięki czemu w ednym proekcie otrzymamy wszystkie wyniki. Dodatkowo widzimy i możemy kontrolować przebieg wszystkich analiz nawet w bardzo złożonym proekcie, wygodnie dodawać nowe metody oraz zmieniać dane weściowe. Rys.. Przestrzeń robocza programu STATISTICA Data Miner Aby rozpocząć analizę, wybieramy opcę Data Miner Wszystkie procedury z menu Statystyka Data-Mining. Na ekranie poawi się przestrzeń robocza programu STATISTICA Data Miner. Za pomocą przycisku Źródło danych wybieramy dane weściowe, a za pomocą Przeglądarki węzłów wybieramy odpowiednie procedury. Każda procedura przetwarzaąca dane reprezentowana est przez ikonę (tzw. węzeł). Przepływ danych obrazuą strzałki łączące poszczególne węzły. Niektóre analizy ako wyniki zwracaą, prócz skoroszytu wyników, także arkusze danych, które można dale przekształcać. Węzły zaproektowane są tak, aby dane wypływaące z ednego z węzłów Copyright StatSoft Polska, 5 3

8 StatSoft Polska, tel. (1) 3, (1) 1151, mogły stanowić weście dla innych węzłów. Zapewnia to możliwość składania proektu analizy z poszczególnych elementów. Buduąc proekt, w przeglądarce węzłów zaznaczamy odpowiedni węzeł i wstawiamy go do przestrzeni robocze (przycisk Wstaw), łącząc go z odpowiednim arkuszem danych. Na koniec klikamy przycisk Uruchom na pasku narzędzi przestrzeni robocze, aby uruchomić proekt. Dodatkową zaletą programu STATISTICA Data Miner est to, że każdy węzeł można zmodyfikować. Klikaąc na odpowiednim węźle, można podglądnąć i edytować ego kod napisany w ęzyku STATISTICA Visual Basic (est to ęzyk Visual Basic wzbogacony o procedury statystyczne). W naszym przykładzie niektóre węzły również zostały nieznacznie zmodyfikowane. Grupowanie metodą k-średnich Aby przeprowadzić zaplanowaną analizę, do przestrzeni robocze wstawiamy plik danych ncidata.sta. Następnie z Przeglądarki węzłów wybieramy węzeł: Grupowanie metodą k-średnich. Wykonuąc analizę metodą k-średnich, musimy ustalić kilka ważnych parametrów te analizy, ak zostało to zaznaczone w opisie tego algorytmu. Ustalamy zmienne, których będziemy używać do analizy, ustalamy liczbę skupień, wstępne ich centra, sposób mierzenia odległości między grupowanymi obiektami oraz liczbę iteraci, aką wykona algorytm. Wybór zmiennych Analizę rozpoczniemy od zbudowania modelu przy użyciu wszystkich zmiennych. Rys. 5. Karta wyboru parametrów algorytmu w Grupowaniu metodą k-średnich Copyright StatSoft Polska 5

9 StatSoft Polska, tel. (1) 3, (1) 1151, W oknie wyboru zmiennych, w naszym arkuszu danych podłączonym do węzła Grupowanie metodą k-średnich, zaznaczamy wszystkie 3 zmienne. Przechodzimy na kartę Edytu parametry procedury k-średnich (rys. 5). Wybieramy opcę grupowania danych przypadkami i przechodzimy do edyci pozostałych parametrów: Wybór liczby skupień Wybór liczby skupień może być dokonany na wiele sposobów. Jedną z metod est po prostu umowne ustalenie liczby skupień i ewentualna późniesza zmiana te liczby, w taki sposób, aby otrzymać lepsze wyniki. Wstępne ustalenie liczby skupień może być oparte na wynikach innych analiz. Metodą proponowaną przez Guidiciego [] est przeprowadzenie wstępne analizy za pomocą metody hierarchiczne, oszacowanie za e pomocą liczby skupień, a następnie dla tak wybrane liczby skupień wykonanie uż analizy metodą niehierarchiczną, czyli na przykład właśnie metodą k-średnich. Metody hierarchiczne są ednak ograniczone. Przy zbyt duże liczbie danych wstępna ocena liczby skupień wykonywana est na podzbiorze danych, co est niewątpliwie pewną niedogodnością. Alternatywnym podeściem w te sytuaci est przeprowadzenie napierw analizy niehierarchiczne i stworzenie duże liczby skupień, a potem dalsze grupowanie za pomocą metody hierarchiczne, przy uwzględnieniu odległości i liczności skupień. W tym przypadku, wstępnie przeprowadzone grupowanie metodą k-średnich ma na celu zredukowanie liczby danych (w drugie części analizy grupuemy uż tylko skupienia, nie biorąc pod uwagę ich poszczególnych elementów). Podczas korzystania z modułu Uogólniona analiza skupień metodą k-średnich można skorzystać ze sprawdzianu krzyżowego do oceny liczby skupień. Wydae się to być nalepsza metoda wyboru liczby skupień. Nie ma w tym przypadku ingerenci w analizę (brak założeń a priori o liczbie skupień), problemów z wyborem podzbioru danych, ani w żaden sposób nie esteśmy także ograniczeni, co est istotne, liczbą danych. Algorytm ten dzieli zbiór weściowy koleno na coraz większą liczbę segmentów, a następnie sprawdza, aka est precyza podziału dla każdego z nich. Dla metody k-średnich miarą precyzi podziału est przeciętna odległość elementów zbioru weściowego od środka segmentu, w akim się znaduą. Wyniki sprawdzianu krzyżowego ilustrowane są na tak zwanym wykresie osypiska (rys. ). Analizuąc wykres, można zauważyć znaczną poprawę precyzi podziału przy zwiększeniu liczby segmentów z dwóch do trzech. Dodaąc eszcze eden segment, uzyskue się uż znacznie mnieszą poprawę precyzi, stąd za optymalną liczbę segmentów należy uznać trzy. Program STATISTICA automatycznie określa nabardzie odpowiednią liczbę skupień. Copyright StatSoft Polska, 5 5

10 StatSoft Polska, tel. (1) 3, (1) 1151, 9 Wykres sekwenci kosztów Optymalna liczba skupień: 3 k-średnich 9 Koszt Liczba skupień Rys.. Przykładowy wykres osypiska W naszym przykładzie, tak ak to est również w pracy [1], będziemy dzielić interesuące nas obserwace na 3 skupienia. Wybór wstępnych centrów skupień Do wyboru mamy trzy możliwości: Wybierz obserwace tak, by zmaksymalizować odległości skupień. Sortu odległości i weź obserwace przy stałym interwale. Wybierz pierwszych N (liczba skupień) obserwaci. Wybieramy domyślną opcę wyznaczenia ako początkowych centrów skupień obiektów przy stałych interwałach. W Analizie skupień uogólnioną metodą k-średnich mamy dodatkowo Losowy wybór N obserwaci. Jedną z zalecanych metod est sprawdzenie i porównanie wyników z kilkakrotnie przeprowadzone analizy, gdy wstępne centra wybierane były w sposób losowy, i wybranie nalepszego modelu. Zapobiega to trafieniu w lokalne minimum, przy minimalizowaniu wewnętrzne warianci w skupieniach, podczas procesu doboru obserwaci do skupień. Wybór odległości Domyślnie w Grupowaniu metodą k-średnich mamy przeskalowaną odległość euklidesową. Odległość między dwoma obiektami lub centrami skupień X i i X obliczana est na podstawie wzoru M 1 D( i, ) ( X ik X k ), M k 1 gdzie M to liczba zmiennych (wymiar przestrzeni). Copyright StatSoft Polska 5

11 StatSoft Polska, tel. (1) 3, (1) 1151, W Analizie skupień uogólnioną metodą k-średnich dodatkowo można wybrać inną odległość. Do wyboru mamy edną z następuących odległości: odległość euklidesowa, kwadrat odległości euklidesowe, odległość Manhattan, odległość Czebyszewa. Ile iteraci Ostatnim parametrem, aki należy ustalić, est określenie liczby iteraci wykonanych podczas analizy. Jak zaznaczono powyże warunkiem zatrzymania algorytmu est brak przesunięcia obiektów pomiędzy skupieniami. Jeśli ednak algorytm wykona zadaną przez ten parametr liczbę iteraci, to proces analizy zostanie zatrzymany, nawet eśli powyższy warunek zatrzymania procedury nie zostanie spełniony. Zostawiamy domyślną wartość tego parametru, mianowicie. Rys. 7. Skoroszyt wyników Grupowania metodą k-średnich Po określeniu wszystkich parametrów klikamy przycisk Uruchom na pasku narzędzi przestrzeni robocze, aby rozpocząć analizę. Wynikiem analizy est skoroszyt arkuszy (rys. 7) zawieraących: elementy każdego skupienia arkusz pokazuący, do akich skupień zakwalifikowane zostały poszczególne przypadki, średnie skupień, średnie dla każdego skupienia zestawione na ednym wykresie, statystyki opisowe dla wszystkich skupień mogą być użyteczne do scharakteryzowania skupień i opisu ich własności, odległości euklidesowe między skupieniami zestawione w macierzy odległości, Copyright StatSoft Polska, 5 7

12 StatSoft Polska, tel. (1) 3, (1) 1151, analiza warianci koleno dla każde zmienne, porównuemy ze sobą e średnie we wszystkich segmentach, im istotniesze różnice między średnimi (mniesza wartość p), tym dana zmienna bardzie różnicue skupienia. Analizuąc otrzymane wyniki, możemy stwierdzić, że otrzymaliśmy podział na trzy skupienia o licznościach odpowiednio 9, 1, 3. Teraz postaramy się znaleźć te zmienne, które miały nawiększy wpływ na uzyskany podział. Poszukiwanie nalepszych predyktorów Wynikiem poprzednio zastosowanego węzła był także arkusz zawieraący dane weściowe oraz dodatkową kolumnę, mianowicie wynikową segmentacę. Każdemu przypadkowi została przyporządkowana liczba 1, lub 3 mówiąca, do którego skupienia dany przypadek został zakwalifikowany. Teraz do tego arkusza dołączamy węzeł: Dobór zmiennych i analiza przyczyn. Rys.. Karta wyboru parametrów w węźle Dobór zmiennych i analiza przyczyn Podczas analizy wybierane są te zmienne, które wpływaą na badaną cechę, w naszym przypadku numer skupienia (1,, 3), do którego dany przypadek trafił. Zmienna zależna w naszym przykładzie ma charakter akościowy, program oblicza więc statystykę χ (chi-kwadrat) oraz wartość p dla każdego predyktora. W przypadku predyktorów ilościowych zakres wartości predyktora, poziom ekspresi poszczególnych genów, dzielony est na k przedziałów (domyślnie 1). Gdyby występowały dodatkowo predyktory akościowe, nie byłyby one przekształcane w żaden sposób. Na karcie doboru parametrów tego węzła ustalamy, prócz liczby cięć, ile zmiennych ma być wybranych (my wybieramy 5) oraz Copyright StatSoft Polska 5

13 StatSoft Polska, tel. (1) 3, (1) 1151, poziom p dla doboru tych zmiennych. Wynikiem est arkusz, w którym wybranych est uż 5 nalepszych predyktorów. Rys. 9. Okno wyboru zmiennych dla wynikowego arkusza danych węzła Dobór zmiennych i analiza przyczyn Taki arkusz z wybranymi zmiennymi est gotowy do dalszych analiz. Przeprowadzamy na nim analizę skupień metodą k-średnich, z parametrami ustawionymi ak poprzednio. Otrzymuemy w ten sposób segmentacę opartą na 5 zmiennych. Otrzymaliśmy skupienia o licznościach 9, 19, 3. Przy porównaniu elementów skupień okazue się, że tylko dwie obserwace zostały przydzielone do innych skupień w porównaniu z analizą na całości danych (rys. 1). Zatem nowy podział na skupienia niemalże pokrywa się z tym uzyskanym, gdy bierzemy pod uwagę wszystkie zmienne. Wyniki segmentaci na ogół weryfikue się poprzez porównywanie wartości średnich wartości cech w skupieniach. Na rys. 11 w górne części ze względu na liczbę zmiennych trudno est dostrzec akieś prawidłowości, natomiast na dole widać, że średnie w wydzielonych skupieniach różnią się między sobą znacznie. Z wykresu średnich każdego skupienia dla wszystkich zmiennych trudno wyciągnąć akieś wnioski, natomiast gdy rozpatruemy tylko 5 zmiennych, można uż zauważyć, w aki sposób poziom ekspresi pewnego genu determinue przydział do danego skupienia. Copyright StatSoft Polska, 5 9

14 StatSoft Polska, tel. (1) 3, (1) 1151, Liczba obserwaci numer skupienia Wyniki Wyniki5 Rys. 1. Wykres liczności każdego skupienia w przypadku analizy dla wszystkich zmiennych (po lewe) i dla 5 nalepszych predyktorów Wykres średnich każdego skupienia dla wszystkich zmiennych Skupien. 1 Skupien. dla 5 nalepszych predyktorów Skupien Rys. 11 Wykres średnich każdego skupienia dla wszystkich zmiennych (na górze) i dla 5 nalepszych predyktorów 9 Copyright StatSoft Polska 5

15 StatSoft Polska, tel. (1) 3, (1) 1151, Omówienie wyników Hipotezę sformułowaną we wcześniesze części pracy, że wydzielone skupienia będą pokrywać się z podziałem na rodzae nowotworów, których to próbki analizowaliśmy, wydae się być prawdziwa, ponieważ prawie wszystkie próbki nowotworów tego samego rodzau znalazły się w tych samych skupieniach. Rys. 1. Porównanie wyników segmentaci z rodzaem nowotworu (dla modelu wykorzystuącego wszystkie zmienne) CNS RENAL BREATS MELANOMA NSCLC UNKNOWN OVARIAN MCF7D-repro PROSTATE LEUKEMIA K5B-repro K5A-repro COLON MCF7A-repro 1 1 Wyniki Wyniki5 1 Rys. 13. Zestawianie wyników dla wszystkich i 5 nalepszych predyktorów Copyright StatSoft Polska,

16 StatSoft Polska, tel. (1) 3, (1) 1151, Jedynie poedyncze przypadki nowotworów BREAST, MELANOMA, NSCLC zostały rozrzucone po skupieniach (por. rys. 1 oraz rys. 13). Jakość wyboru 5 nalepszych predyktorów została zweryfikowana koleną analizą skupień. Okazało się, że ograniczenie liczby zmiennych z 3 do 5 nie zaburza wcześniesze segmentaci. Grupy utworzone podczas analizy skupień na zredukowanych danych maą, poza dwoma wyątkami, dokładnie taki sam skład. Wynikami nasze analizy są więc ednorodne skupienia, dzielące weściowe dane ze względu na poziom ekspresi genów. Widzimy, że podział ten ma związek z rodzaem nowotworu, w kolenym kroku badacz może charakteryzować poszczególne skupienia ze względu na różne cechy (np. diagnozę, leczenie). Przyporządkowywanie do skupień nowych przypadków może odbywać się uż na podstawie poziomów ekspresi zaledwie 5 genów. Oczywiście te same analizy można przeprowadzić również innymi metodami, na przykład za pomocą drzew hierarchicznych, analizy skupień metodą EM lub sieci Kohonena. Uzyskane wyniki mogą pomóc w zbudowaniu nalepszego modelu. Podsumowanie Analiza skupień wydae się być nieodzownym narzędziem wszędzie tam, gdzie mamy do czynienia z ogromnymi ilościami danych, w których nie widać akiekolwiek struktury, a analizowanie poedynczych przypadków traci sens. Oczywiście może to mieć miesce ak w opisanym przykładzie w medycynie, ale także w innych dziedzinach badań. Analizę skupień z powodzeniem wykorzystue się na przykład w wyodrębnianiu segmentów rynku w badaniach marketingowych, wzorców pogody w meteorologii, ścieżek zakupów w analizie zachowań klientów, wzorców zachowań użytkowników serwisów internetowych itd. Literatura 1. T. Hastie, R. Tibshirani, J. Friedman, The Elements of Statistical Learning Data Mining, Inference, and Prediction, Springer.. Guidici P., Applied Data Mining - Statistical Methods for Business and Industry, John Wiley & Sons, Inc, Copyright StatSoft Polska 5

Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów.

Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów. ANALIZA SKUPIEŃ Metoda k-means I. Cel zadania Zadaniem jest analiza zbioru danych, gdzie zmiennymi są poziomy ekspresji genów. Podczas badań pobrano próbki DNA od 36 różnych pacjentów z chorobą nowotworową.

Bardziej szczegółowo

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu

Bardziej szczegółowo

Sposoby prezentacji problemów w statystyce

Sposoby prezentacji problemów w statystyce S t r o n a 1 Dr Anna Rybak Instytut Informatyki Uniwersytet w Białymstoku Sposoby prezentacji problemów w statystyce Wprowadzenie W artykule zostaną zaprezentowane podstawowe zagadnienia z zakresu statystyki

Bardziej szczegółowo

Hierarchiczna analiza skupień

Hierarchiczna analiza skupień Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym

Bardziej szczegółowo

Szukanie rozwiązań funkcji uwikłanych (równań nieliniowych)

Szukanie rozwiązań funkcji uwikłanych (równań nieliniowych) Szukanie rozwiązań funkcji uwikłanych (równań nieliniowych) Funkcja uwikłana (równanie nieliniowe) jest to funkcja, która nie jest przedstawiona jawnym przepisem, wzorem wyrażającym zależność wartości

Bardziej szczegółowo

Wprowadzenie do analizy dyskryminacyjnej

Wprowadzenie do analizy dyskryminacyjnej Wprowadzenie do analizy dyskryminacyjnej Analiza dyskryminacyjna to zespół metod statystycznych używanych w celu znalezienia funkcji dyskryminacyjnej, która możliwie najlepiej charakteryzuje bądź rozdziela

Bardziej szczegółowo

PODSTAWOWE ANALIZY I WIZUALIZACJA Z WYKORZYSTANIEM MAP W STATISTICA

PODSTAWOWE ANALIZY I WIZUALIZACJA Z WYKORZYSTANIEM MAP W STATISTICA PODSTAWOWE ANALIZY I WIZUALIZACJA Z WYKORZYSTANIEM MAP W STATISTICA Krzysztof Suwada, StatSoft Polska Sp. z o.o. Wstęp Wiele różnych analiz dotyczy danych opisujących wielkości charakterystyczne bądź silnie

Bardziej szczegółowo

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów: Na dzisiejszym wykładzie omówimy najważniejsze charakterystyki liczbowe występujące w statystyce opisowej. Poszczególne wzory będziemy podawać w miarę potrzeby w trzech postaciach: dla szeregu szczegółowego,

Bardziej szczegółowo

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu

Bardziej szczegółowo

Wykład 2: Grupowanie danych (szeregi statystyczne) + porady dotyczące analizy danych w programie STATISTICA

Wykład 2: Grupowanie danych (szeregi statystyczne) + porady dotyczące analizy danych w programie STATISTICA Wykład 2: Grupowanie danych (szeregi statystyczne) + porady dotyczące analizy danych w programie STATISTICA Dobór metody prezentacji danych Dobór metody prezentacji danych zależy od: charakteru danych

Bardziej szczegółowo

Wykład 2: Arkusz danych w programie STATISTICA

Wykład 2: Arkusz danych w programie STATISTICA Wykład 2: Arkusz danych w programie STATISTICA Nazwy przypadków Numer i nazwa zmiennej Elementy arkusza danych Cechy statystyczne Zmienne (kolumny) Jednostki statystyczne Przypadki (wiersze) Tworzenie

Bardziej szczegółowo

PROGNOZOWANIE Z WYKORZYSTANIEM METOD DATA MINING

PROGNOZOWANIE Z WYKORZYSTANIEM METOD DATA MINING PROGNOZOWANIE Z WYKORZYSTANIEM METOD DATA MINING Grzegorz Harańczyk, StatSoft Polska Sp. z o.o. Jednym z ważnych obszarów analizy danych jest prognozowanie szeregów czasowych. Któż nie chciałby znać przyszłości

Bardziej szczegółowo

(Dantzig G. B. (1963))

(Dantzig G. B. (1963)) (Dantzig G.. (1963)) Uniwersalna metoda numeryczna dla rozwiązywania zadań PL. Ideą metody est uporządkowany przegląd skończone ilości rozwiązań bazowych układu ograniczeń, które możemy utożsamiać, w przypadku

Bardziej szczegółowo

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania Analiza skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania Analiza Skupień Elementy składowe procesu grupowania obiekt Ekstrakcja cech Sprzężenie zwrotne Grupowanie klastry Reprezentacja

Bardziej szczegółowo

Wykład 3: Prezentacja danych statystycznych

Wykład 3: Prezentacja danych statystycznych Wykład 3: Prezentacja danych statystycznych Dobór metody prezentacji danych Dobór metody prezentacji danych zależy od: charakteru danych statystycznych (inne metody wybierzemy dla danych przekrojowych,

Bardziej szczegółowo

Wykład 4: Statystyki opisowe (część 1)

Wykład 4: Statystyki opisowe (część 1) Wykład 4: Statystyki opisowe (część 1) Wprowadzenie W przypadku danych mających charakter liczbowy do ich charakterystyki można wykorzystać tak zwane STATYSTYKI OPISOWE. Za pomocą statystyk opisowych można

Bardziej szczegółowo

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie. SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:

Bardziej szczegółowo

Testy zgodności 9 113

Testy zgodności 9 113 Testy zgodności 9 3 9. TESTY ZGODNOŚCI 9. Różne sytuace praktyczne W praktyce badań statystycznych, ak uż poprzednio stwierdzono, cały proces analizy statystyczne dzielimy na dwa etapy: formułowanie hipotezy

Bardziej szczegółowo

TWORZENIE I STOSOWANIE MODELU PROGNOSTYCZNEGO Z WYKORZYSTANIEM STATISTICA ENTERPRISE

TWORZENIE I STOSOWANIE MODELU PROGNOSTYCZNEGO Z WYKORZYSTANIEM STATISTICA ENTERPRISE TWORZENIE I STOSOWANIE MODELU PROGNOSTYCZNEGO Z WYKORZYSTANIEM STATISTICA ENTERPRISE Tomasz Demski, StatSoft Polska Sp. z o.o. Wprowadzenie Badanie przebiegu rozmaitych wielkości w czasie w celu znalezienia

Bardziej szczegółowo

Analiza składowych głównych. Wprowadzenie

Analiza składowych głównych. Wprowadzenie Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących

Bardziej szczegółowo

Poszukiwanie optymalnego wyrównania harmonogramu zatrudnienia metodą analityczną

Poszukiwanie optymalnego wyrównania harmonogramu zatrudnienia metodą analityczną Mieczysław POŁOŃSKI Wydział Budownictwa i Inżynierii Środowiska, Szkoła Główna Gospodarstwa Wieskiego, Warszawa, ul. Nowoursynowska 159 e-mail: mieczyslaw_polonski@sggw.pl Poszukiwanie optymalnego wyrównania

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO

STATYSTYKA I DOŚWIADCZALNICTWO STATYSTYKA I DOŚWIADCZALNICTWO Wykład 9 Analiza skupień wielowymiarowa klasyfikacja obiektów Metoda, a właściwie to zbiór metod pozwalających na grupowanie obiektów pod względem wielu cech jednocześnie.

Bardziej szczegółowo

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium IX: Analiza skupień

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium IX: Analiza skupień 1 Laboratorium IX: Analiza skupień Spis treści Laboratorium IX: Analiza skupień... 1 Wiadomości ogólne... 2 1. Wstęp teoretyczny.... 2 1.1. Wprowadzenie.... 2 1.2. Metody hierarchiczne analizy skupień....

Bardziej szczegółowo

Uruchom polecenie z menu Wstaw Wykres lub ikonę Kreator wykresów na Standardowym pasku narzędzi.

Uruchom polecenie z menu Wstaw Wykres lub ikonę Kreator wykresów na Standardowym pasku narzędzi. Tworzenie wykresów w Excelu. Część pierwsza. Kreator wykresów Wpisz do arkusza poniższą tabelę. Podczas tworzenia wykresów nie ma znaczenia czy tabela posiada obramowanie lub inne elementy formatowania

Bardziej szczegółowo

Wykład 5: Statystyki opisowe (część 2)

Wykład 5: Statystyki opisowe (część 2) Wykład 5: Statystyki opisowe (część 2) Wprowadzenie Na poprzednim wykładzie wprowadzone zostały statystyki opisowe nazywane miarami położenia (średnia, mediana, kwartyle, minimum i maksimum, modalna oraz

Bardziej szczegółowo

LINIOWOŚĆ METODY OZNACZANIA ZAWARTOŚCI SUBSTANCJI NA PRZYKŁADZIE CHROMATOGRAFU

LINIOWOŚĆ METODY OZNACZANIA ZAWARTOŚCI SUBSTANCJI NA PRZYKŁADZIE CHROMATOGRAFU LINIOWOŚĆ METODY OZNACZANIA ZAWARTOŚCI SUBSTANCJI NA PRZYKŁADZIE CHROMATOGRAFU Tomasz Demski, StatSoft Polska Sp. z o.o. Wprowadzenie Jednym z elementów walidacji metod pomiarowych jest sprawdzenie liniowości

Bardziej szczegółowo

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej LABORATORIUM 3 Przygotowanie pliku (nazwy zmiennych, export plików.xlsx, selekcja przypadków); Graficzna prezentacja danych: Histogramy (skategoryzowane) i 3-wymiarowe; Wykresy ramka wąsy; Wykresy powierzchniowe;

Bardziej szczegółowo

Metoda określania pozycji wodnicy statków na podstawie pomiarów odległości statku od głowic laserowych

Metoda określania pozycji wodnicy statków na podstawie pomiarów odległości statku od głowic laserowych inż. Marek Duczkowski Metoda określania pozycji wodnicy statków na podstawie pomiarów odległości statku od głowic laserowych słowa kluczowe: algorytm gradientowy, optymalizacja, określanie wodnicy W artykule

Bardziej szczegółowo

Jak korzystać z przeglądarki danych ESS SoftReport

Jak korzystać z przeglądarki danych ESS SoftReport Jak korzystać z przeglądarki danych ESS SoftReport Instalacja 1. Do korzystania z przeglądarki konieczne jest zainstalowanie programu ESS SoftReport. W tym celu należy wejść na stronę internetową http://www.ifispan.waw.pl/ess

Bardziej szczegółowo

Ćwiczenia nr 4. Arkusz kalkulacyjny i programy do obliczeń statystycznych

Ćwiczenia nr 4. Arkusz kalkulacyjny i programy do obliczeń statystycznych Ćwiczenia nr 4 Arkusz kalkulacyjny i programy do obliczeń statystycznych Arkusz kalkulacyjny składa się z komórek powstałych z przecięcia wierszy, oznaczających zwykle przypadki, z kolumnami, oznaczającymi

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący

Bardziej szczegółowo

Edytor materiału nauczania

Edytor materiału nauczania Edytor materiału nauczania I. Uruchomienie modułu zarządzania rozkładami planów nauczania... 2 II. Opuszczanie elektronicznej biblioteki rozkładów... 5 III. Wyszukiwanie rozkładu materiałów... 6 IV. Modyfikowanie

Bardziej szczegółowo

Aproksymacja funkcji a regresja symboliczna

Aproksymacja funkcji a regresja symboliczna Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą

Bardziej szczegółowo

Dopasowywanie modelu do danych

Dopasowywanie modelu do danych Tematyka wykładu dopasowanie modelu trendu do danych; wybrane rodzaje modeli trendu i ich właściwości; dopasowanie modeli do danych za pomocą narzędzi wykresów liniowych (wykresów rozrzutu) programu STATISTICA;

Bardziej szczegółowo

Podstawowe operacje i rodzaje analiz dostępne w pakiecie Statistica

Podstawowe operacje i rodzaje analiz dostępne w pakiecie Statistica Podstawowe operacje i rodzaje analiz dostępne w pakiecie Statistica 1. Zarządzanie danymi. Pierwszą czynnością w pracy z pakietem Statistica jest zazwyczaj wprowadzenie danych do arkusza. Oprócz możliwości

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela

Statystyka w pracy badawczej nauczyciela Statystyka w pracy badawczej nauczyciela Wykład 1: Terminologia badań statystycznych dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka (1) Statystyka to nauka zajmująca się zbieraniem, badaniem

Bardziej szczegółowo

Testy nieparametryczne

Testy nieparametryczne Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X. STATYSTYKA MATEMATYCZNA WYKŁAD 4 WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X. Wysuwamy hipotezy: zerową (podstawową H ( θ = θ i alternatywną H, która ma jedną z

Bardziej szczegółowo

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA Wykład 4: Wnioskowanie statystyczne Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA Idea wnioskowania statystycznego Celem analizy statystycznej nie jest zwykle tylko

Bardziej szczegółowo

Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl

Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl 1. Wstęp Aby skorzystać z możliwości RapidMinera w zakresie analizy tekstu, należy zainstalować Text Mining Extension. Wybierz: 1 Po

Bardziej szczegółowo

STATYSTYKA I DOŚWIADCZALNICTWO

STATYSTYKA I DOŚWIADCZALNICTWO STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6 Test niezależności chi-kwadrat (χ 2 ) Cel: ocena występowania zależności między dwiema cechami jakościowymi/skategoryzowanymi X- pierwsza cecha; Y druga cecha Przykłady

Bardziej szczegółowo

ANALIZA WARIANCJI - KLASYFIKACJA WIELOCZYNNIKOWA

ANALIZA WARIANCJI - KLASYFIKACJA WIELOCZYNNIKOWA ANALIZA WARIANCJI - KLASYFIKACJA WIELOCZYNNIKOWA Na poprzednich zajęciach omawialiśmy testy dla weryfikacji hipotez, że kilka średnich dla analizowanej zmiennej grupującej mają jednakowe wartości średnie.

Bardziej szczegółowo

Metody analizy skupień Wprowadzenie Charakterystyka obiektów Metody grupowania Ocena poprawności grupowania

Metody analizy skupień Wprowadzenie Charakterystyka obiektów Metody grupowania Ocena poprawności grupowania Wielowymiarowe metody segmentacji CHAID Metoda Automatycznej Detekcji Interakcji CHAID Cele CHAID Dane CHAID Przebieg analizy CHAID Parametry CHAID Wyniki Metody analizy skupień Wprowadzenie Charakterystyka

Bardziej szczegółowo

Spis treści Szybki start... 4 Podstawowe informacje opis okien... 6 Tworzenie, zapisywanie oraz otwieranie pliku... 23

Spis treści Szybki start... 4 Podstawowe informacje opis okien... 6 Tworzenie, zapisywanie oraz otwieranie pliku... 23 Spis treści Szybki start... 4 Podstawowe informacje opis okien... 6 Plik... 7 Okna... 8 Aktywny scenariusz... 9 Oblicz scenariusz... 10 Lista zmiennych... 11 Wartości zmiennych... 12 Lista scenariuszy/lista

Bardziej szczegółowo

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo

Tworzenie i modyfikowanie wykresów

Tworzenie i modyfikowanie wykresów Tworzenie i modyfikowanie wykresów Aby utworzyć wykres: Zaznacz dane, które mają być zilustrowane na wykresie: I sposób szybkie tworzenie wykresu Naciśnij na klawiaturze klawisz funkcyjny F11 (na osobnym

Bardziej szczegółowo

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych; STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych; - badanie skuteczności nowego leku; - badanie stopnia zanieczyszczenia gleb metalami

Bardziej szczegółowo

Znaleźć wzór ogólny i zbadać istnienie granicy ciągu określonego rekurencyjnie:

Znaleźć wzór ogólny i zbadać istnienie granicy ciągu określonego rekurencyjnie: Ciągi rekurencyjne Zadanie 1 Znaleźć wzór ogólny i zbadać istnienie granicy ciągu określonego rekurencyjnie: w dwóch przypadkach: dla i, oraz dla i. Wskazówka Należy poszukiwać rozwiązania w postaci, gdzie

Bardziej szczegółowo

4.3 Grupowanie według podobieństwa

4.3 Grupowanie według podobieństwa 4.3 Grupowanie według podobieństwa Przykłady obiektów to coś więcej niż wektory wartości atrybutów. Reprezentują one poszczególne rasy psów. Ważnym pytaniem, jakie można sobie zadać, jest to jak dobrymi

Bardziej szczegółowo

Teraz bajty. Informatyka dla szkoły podstawowej. Klasa VI

Teraz bajty. Informatyka dla szkoły podstawowej. Klasa VI 1 Teraz bajty. Informatyka dla szkoły podstawowej. Klasa VI 1. Obliczenia w arkuszu kalkulacyjnym Rozwiązywanie problemów z wykorzystaniem aplikacji komputerowych obliczenia w arkuszu kalkulacyjnym wykonuje

Bardziej szczegółowo

Arkusz kalkulacyjny MS EXCEL ĆWICZENIA 4

Arkusz kalkulacyjny MS EXCEL ĆWICZENIA 4 Arkusz kalkulacyjny MS EXCEL ĆWICZENIA 4 Uwaga! Każde ćwiczenie rozpoczynamy od stworzenia w katalogu Moje dokumenty swojego własnego katalogu roboczego, w którym będziecie Państwo zapisywać swoje pliki.

Bardziej szczegółowo

Sigma moduł Arkusz. Wprowadzanie do arkusza planów nauczania oddziałów

Sigma moduł Arkusz. Wprowadzanie do arkusza planów nauczania oddziałów Sigma moduł Arkusz Wprowadzanie do arkusza planów nauczania oddziałów Plany nauczania oddziałów należy opisywać na wszystkie lata nauki. Dzięki temu możliwe będzie kontrolowanie zgodności tworzonego planu

Bardziej szczegółowo

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

Tworzenie prezentacji w MS PowerPoint

Tworzenie prezentacji w MS PowerPoint Tworzenie prezentacji w MS PowerPoint Program PowerPoint dostarczany jest w pakiecie Office i daje nam możliwość stworzenia prezentacji oraz uatrakcyjnienia materiału, który chcemy przedstawić. Prezentacje

Bardziej szczegółowo

WYMAGANIE EDUKACYJNE Z MATEMATYKI W KLASIE II GIMNAZJUM. dopuszczającą dostateczną dobrą bardzo dobrą celującą

WYMAGANIE EDUKACYJNE Z MATEMATYKI W KLASIE II GIMNAZJUM. dopuszczającą dostateczną dobrą bardzo dobrą celującą 1. Statystyka odczytać informacje z tabeli odczytać informacje z diagramu 2. Mnożenie i dzielenie potęg o tych samych podstawach 3. Mnożenie i dzielenie potęg o tych samych wykładnikach 4. Potęga o wykładniku

Bardziej szczegółowo

Analiza sezonowości. Sezonowość może mieć charakter addytywny lub multiplikatywny

Analiza sezonowości. Sezonowość może mieć charakter addytywny lub multiplikatywny Analiza sezonowości Wiele zjawisk charakteryzuje się nie tylko trendem i wahaniami przypadkowymi, lecz także pewną sezonowością. Występowanie wahań sezonowych może mieć charakter kwartalny, miesięczny,

Bardziej szczegółowo

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych. Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(), zwaną funkcją aproksymującą

Bardziej szczegółowo

Podstawowe pojęcia statystyczne

Podstawowe pojęcia statystyczne Podstawowe pojęcia statystyczne Istnieją trzy rodzaje kłamstwa: przepowiadanie pogody, statystyka i komunikat dyplomatyczny Jean Rigaux Co to jest statystyka? Nauka o metodach ilościowych badania zjawisk

Bardziej szczegółowo

Dane w poniższej tabeli przedstawiają sprzedaż w dolarach i sztukach oraz marżę wyrażoną w dolarach dla:

Dane w poniższej tabeli przedstawiają sprzedaż w dolarach i sztukach oraz marżę wyrażoną w dolarach dla: Przykład 1. Dane w poniższej tabeli przedstawiają sprzedaż w dolarach i sztukach oraz marżę wyrażoną w dolarach dla: 24 miesięcy, 8 krajów, 5 kategorii produktów, 19 segmentów i 30 brandów. Tabela ta ma

Bardziej szczegółowo

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl

Bardziej szczegółowo

KONSPEKT FUNKCJE cz. 1.

KONSPEKT FUNKCJE cz. 1. KONSPEKT FUNKCJE cz. 1. DEFINICJA FUNKCJI Funkcją nazywamy przyporządkowanie, w którym każdemu elementowi zbioru X odpowiada dokładnie jeden element zbioru Y Zbiór X nazywamy dziedziną, a jego elementy

Bardziej szczegółowo

Kierunek i poziom studiów: Biologia, poziom drugi Sylabus modułu: Metody statystyczne w naukach przyrodniczych

Kierunek i poziom studiów: Biologia, poziom drugi Sylabus modułu: Metody statystyczne w naukach przyrodniczych Uniwersytet Śląski w Katowicach str. 1 Kierunek i poziom studiów: Biologia, poziom drugi Sylabus modułu: Metody statystyczne w naukach przyrodniczych kod modułu: 2BL_02 1. Informacje ogólne koordynator

Bardziej szczegółowo

Ćwiczenie: Wprowadzenie do obsługi programu statystycznego SAS Enterprise Guide. Statystyka opisowa w SAS Enterprise Guide.

Ćwiczenie: Wprowadzenie do obsługi programu statystycznego SAS Enterprise Guide. Statystyka opisowa w SAS Enterprise Guide. Ćwiczenie: Wprowadzenie do obsługi programu statystycznego SAS Enterprise Guide. Statystyka opisowa w SAS Enterprise Guide. 1. Załóż we własnym folderze podfolder o nazwie cw2 i przekopiuj do niego plik

Bardziej szczegółowo

PRZYKŁADY BUDOWY MODELI REGRESYJNYCH I KLASYFIKACYJNYCH. Wprowadzenie do problematyki modelowania statystycznego

PRZYKŁADY BUDOWY MODELI REGRESYJNYCH I KLASYFIKACYJNYCH. Wprowadzenie do problematyki modelowania statystycznego PRZYKŁADY BUDOWY MODELI REGRESYJNYCH I KLASYFIKACYJNYCH Janusz Wątroba, StatSoft Polska Sp. z o.o. Tematyka artykułu obejmuje wprowadzenie do problematyki modelowania statystycznego i jego roli w badaniu

Bardziej szczegółowo

DATA MINING W STEROWANIU PROCESEM (QC DATA MINING)

DATA MINING W STEROWANIU PROCESEM (QC DATA MINING) DATA MINING W STEROWANIU PROCESEM (QC DATA MINING) Tomasz Demski, StatSoft Polska Sp. z o.o. Wprowadzenie Sterowanie i optymalizacja jakości to dziedziny, w których zastosowanie zgłębiania danych (data

Bardziej szczegółowo

Wykład 3. Metody opisu danych (statystyki opisowe, tabele liczności, wykresy ramkowe i histogramy)

Wykład 3. Metody opisu danych (statystyki opisowe, tabele liczności, wykresy ramkowe i histogramy) Wykład 3. Metody opisu danych (statystyki opisowe, tabele liczności, wykresy ramkowe i histogramy) Co na dzisiejszym wykładzie: definicje, sposoby wyznaczania i interpretacja STATYSTYK OPISOWYCH prezentacja

Bardziej szczegółowo

Rys.1. Technika zestawiania części za pomocą polecenia WSTAWIAJĄCE (insert)

Rys.1. Technika zestawiania części za pomocą polecenia WSTAWIAJĄCE (insert) Procesy i techniki produkcyjne Wydział Mechaniczny Ćwiczenie 3 (2) CAD/CAM Zasady budowy bibliotek parametrycznych Cel ćwiczenia: Celem tego zestawu ćwiczeń 3.1, 3.2 jest opanowanie techniki budowy i wykorzystania

Bardziej szczegółowo

Wstęp do teorii niepewności pomiaru. Danuta J. Michczyńska Adam Michczyński

Wstęp do teorii niepewności pomiaru. Danuta J. Michczyńska Adam Michczyński Wstęp do teorii niepewności pomiaru Danuta J. Michczyńska Adam Michczyński Podstawowe informacje: Strona Politechniki Śląskiej: www.polsl.pl Instytut Fizyki / strona własna Instytutu / Dydaktyka / I Pracownia

Bardziej szczegółowo

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu Wykład 11-12 Centralne twierdzenie graniczne Statystyka matematyczna: Estymacja parametrów rozkładu Centralne twierdzenie graniczne (CTG) (Central Limit Theorem - CLT) Centralne twierdzenie graniczne (Lindenberga-Levy'ego)

Bardziej szczegółowo

Dane dotyczące wartości zmiennej (cechy) wprowadzamy w jednej kolumnie. W przypadku większej liczby zmiennych wprowadzamy każdą w oddzielnej kolumnie.

Dane dotyczące wartości zmiennej (cechy) wprowadzamy w jednej kolumnie. W przypadku większej liczby zmiennych wprowadzamy każdą w oddzielnej kolumnie. STATISTICA INSTRUKCJA - 1 I. Wprowadzanie danych Podstawowe / Nowy / Arkusz Dane dotyczące wartości zmiennej (cechy) wprowadzamy w jednej kolumnie. W przypadku większej liczby zmiennych wprowadzamy każdą

Bardziej szczegółowo

Praktyczne przykłady wykorzystania GeoGebry podczas lekcji na II etapie edukacyjnym.

Praktyczne przykłady wykorzystania GeoGebry podczas lekcji na II etapie edukacyjnym. Praktyczne przykłady wykorzystania GeoGebry podczas lekcji na II etapie edukacyjnym. Po uruchomieniu Geogebry (wersja 5.0) Pasek narzędzi Cofnij/przywróć Problem 1: Sprawdź co się stanie, jeśli połączysz

Bardziej szczegółowo

Porządkowanie liniowe i analiza skupień

Porządkowanie liniowe i analiza skupień Porządkowanie liniowe i analiza skupień Wprowadzenie Uniwersytet Ekonomiczny w Krakowie, 2012 1 Plan prezentaci 1. Porządkowanie liniowe obiektów 2. Wprowadzenie do analizy skupień 2 1.PORZĄDKOWANIE LINIOWE

Bardziej szczegółowo

ZASTOSOWANIE TECHNIK ANALIZY SKUPIEŃ I DRZEW DECYZYJNYCH DO SEGMENTACJI RYNKU

ZASTOSOWANIE TECHNIK ANALIZY SKUPIEŃ I DRZEW DECYZYJNYCH DO SEGMENTACJI RYNKU ZASTOSOWANIE TECHNIK ANALIZY SKUPIEŃ I DRZEW DECYZYJNYCH DO SEGMENTACJI RYNKU Grzegorz Migut, StatSoft Polska Sp. z o.o. Segmentacja rynku jest jednym z kluczowych zadań realizowanych podczas opracowania

Bardziej szczegółowo

POJĘCIA WSTĘPNE. STATYSTYKA - nauka traktująca o metodach ilościowych badania prawidłowości zjawisk (procesów) masowych.

POJĘCIA WSTĘPNE. STATYSTYKA - nauka traktująca o metodach ilościowych badania prawidłowości zjawisk (procesów) masowych. [1] POJĘCIA WSTĘPNE STATYSTYKA - nauka traktująca o metodach ilościowych badania prawidłowości zjawisk (procesów) masowych. BADANIE STATYSTYCZNE - ogół prac mających na celu poznanie struktury określonej

Bardziej szczegółowo

Metody doboru próby do badań. Dr Kalina Grzesiuk

Metody doboru próby do badań. Dr Kalina Grzesiuk Metody doboru próby do badań Dr Kalina Grzesiuk Proces doboru próby 1. Ustalenie populacji badanej 2. Ustalenie wykazu populacji badanej 3. Ustalenie liczebności próby 4. Wybór metody doboru próby do badań

Bardziej szczegółowo

Katedra Technik Wytwarzania i Automatyzacji STATYSTYCZNA KONTROLA PROCESU

Katedra Technik Wytwarzania i Automatyzacji STATYSTYCZNA KONTROLA PROCESU Katedra Technik Wytwarzania i Automatyzacji METROLOGIA I KONTKOLA JAKOŚCI - LABORATORIUM TEMAT: STATYSTYCZNA KONTROLA PROCESU 1. Cel ćwiczenia Zapoznanie studentów z podstawami wdrażania i stosowania metod

Bardziej szczegółowo

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015 Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner rok akademicki 2014/2015 Sieci Kohonena Sieci Kohonena Sieci Kohonena zostały wprowadzone w 1982 przez fińskiego

Bardziej szczegółowo

Analiza korespondencji

Analiza korespondencji Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy

Bardziej szczegółowo

Spacery losowe generowanie realizacji procesu losowego

Spacery losowe generowanie realizacji procesu losowego Spacery losowe generowanie realizacji procesu losowego Michał Krzemiński Streszczenie Omówimy metodę generowania trajektorii spacerów losowych (błądzenia losowego), tj. szczególnych procesów Markowa z

Bardziej szczegółowo

Stosowanie, tworzenie i modyfikowanie stylów.

Stosowanie, tworzenie i modyfikowanie stylów. Stosowanie, tworzenie i modyfikowanie stylów. We wstążce Narzędzia główne umieszczone są style, dzięki którym w prosty sposób możemy zmieniać tekst i hurtowo modyfikować. Klikając kwadrat ze strzałką w

Bardziej szczegółowo

W każdej sali najważniejszym narzędziem są prawdopodobnie Zasoby. Przyjrzyjmy się teraz temu narzędziu, któremu zmieniono poniżej nazwę na Wspólne

W każdej sali najważniejszym narzędziem są prawdopodobnie Zasoby. Przyjrzyjmy się teraz temu narzędziu, któremu zmieniono poniżej nazwę na Wspólne Zasoby W każdej sali najważniejszym narzędziem są prawdopodobnie Zasoby. Przyjrzyjmy się teraz temu narzędziu, któremu zmieniono poniżej nazwę na Wspólne zasoby: Ikonki znajdujące się po prawej stronie

Bardziej szczegółowo

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x ZJAZD 4 KORELACJA, BADANIE NIEZALEŻNOŚCI, ANALIZA REGRESJI Analiza korelacji i regresji jest działem statystyki zajmującym się badaniem zależności i związków pomiędzy rozkładami dwu lub więcej badanych

Bardziej szczegółowo

5.4. Tworzymy formularze

5.4. Tworzymy formularze 5.4. Tworzymy formularze Zastosowanie formularzy Formularz to obiekt bazy danych, który daje możliwość tworzenia i modyfikacji danych w tabeli lub kwerendzie. Jego wielką zaletą jest umiejętność zautomatyzowania

Bardziej szczegółowo

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną

Bardziej szczegółowo

Zmienne zależne i niezależne

Zmienne zależne i niezależne Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }

Bardziej szczegółowo

1 Układy równań liniowych

1 Układy równań liniowych II Metoda Gaussa-Jordana Na wykładzie zajmujemy się układami równań liniowych, pojawi się też po raz pierwszy macierz Formalną (i porządną) teorią macierzy zajmiemy się na kolejnych wykładach Na razie

Bardziej szczegółowo

Ewelina Dziura Krzysztof Maryański

Ewelina Dziura Krzysztof Maryański Ewelina Dziura Krzysztof Maryański 1. Wstęp - eksploracja danych 2. Proces Eksploracji danych 3. Reguły asocjacyjne budowa, zastosowanie, pozyskiwanie 4. Algorytm Apriori i jego modyfikacje 5. Przykład

Bardziej szczegółowo

FUNKCJA LINIOWA - WYKRES

FUNKCJA LINIOWA - WYKRES FUNKCJA LINIOWA - WYKRES Wzór funkcji liniowej (Postać kierunkowa) Funkcja liniowa jest podstawowym typem funkcji. Jest to funkcja o wzorze: y = ax + b a i b to współczynniki funkcji, które mają wartości

Bardziej szczegółowo

% sumy wiersza nadrzędnego. % sumy kolumny nadrzędnej. % sumy elementu nadrzędnego. Porządkuj od najmniejszych do największych.

% sumy wiersza nadrzędnego. % sumy kolumny nadrzędnej. % sumy elementu nadrzędnego. Porządkuj od najmniejszych do największych. bieżąca w wyświetla wartości w kolejnych wierszach lub kolejnych kolumnach jako wartości skumulowane (w drugim wierszu wyświetla sumę wartości odpowiadających wierszom od do ; w wierszy od wiersza do,

Bardziej szczegółowo

Mariusz Piotrowski Barbara Fatyga Zespół Węzła Centralnego OŻK-SB

Mariusz Piotrowski Barbara Fatyga Zespół Węzła Centralnego OŻK-SB Mariusz Piotrowski Barbara Fatyga Zespół Węzła Centralnego OŻK-SB INSTRUKCJA - PRZYKŁAD PRACY Z DANYMI MOJEJ POLIS Przygotowanie tabeli z danymi: Struktura wykształcenia kobiet w powiecie olsztyńskim na

Bardziej szczegółowo

Systemy uczące się Lab 4

Systemy uczące się Lab 4 Systemy uczące się Lab 4 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 26 X 2018 Projekt zaliczeniowy Podstawą zaliczenia ćwiczeń jest indywidualne wykonanie projektu uwzględniającego

Bardziej szczegółowo

DATA MINING W PROGNOZOWANIU ZAPOTRZEBOWANIA

DATA MINING W PROGNOZOWANIU ZAPOTRZEBOWANIA DATA MINING W PROGNOZOWANIU ZAPOTRZEBOWANIA NA NOŚNIKI ENERGII Andrzej Sokołowski, Agnieszka Pasztyła StatSoft Polska Sp. z o. o.; Akademia Ekonomiczna w Krakowie, Katedra Statystyki Wprowadzenie Metody

Bardziej szczegółowo

ZAGADNIENIE TRANSPORTOWE

ZAGADNIENIE TRANSPORTOWE ZAGADNIENIE TRANSPORTOWE ZT jest specyficznym problemem z zakresu zastosowań programowania liniowego. ZT wykorzystuje się najczęściej do: optymalnego planowania transportu towarów, przy minimalizacji kosztów,

Bardziej szczegółowo

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających, 诲 瞴瞶 瞶 ƭ0 ƭ 瞰 parametrów strukturalnych modelu Y zmienna objaśniana, = + + + + + X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających, α 0, α 1, α 2,,α k parametry strukturalne modelu, k+1 parametrów

Bardziej szczegółowo

Praktyczny Excel. Wykresy i grafika. w Excelu krok po kroku

Praktyczny Excel. Wykresy i grafika. w Excelu krok po kroku Praktyczny Excel Wykresy i grafika w Excelu krok po kroku 5 1 NUMER PRAWNICZY przygotowany przez + OCHRONA DANYCH OSOBOWYCH profesjonalnie i kompleksowo 1 2 + GRATIS 20% GRATIS 30%, tel. 22 518 29 29,

Bardziej szczegółowo

Makropolecenia w Excelu

Makropolecenia w Excelu Makropolecenia w Excelu Trochę teorii Makropolecenie w skrócie nazywane makro ma za zadanie automatyczne wykonanie powtarzających się po sobie określonych czynności. Na przykładzie arkusza kalkulacyjnego

Bardziej szczegółowo

Jedną z ciekawych funkcjonalności NOLa jest możliwość dokonywania analizy technicznej na wykresach, które mogą być otwierane z poziomu okna notowań:

Jedną z ciekawych funkcjonalności NOLa jest możliwość dokonywania analizy technicznej na wykresach, które mogą być otwierane z poziomu okna notowań: Wykresy w NOLu Jedną z ciekawych funkcjonalności NOLa jest możliwość dokonywania analizy technicznej na wykresach, które mogą być otwierane z poziomu okna notowań: Po naciśnięciu F2 otwiera się nowe okno,

Bardziej szczegółowo

TEORETYCZNE PODSTAWY INFORMATYKI

TEORETYCZNE PODSTAWY INFORMATYKI 1 TEORETYCZNE PODSTAWY INFORMATYKI 16/01/2017 WFAiS UJ, Informatyka Stosowana I rok studiów, I stopień Repetytorium złożoność obliczeniowa 2 Złożoność obliczeniowa Notacja wielkie 0 Notacja Ω i Θ Rozwiązywanie

Bardziej szczegółowo

1. Otwórz pozycję Piston.iam

1. Otwórz pozycję Piston.iam 1. Otwórz pozycję Piston.iam 2. Wybierz z drzewa wyboru poziomego Środowisko następnie Symulacja Dynamiczna 3. Wybierz Ustawienia Symulacji 4. W ustawieniach symulacji dynamicznej zaznacz: - Automatycznie

Bardziej szczegółowo