MODELOWANIE PROCESÓW PRODUKCYJNYCH
|
|
- Marcin Chmiel
- 8 lat temu
- Przeglądów:
Transkrypt
1 MODELOWANIE PROCESÓW PRODUKCYJNYCH Tomasz Demski, StatSoft Polska Sp. z o.o. Tematem artykułu jest tworzenie modeli procesów produkcyjnych za pomocą technik analizy danych: statystyki i data mining. W Słowniku języka polskiego (PWN 1979) model definiowany jest jako Układ względnie odosobniony, możliwie mało skomplikowany, działający analogicznie do oryginału, którym może być istota żywa, maszyna, zakład przemysłowy, organizacja społeczna itd.. Ta poważna definicja nie powinna przesłonić tego, że w codziennym życiu bardzo często wykorzystujemy modele nie tylko do pracy, ale również do zabawy. W zależności od przeznaczenia model dokładniej przedstawia pewne cechy rzeczywistego obiektu, pomijając inne, które mogą być kluczowe dla innego zastosowania. Przykładowo jeśli interesuje nas opór powietrza dla nowo projektowanego samochodu, to nasz model musi dokładnie odzwierciedlać kształt nadwozia, a silnik i cały układ napędowy nie jest istotny. Natomiast jeśli chcemy ocenić układ napędowy (np. zbadać przebieg momentu obrotowego), to kształt nadwozia jest zbędnym szczegółem. Zajmiemy się statystycznymi modelami procesów produkcyjnych. Są to modele mające postać zbioru reguł logicznych lub równań, uzyskane na podstawie danych z przeszłości uwzględniające losowość właściwości procesu. Przykładem modelu statystycznego jest np. równanie (więcej informacji o tym modelu znajduje się w podręczniku [1]): Wytrzymałość = 16,3 + 1,57 ciśnienie formowania + 4,16 stężenie kwasu + ε W modelu Wytrzymałość jest zmienną zależną (lub objaśnianą), a ciśnienie formowania oraz stężenie kwasu predyktorami (używane są również nazwy zmienne niezależne, objaśniające lub predyktory). Losowość uwzględniamy poprzez składnik ε, który oznacza błąd losowy i zawiera w sobie m.in. wpływ niemierzonych i niemierzalnych czynników. Z praktycznego punktu widzenia wartości ε powinny być niewielkie, a w przypadku stosowania tradycyjnych metod statystycznych często zakłada się, że ma on rozkład normalny o wartości oczekiwanej 0. Szersze i bardzo przystępne wprowadzenie do modelowania statystycznego znajduje się w podręczniku [2]. Na schemacie poniżej widzimy zmienne (właściwości, czynniki) dotyczące procesu. Najczęściej model będzie miał za zadanie odtworzyć zależności miedzy parametrami na Copyright StatSoft Polska
2 wejściu procesu (np. cechami surowców wykorzystywanych w procesie) i mierzonymi właściwościami procesu (sterowalnymi, takimi jak np. ciśnienie w reaktorze i niesterowalnymi takimi jak np. ciśnienie atmosferyczne) a wynikami procesu (np. parametrami finalnego produktu, wydajnością procesu itd.). Inne przykłady zmiennych dotyczących procesu znajdują się w artykule [4]. Mierzone parametry procesu sterowalne niesterowalne Wejście procesu Wynik procesu Proces Czynniki losowe W praktyce zazwyczaj mamy do dyspozycji bardzo dużo zmiennych, jednak najczęściej tylko niewielka cześć z nich jest ważna. Jednym z celów budowy modelu jest właśnie znalezienie tych ważnych zmiennych. Przeznaczenie modeli możemy podzielić na dwie zasadnicze grupy: 1. Opisanie danych i odkrycie ważnych zależności, prawidłowości i wzorców. 2. Przewidywanie wartości zmiennych wyjściowych. Modele opisowe powinny być łatwe do zrozumienia przez człowieka (wyklucza to podejścia typu czarna skrzynka, gdzie zależności między zmiennymi są niejawne). Model opisowy nie musi z dużą trafnością przewidywać wartości zmiennej zależnej, a w niektórych metodach (tzw. nieukierunkowanych lub bez nauczyciela) nawet nie wyróżniamy zmiennej zależnej. Ciekawym przypadkiem zastosowań typu 1 są zadania, w których naszym celem jest stwierdzenie, które zmienne istotnie wpływają na zmienną zależną przykład takiego właśnie modelu przedstawimy w dalszej części artykułu Copyright StatSoft Polska 2005
3 Wiedzę o wpływie poszczególnych zmiennych na właściwości finalnego produktu możemy wykorzystać do ustalenia dopuszczalnego zakresu zmienności i dokładności sprawdzania zmiennych. Jeśli jakiś czynnik nie wpływa na jakość produktu, możemy ustalić dla niego szerokie granice specyfikacji i granice kontrolne oraz rzadziej dokonywać jego pomiarów, natomiast większy nacisk położyć na naprawdę ważne zmienne. Modele powinny dobrze opisywać typowy przebieg procesu. Jeśli więc pojawi się jednostka lub partia, która jest źle opisywana przez sprawdzony, dobrze do tej pory spisujący się model, jest to sygnał o możliwym rozregulowaniu procesu. Na tej zasadzie działają karty kontrolne Shewharta (por. [3]). Przyjmują one bardzo prosty model: właściwość procesu ma stałą średnią i zmienność, które wyznaczamy na podstawie zebranych wcześniej pomiarów. Aktualna wartość właściwości (dla partii lub jednostki) może wahać się losowo zgodnie z założonym rozkładem (zazwyczaj przyjmuje się rozkład normalny dla właściwości i dopuszczalne odchylenie ± 3 sigma). Jeśli pojawi się wartość spoza dopuszczalnego zakresu, to mamy sygnał o rozregulowaniu. Takie podejście można uogólnić na bardziej złożone, wielowymiarowe zależności przykładem takiego podejścia jest MSPC (Multivariate Statistical Process Control) stosowane do wykrywania rozregulowań dla procesów o setkach, a nawet tysiącach właściwości (więcej informacji można znaleźć w artykule Monitorowanie i sterowanie jakością procesów wsadowych w [5]). W przypadku gdy naszym celem jest przewidywanie wartości zmiennej, często możliwości interpretacji uzyskanego modelu schodzą na dalszy plan i stosujemy złożone obliczeniowo i trudne w interpretacji metody, takie jak sieci neuronowe. Model przewidujący wartości zmiennych często wykorzystuje się do sterowania procesem. Przykładowo jeśli prognozowana wartość właściwości procesu jest nieodpowiednia, to możemy skorygować ustawienia parametrów procesu, tak aby usunąć problem. Inny model może nam podpowiedzieć, który parametr procesu należy zmienić i o jaką wartość. W przypadku procesów wieloetapowych model może przed zakończeniem procesu przewidywać, czy finalny produkt będzie spełniał wymagania. Jeśli nie, to pomijamy kolejne etapy procesu, ponieważ wiemy, że i tak nie uzyskamy użytecznego produktu. Takie zastosowania występują np. w przemyśle półprzewodnikowym. Sposób tworzenia modeli Autor artykułu [4] zaproponował dwa sposoby tworzenia modeli 1. Odkrywanie zależności. 2. Testowanie. W pierwszym z nich badamy wyjścia procesu, aby stwierdzić czy ich zmiany są czysto losowe i wykryć ewentualne systematyczne przyczyny zmian. Innymi słowy naszym cele jest odkrycie czynników najsilniej wpływających na badaną zmienną. Do odkrywania zależności stosujemy rozmaite wykresy (zwłaszcza wykres sekwencji), karty kontrolne i interakcyjne narzędzia eksploracji danych. Copyright StatSoft Polska
4 Wynikiem takiego badania może być wniosek o konieczności mierzenia i zbierania wartości jakieś zmiennej w celu wykorzystania ich w modelu. W podejściu testowym zaczynamy od określenia zbioru zmiennych, które są dostępne i potencjalnie wpływają na zmienną wyjściową. Następnie, stosując odpowiednią technikę analizy danych (statystyki lub data mining), stwierdzamy, czy zmienne te istotnie wpływają na zmienną zależną. W podejściu tym najczęściej stosowane metody to: regresja liniowa, analiza korelacji, regresja logistyczna i dyskryminacyjna. Innym podziałem modeli jest rozróżnienie na klasyczną statystykę i data mining. Stosowanie metod statystycznych, także do modelowania, reguluje metodyka Six Sigma. Przegląd przewidzianych przez nią metod można znaleźć w podręczniku [6], a informacje o zastosowaniach data mining w przemyśle w [5]. Zasadnicze różnice między data mining a tradycyjnymi metodami to mniej restrykcyjne podejście do założeń modeli w przypadku data mining, częstsze stosowanie podejścia typu czarna skrzynka i używanie algorytmów uczących się. W data mining zazwyczaj człowiek podejmuje mniej decyzji, a więcej działań odbywa się automatycznie. Ponadto w modelach data mining dysponujemy zwykle większymi zbiorami danych. Specjalną, całościową strategią budowy, oceny i stosowania modeli jest opracowany przez Caterpilar PROCEED (opisany na stronach: oraz proceed.statsoft.com). System ten jest tematem artykułu PROCEED - modelowanie, optymalizacja i symulacja złożonych procesów produkcyjnych w dalszej części niniejszej publikacji. Przykłady Różnicę między dwoma sposobami tworzenia modelu zobaczymy na dwóch prostych przykładach. Najpierw zastosujemy odkrywanie zależności. Dla pewnej właściwości procesu chcemy stwierdzić, czy wykazuje ona wyłącznie losowe wahania wokół średniej, a jeśli nie, to jakie czynniki wpływają na jej wartości. Zaczniemy od zwykłej karty kontrolnej X-średnie i R (znajduje się ona na rysunku poniżej). Na pierwszy rzut oka wydaje się, że nie ma przyczynowej zmienności, bo na karcie brak sygnałów o rozregulowaniu. Jednak po bliższym przyjrzeniu się karcie wartości średniej zauważymy podejrzane falowanie średniej z próbek. Również histogram średnich w próbkach wydaje się odbiegać od normalnego Copyright StatSoft Polska 2005
5 2,9 Histogram średnich Karta X-średnie i R X-śr.: 2,5894 (2,5894); Sigma:,12788 (,12788); n: 4, 2,8 2,7812 2,7 2,6 2,5894 2,5 2,4 2,3975 2, ,7 Histogram rozstępów Rozstęp:,26327 (,26327); Sigma:,11251 (,11251); n: 4, 0,6, ,5 0,4 0,3 0,2, ,1 0,0 0,0000-0, Losowość sekwencji średnich sprawdzimy za pomocą testów konfiguracji. Na rysunku poniżej widzimy, że po włączeniu wyświetlania wyników tych testów na kracie pojawiło się wiele sygnałów o rozregulowaniu procesu. 2,9 Karta X-średnie 2,8 2,7812 2,7 2,6 2,5894 2,5 2,4 2,3975 2, W poniższej tabeli znajduje się lista testów konfiguracji. Mamy cztery serie próbek, które są poza strefą C (najbliższą linii centralnej). Takie zachowanie jest typowe dla procesów, które mają wiele źródeł (np. mierzone produkty pochodzą z dwóch maszyn) lub pewien Copyright StatSoft Polska
6 czynnik włącza się i wyłącza regularnie, w pewnych odstępach czasu. Z karty kontrolnej możemy odczytać, kiedy takie włączanie i wyłączanie następowało, co ułatwia wytropienie czynnika wpływającego na właściwość produktu. Test konfiguracji Od próbki nr Do próbki nr 9 po tej samej stronie l. centralnej Brak Brak 6 w trendzie rosnącym/malejącym Brak Brak 14 naprzemiennie w górę i w dół Brak Brak z 3 w strefie A lub dalej z 5 w strefie B lub dalej w strefie C Brak Brak 8 poza strefą C Brak Brak W naszym przypadku okazało się, że poszukiwanym czynnikiem jest operator. Na poniższej karcie, uwzględniającej wpływ operatora, widzimy, że średnia dla operatora A jest zauważalnie wyższa niż dla operatora B. Oczywiście wpływ operatora to jedna z tych rzeczy, która jest często spotykana i którą zawsze powinniśmy sprawdzać, ale identyczne podejście może wykryć czynnik, którego nie podejrzewalibyśmy o wywieranie wpływu na właściwość finalnego produktu. 2,9 Karta X-średnie (z uwzględnieniem operatorów) A B A B A B A 2,8361 2,8 2,7 2,6590 2,6 2,5 2,4820 2,4 2,3 2, Uzyskany przez nas model jest prosty: wiemy, że dla operatora A wartość właściwości jest średnio wyższa niż dla operatora B. W naszym przypadku moglibyśmy uściślić model, ale zdarza się, że wszystko, co możemy wydobyć z danych, to właśnie informacja tego typu Copyright StatSoft Polska 2005
7 Zobaczmy teraz, jak wygląda drugie podejście. Użyjemy nieco zmodyfikowanych danych z przykładów regresji omówionych w podręcznikach [1] i [6]. Interesuje nas wytrzymałość pewnego produktu. Zbiór zmiennych niezależnych tworzą Ciśnienie, Stężenie, Przepływ oraz Temperatura. Zaczniemy od analizy korelacji liniowej. W tabeli poniżej znajdują się współczynniki korelacji liniowej dla naszych zmiennych. Dosyć częstym błędem w interpretacji macierzy korelacji jest wyciąganie wniosków wyłącznie z wartości współczynników korelacji. Powinniśmy zawsze sprawdzić, czy współczynnik korelacji jest istotny statystycznie. Jeżeli nie jest, to jego wartość może być przypadkowa i tak naprawdę niewiele nam mówi. W naszej tabeli istotne współczynniki zostały oznaczone pogrubieniem. Ze zmienną zależną istotnie skorelowane są Ciśnienie i Stężenie. Zauważmy, że mamy również istotne związki między zmiennymi niezależnymi. Teraz zbudujemy modele regresji wielorakiej (używany jest również termin regresja wielokrotna). Poniżej widzimy wyniki regresji uwzględniającej wszystkie zmienne. Podobnie jak w przypadku korelacji, powinniśmy zwrócić uwagę na istotność współczynników regresji. W modelu występują dwa nieistotne statystycznie współczynniki dla zmiennych i, aby uzyskać poprawny model, powinniśmy się ich pozbyć (uwaga: czasami w modelach regresji uwzględnia się współczynniki nieistotne statystycznie, jednak wymaga to zewnętrznego uzasadnienia, np. wynikającego z teorii fizycznej danego zjawiska lub doświadczenia). Stosuje się różne strategie eliminacji lub wstawiania zmiennych do modeli regresyjnych. My zastosujemy regresję krokowa wsteczną, bazująca na wartości statystki F. Poniżej widzimy wyniki tej procedury. Copyright StatSoft Polska
8 Bardzo często do oceny modeli stosuje się współczynnik R 2. Informuje on nas, jaki procent zmienności zmiennej zależnej wyjaśnia model. Jak zauważa R. D. Snee (zob. [4]), dążenie do uzyskania jak największego R 2 prowadzi do błędnego wstawiania do modelu dużej liczby zmiennych, a przecież chodzi nam o informację, co jest ważne, i uzyskanie stabilnego i odpornego modelu. W naszym przypadku model z eliminacją zmiennych ma nieco gorsze R 2, ale jest lepszy, bo mówi nam, które zmienne są naprawdę ważne i będzie lepiej działał dla nowych danych, bo nie ma w nim przypadkowych współczynników. Zauważmy, że model z nieistotnymi zmiennymi jest przykładem tzw. przeuczenia, o którym najczęściej mówi się w kontekście metod data mining. Przeuczenie polega na tym, że mamy model dobrze spisujący się dla danych, na których go zbudowano, ale dla nowych danych będzie najprawdopodobniej spisywał się dużo gorzej. Ocena modeli Do oceny modelu wykorzystuje się specjalnie zaprojektowany eksperyment, jednak nie zawsze jest to możliwe. W praktyce bardzo dobrym sprawdzianem jest zastosowanie modelu dla danych, których nie stosowano przy tworzeniu modelu. Jest to typowe podejście dla data mining, a jego wielką zaletą jest łatwa i intuicyjna interpretacja wyników. W szczególności nie musimy rozumieć metody modelowania, znać się na użytych metodach po prostu jako wskaźnik jakości modelu dostajemy np. średnią wartość błędu dla nowych danych. W przypadku modeli statystycznych zazwyczaj określone są wskaźniki dobroci dopasowania i można przeprowadzić rozmaite testy założeń modelu. Przykładem takich wskaźników jest współczynnik R 2, o którym wspomnieliśmy, omawiając przykład modelu regresyjnego. Jeśli mamy wgląd w postać modelu, to powinniśmy sprawdzić, czy wyniki są zgodne z ogólną wiedzą i doświadczeniem. Jeśli np. z modelu wynika, iż większej mocy silnika towarzyszy mniejsze zużycie paliwa, to jest to bardzo podejrzane i zapewne przy tworzeniu modelu popełniliśmy jakiś błąd. Innym sposobem oceny modelu jest analiza reszt (tzn. różnic między wartościami przewidywanymi a obserwowanymi). Jeśli model wyjaśnia całą przyczynową zmienność, to reszty powinny rozkładać się czysto losowo; w przypadku wielu modeli (np. regresji liniowej) rozkład reszt powinien być normalny. Reszty nie powinny być skorelowane z żadną zmienną braną pod uwagę w analizie. Poniżej widzimy wykres Copyright StatSoft Polska 2005
9 pokazujący zależności reszt w modelu regresji utworzonym w przykładzie powyżej od zmiennej Przepływ (zawierającym zmienne Ciśnienie i Stężenie). Jak widać reszty są rozłożone losowo, nie ma żadnego wyraźnego wzorca lub tendencji. Dopasowana prosta co prawda nie ma nachylenia 0, ale jest ono niewielkie, a przedział ufności dla położenia prostej (zaznaczony przerywaną linią) jest stosunkowo szeroki i obejmuje prostą o zerowym nachyleniu. 30 Surowe reszty vs. Przepływ Surowe reszty = 14,950 -,1167 * Przepływ Korelacja: r = -, Surowe reszty Przepływ 95% p.ufności Jeżeli z modelu korzystamy rutynowo, przez dłuższy czas, to powinniśmy w sposób ciągły sprawdzać, czy jest on odpowiedni. Możemy do tego celu zastosować np. kartę kontrolną dla reszt modelu. Przykład budowy modelu data mining Mamy dane o pewnym ciągłym procesie. Naszym celem jest zbudowanie modelu przewidującego wartość parametru wyjściowego uzyskiwanej substancji. Proces przebiega w ten sposób, że zmiana ustawień wpływa na badaną cechę produktu z pewnym opóźnieniem. Aby wprowadzić odpowiednie korekty w procesie, musimy przewidzieć, jaka będzie przyszła wartość parametru. Dane mają już odpowiednią postać do prognozowania: zawierają bieżące wartości właściwości procesu oraz niektóre wartości z poprzedniego okresu, które podejrzewamy o wpływ na badaną zmienną. Łącznie dla każdej obserwacji dysponujemy 82 predyktorami (zmiennymi niezależnymi), a wszystkich przypadków jest W przypadku tradycyjnego podejścia powinniśmy zbadać rozkład zmiennych, ich wzajemne powiązania, sprawdzić założenia metod modelowania planowanych do zastosowania w modelowaniu. Jest to dosyć pracochłonne i dlatego zastosujemy podejście data miningowe i metody, które nie wymagają jawnego określenia postaci modelu, spełnienia założeń itp. Copyright StatSoft Polska
10 Zmiennych do wykorzystania w modelu jest dosyć sporo. Ponadto należy się spodziewać, że zależności je wiążące są nieliniowe, a więc do ich opisania będziemy potrzebowali silnych metod, które najczęściej nie lubią zbyt dużej liczby pustych zmiennych. Te dwa względy przemawiają za eliminacją niepotrzebnych zmiennych przed właściwą analizą. Do usunięcia zbędnych zmiennych wykorzystamy moduł Dobór i eliminacja zmiennych systemu STATISTICA Data Miner. Procedura ta nie tylko sprawdza wpływ zmiennych na zmienną zależną, ale również automatycznie eliminuje puste zmienne (niezawierające żadnych wartości) i stałe (przyjmujące tę samą wartość dla wszystkich przypadków). Procedura Dobór i eliminacja zmiennych bada wpływ pojedynczych zmiennych na wielkość wyjściową. Procedura sprawdza, na ile dla różnych wartości potencjalnego predyktora zmienna zależna przyjmuje różne wartości. Zauważmy, że podejście to jest typowe dla data mining i faktycznie nie testujemy żadnej hipotezy, lecz uzyskujemy pewną miarę wpływu poszczególnych zmiennych niezależnych na zmienną zależną (dokładniejszy opis znajduje się w [7]). Na poniższym rysunku widzimy miarę ważności dla 41 predyktorów, które najsilniej wpływają na zmienną zależną. Wydaje się, że bez ryzyka możemy uwzględnić w analizie tylko 30 potencjalnych predyktorów (do zmiennej ParWejść29). 40 Odcięcie Ważność (Wartość F) Op.Ciśn. na filtrze Ciśn. na filtrze Temp. wewn6 Op.Przepływ Op.Temp. wewn6 Temp. wanny Przepływ Temp. wylotowa Op.Temp.wewn3 Temp.wewn1 Temp.wewn2 Punkt rosy Op.Punkt rosy Op.Temp.wewn4 Ciśn. w wannie Temp.wewn3 Op.Temp.wewn5 Op.Ciśn. w wannie Op.Temp. wlotowa Op.Temp. wanny Op.Temp. wylotowa Temp.wewn4 Op.Wyjście Temp. wlotowa Temp.wewn5 Op.Temp.wewn1 Przep. cz. chłodz. Op.Temp.wewn2 Par.Wejść21 Dodatek11 Par.Wejść29 Op.Przep. cz. chłodz. Par.Wejść7 Dodatek2 Par.Wejść28 Par.Wejść10 Par.Wejść23 Par.Wejść15 Model zbudujemy w przestrzeni roboczej STATISTICA Data Miner. Po wstawieniu do niej źródła danych najpierw podłączamy do niego węzeł usuwający zbędne zmienne. Zgodnie z otrzymanymi wcześniej wynikami do dalszych analiz wybierzemy 30 najlepszych predyktorów. Przyjmujemy, że nasze dane mają przyzwoitą jakość. Jednak powinniśmy zastosować procedurę obsługującą braki danych. W naszym przypadku zastąpimy braki danych medianami, stosując odpowiedni węzeł systemu STATISTICA Data Miner. Par.Wejść1 Par.Wejść24 Op.Temp. cz. chłodz Copyright StatSoft Polska 2005
11 Następny krok projektu to podział danych na próbę uczącą i testową. Próbę uczącą wykorzystamy do dopasowania parametrów modelu, a testową do jego oceny. Utworzymy losową próbę testową zawierająca 20% wszystkich przypadków. Kolejny krok to zastosowanie odpowiedniej metody modelowania. Na początek użyjemy dwóch metod: wielorakiej regresji liniowej z krokowym doborem zmiennych oraz metody MAR Splines. Do oceny jakości modeli użyjemy węzła Dobroć dopasowania dla wielu źródeł danych. Poniżej widzimy pełny projekt STATISTICA Data Miner. Przy ocenie jakości modeli powinniśmy jako punkt odniesienia wziąć najprostszy model, czyli średnią w próbie testowej. Model liniowy jest tylko nieco lepszy od naiwnego modelu średniej. Średnia kwadratów reszt jest w jego przypadku mniejsza o około 20%, a średni błąd bezwzględny o około 6% (por. rysunek poniżej). Przy domyślnych ustawieniach dla metody MAR Splines uzyskiwany model jest niewiele lepszy niż regresja liniowa: wskaźniki błędów są lepsze tylko o kilka procent. Sytuacja zmienia się, gdy w modelu uwzględnimy interakcje 2 rzędu (pozostawiając domyślne wartości innych parametrów). Taki model MAR Splines ma wskaźniki błędu wyraźnie mniejsze, zarówno od modelu średniej, jak i modelu liniowego. Copyright StatSoft Polska
12 0,14 0,12 0,116 0,26 0,24 0,22 0,20 0,2467 0,2312 0,2258 0,202 0,10 0,08 0,06 0,0944 0,0903 0,068 0,18 0,16 0,14 0,12 0,10 Średnia kwadratów reszt 0,04 0,02 0,00 Model średniej MARS (ustawienia domyślne) Wieloraka regresja liniowa MARS (włączone interakcje) Średni błąd bezwzględny 0,08 0,06 0,04 0,02 0,00 Model średniej MARS (ustawienia domyślne) Wieloraka regresja liniowa MARS (włączone interakcje) Zauważmy, że wykrycie tak silnego wpływu interakcji jest bardzo cenne. Wiemy, że na wartość parametru procesu pewne zmienne wpływają wspólnie, a wpływu tego nie da się opisać, patrząc oddzielnie na poszczególne zmienne. W naszym przypadku najsilniejszy wpływ na zmienną zależną wywierają interakcje opóźnionej temperatury wylotowej z temperaturą wlotową. Model MAR Splines z interakcjami wydaje się być do zaakceptowania: jest zdecydowanie lepszy od naiwnego modelu średniej. Możemy go wykorzystać jako źródło wskazówek przy sterowaniu procesem, tym bardziej że nie chodzi nam o bardzo dokładne przewidzenie przyszłej wartości, a raczej o wychwycenie tendencji i zapobieganie niekorzystnym zmianom. Literatura 1. J.M. Juran, Juran s Quality Control Handbook, wyd. IV, McGraw-Hill. 2. W.J. Krzanowski, Statistical Modelling, Arnold, T. Greber, Statystyczne sterowanie procesami, StatSoft R.D. Snee, Develop Useful Models, Quality Progress vol. 35/nr 12 (grudzień 2002). 5. Statystyka i data mining w praktyce, StatSoft Polska F.W. Breyfogle. Implementing Six Sigma, Wiley Podręcznik elektroniczny STATISTICA. StatSoft, Inc. (2005). STATISTICA (data analysis software system), version Copyright StatSoft Polska 2005
PRZYKŁAD TWORZENIA KART KONTROLNYCH W STATISTICA
PRZYKŁAD TWORZENIA KART KONTROLNYCH W STATISTICA Tomasz Demski, StatSoft Polska Sp. z o.o. Karty kontrolne są jednym z najczęściej wykorzystywanych narzędzi analizy danych. Zaproponowane w latach dwudziestych
Wprowadzenie do analizy korelacji i regresji
Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących
DATA MINING W STEROWANIU PROCESEM (QC DATA MINING)
DATA MINING W STEROWANIU PROCESEM (QC DATA MINING) Tomasz Demski, StatSoft Polska Sp. z o.o. Wprowadzenie Sterowanie i optymalizacja jakości to dziedziny, w których zastosowanie zgłębiania danych (data
LINIOWOŚĆ METODY OZNACZANIA ZAWARTOŚCI SUBSTANCJI NA PRZYKŁADZIE CHROMATOGRAFU
LINIOWOŚĆ METODY OZNACZANIA ZAWARTOŚCI SUBSTANCJI NA PRZYKŁADZIE CHROMATOGRAFU Tomasz Demski, StatSoft Polska Sp. z o.o. Wprowadzenie Jednym z elementów walidacji metod pomiarowych jest sprawdzenie liniowości
3. Modele tendencji czasowej w prognozowaniu
II Modele tendencji czasowej w prognozowaniu 1 Składniki szeregu czasowego W teorii szeregów czasowych wyróżnia się zwykle następujące składowe szeregu czasowego: a) składowa systematyczna; b) składowa
Statystyczne sterowanie procesem
Statystyczne sterowanie procesem SPC (ang. Statistical Process Control) Trzy filary SPC: 1. sporządzenie dokładnego diagramu procesu produkcji; 2. pobieranie losowych próbek (w regularnych odstępach czasu
CO STATYSTYKA I WYKRESY MOGĄ POWIEDZIEĆ O PROCESIE?
CO STATYSTYKA I WYKRESY MOGĄ POWIEDZIEĆ O PROCESIE? Tomasz Demski, StatSoft Polska Sp. z o.o. Dzięki statystyce i wykresom możemy: radzić sobie ze zmiennością procesów i niepewnością wiedzy, wydobywać
Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16
Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący
STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE
STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE 1 W trakcie badania obliczono wartości średniej (15,4), mediany (13,6) oraz dominanty (10,0). Określ typ asymetrii rozkładu. 2 Wymień 3 cechy rozkładu Gauss
Statystyka i Analiza Danych
Warsztaty Statystyka i Analiza Danych Gdańsk, 20-22 lutego 2014 Zastosowania wybranych technik regresyjnych do modelowania współzależności zjawisk Janusz Wątroba StatSoft Polska Centrum Zastosowań Matematyki
Zmienne zależne i niezależne
Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }
REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji
Statystyka i opracowanie danych Ćwiczenia 5 Izabela Olejarczyk - Wożeńska AGH, WIMiIP, KISIM REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ MODEL REGRESJI LINIOWEJ Analiza regresji
Analiza składowych głównych. Wprowadzenie
Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących
Rozdział 8. Regresja. Definiowanie modelu
Rozdział 8 Regresja Definiowanie modelu Analizę korelacji można traktować jako wstęp do analizy regresji. Jeżeli wykresy rozrzutu oraz wartości współczynników korelacji wskazują na istniejąca współzmienność
Sterowanie procesem i jego zdolność. Zbigniew Wiśniewski
Sterowanie procesem i jego zdolność Zbigniew Wiśniewski Wybór cech do kart kontrolnych Zaleca się aby w pierwszej kolejności były brane pod uwagę cechy dotyczące funkcjonowania wyrobu lub świadczenia usługi
REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ
REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ Korelacja oznacza fakt współzależności zmiennych, czyli istnienie powiązania pomiędzy nimi. Siłę i kierunek powiązania określa się za pomocą współczynnika korelacji
Modelowanie glikemii w procesie insulinoterapii
Dawid Kaliszewski Modelowanie glikemii w procesie insulinoterapii Promotor dr hab. inż. Zenon Gniazdowski Cel pracy Zbudowanie modelu predykcyjnego przyszłych wartości glikemii diabetyka leczonego za pomocą
PRZYKŁAD WDROŻENIA KART KONTROLNYCH KROK PO KROKU
PRZYKŁAD WDROŻENIA KART KONTROLNYCH KROK PO KROKU Tomasz Demski, StatSoft Polska Sp. z o.o. Przykład przedstawia tworzenie karty kontrolnej p dla nowego procesu, określanie wartości granic kontrolnych
Analiza regresji - weryfikacja założeń
Medycyna Praktyczna - portal dla lekarzy Analiza regresji - weryfikacja założeń mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie (Kierownik Zakładu: prof.
Teoria błędów. Wszystkie wartości wielkości fizycznych obarczone są pewnym błędem.
Teoria błędów Wskutek niedoskonałości przyrządów, jak również niedoskonałości organów zmysłów wszystkie pomiary są dokonywane z określonym stopniem dokładności. Nie otrzymujemy prawidłowych wartości mierzonej
Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna
Regresja wieloraka Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna zmienna niezależna (można zobrazować
Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski
Narzędzia statystyczne i ekonometryczne Wykład 1 dr Paweł Baranowski Informacje organizacyjne Wydział Ek-Soc, pok. B-109 pawel@baranowski.edu.pl Strona: baranowski.edu.pl (w tym materiały) Konsultacje:
KORELACJE I REGRESJA LINIOWA
KORELACJE I REGRESJA LINIOWA Korelacje i regresja liniowa Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność Obie analizy się wzajemnie przeplatają Analiza regresji: Opisanie modelem
Testowanie hipotez statystycznych
9 października 2008 ...czyli definicje na rozgrzewkę n-elementowa próba losowa - wektor n zmiennych losowych (X 1,..., X n ); intuicyjnie: wynik n eksperymentów realizacja próby (X 1,..., X n ) w ω Ω :
ANALIZA SYSTEMU POMIAROWEGO (MSA)
StatSoft Polska, tel. 1 484300, 601 414151, info@statsoft.pl, www.statsoft.pl ANALIZA SYSTEMU POMIAROWEGO (MSA) dr inż. Tomasz Greber, Politechnika Wrocławska, Instytut Organizacji i Zarządzania Wprowadzenie
Etapy modelowania ekonometrycznego
Etapy modelowania ekonometrycznego jest podstawowym narzędziem badawczym, jakim posługuje się ekonometria. Stanowi on matematyczno-statystyczną formę zapisu prawidłowości statystycznej w zakresie rozkładu,
Walidacja metod analitycznych Raport z walidacji
Walidacja metod analitycznych Raport z walidacji Małgorzata Jakubowska Katedra Chemii Analitycznej WIMiC AGH Walidacja metod analitycznych (według ISO) to proces ustalania parametrów charakteryzujących
parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,
诲 瞴瞶 瞶 ƭ0 ƭ 瞰 parametrów strukturalnych modelu Y zmienna objaśniana, = + + + + + X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających, α 0, α 1, α 2,,α k parametry strukturalne modelu, k+1 parametrów
Sterowanie jakością badań i analiza statystyczna w laboratorium
Sterowanie jakością badań i analiza statystyczna w laboratorium CS-17 SJ CS-17 SJ to program wspomagający sterowanie jakością badań i walidację metod badawczych. Może działać niezależnie od innych składników
MODELE LINIOWE. Dr Wioleta Drobik
MODELE LINIOWE Dr Wioleta Drobik MODELE LINIOWE Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą
Process Analytical Technology (PAT),
Analiza danych Data mining Sterowanie jakością Analityka przez Internet Process Analytical Technology (PAT), nowoczesne podejście do zapewniania jakości wg. FDA Michał Iwaniec StatSoft Polska StatSoft
Wykład 4: Statystyki opisowe (część 1)
Wykład 4: Statystyki opisowe (część 1) Wprowadzenie W przypadku danych mających charakter liczbowy do ich charakterystyki można wykorzystać tak zwane STATYSTYKI OPISOWE. Za pomocą statystyk opisowych można
Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.
Ćwiczenie: Wybrane zagadnienia z korelacji i regresji. W statystyce stopień zależności między cechami można wyrazić wg następującej skali: Skala Guillforda Przedział Zależność Współczynnik [0,00±0,20)
Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski
Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski Zadanie 1 Eksploracja (EXAMINE) Informacja o analizowanych danych Obserwacje Uwzględnione Wykluczone Ogółem
POLITECHNIKA OPOLSKA
POLITECHNIKA OPOLSKA WYDZIAŁ MECHANICZNY Katedra Technologii Maszyn i Automatyzacji Produkcji Laboratorium Inżynierii Jakości Ćwiczenie nr 10 Temat: Karta kontrolna pojedynczych obserwacji i ruchomego
Regresja linearyzowalna
1 z 5 2007-05-09 23:22 Medycyna Praktyczna - portal dla lekarzy Regresja linearyzowalna mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie Data utworzenia:
Weryfikacja hipotez statystycznych
Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta
Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU
Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów
PROGNOZOWANIE Z WYKORZYSTANIEM METOD DATA MINING
PROGNOZOWANIE Z WYKORZYSTANIEM METOD DATA MINING Grzegorz Harańczyk, StatSoft Polska Sp. z o.o. Jednym z ważnych obszarów analizy danych jest prognozowanie szeregów czasowych. Któż nie chciałby znać przyszłości
Stanisław Cichocki. Natalia Neherbecka. Zajęcia 13
Stanisław Cichocki Natalia Neherbecka Zajęcia 13 1 1. Kryteria informacyjne 2. Testowanie autokorelacji 3. Modele dynamiczne: modele o rozłożonych opóźnieniach (DL) modele autoregresyjne o rozłożonych
Aproksymacja funkcji a regresja symboliczna
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą
Wprowadzenie do analizy dyskryminacyjnej
Wprowadzenie do analizy dyskryminacyjnej Analiza dyskryminacyjna to zespół metod statystycznych używanych w celu znalezienia funkcji dyskryminacyjnej, która możliwie najlepiej charakteryzuje bądź rozdziela
5. WNIOSKOWANIE PSYCHOMETRYCZNE
5. WNIOSKOWANIE PSYCHOMETRYCZNE Model klasyczny Gulliksena Wynik otrzymany i prawdziwy Błąd pomiaru Rzetelność pomiaru testem Standardowy błąd pomiaru Błąd estymacji wyniku prawdziwego Teoria Odpowiadania
Projekt zarządzania jakością wykorzystujący STATISTICA Data Miner przynosi w voestalpine roczne oszczędności w wysokości 800 000 EUR
Projekt zarządzania jakością wykorzystujący STATISTICA Data Miner przynosi w voestalpine roczne oszczędności w wysokości 800 000 EUR Przemysł samochodowy stawia najwyższe wymagania jakościowe w stosunku
Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;
LABORATORIUM 4 Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona; dwie zmienne zależne mierzalne małe próby duże próby rozkład normalny
STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów
STATYSTYKA MATEMATYCZNA WYKŁAD 4 Testowanie hipotez Estymacja parametrów WSTĘP 1. Testowanie hipotez Błędy związane z testowaniem hipotez Etapy testowana hipotez Testowanie wielokrotne 2. Estymacja parametrów
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH
1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Wnioskowanie statystyczne Czyli jak bardzo jesteśmy pewni że parametr oceniony na podstawie próbki jest
Podstawy opracowania wyników pomiarów z elementami analizy niepewności pomiarowych
Podstawy opracowania wyników pomiarów z elementami analizy niepewności pomiarowych dla studentów Chemii 2007 Paweł Korecki 2013 Andrzej Kapanowski Po co jest Pracownia Fizyczna? 1. Obserwacja zjawisk i
Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość
Idea Niech θ oznacza parametr modelu statystycznego. Dotychczasowe rozważania dotyczyły metod estymacji tego parametru. Teraz zamiast szacować nieznaną wartość parametru będziemy weryfikowali hipotezę
Ćwiczenie: Wybrane zagadnienia z korelacji i regresji
Ćwiczenie: Wybrane zagadnienia z korelacji i regresji W statystyce stopień zależności między cechami można wyrazić wg następującej skali: Skala Stanisza r xy = 0 zmienne nie są skorelowane 0 < r xy 0,1
POLITECHNIKA OPOLSKA
POLITECHNIKA OPOLSKA WYDZIAŁ MECHANICZNY Katedra Technologii Maszyn i Automatyzacji Produkcji Laboratorium Podstaw Inżynierii Jakości Ćwiczenie nr Temat: Karty kontrolne przy alternatywnej ocenie właściwości.
Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA
Wykład 4: Wnioskowanie statystyczne Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA Idea wnioskowania statystycznego Celem analizy statystycznej nie jest zwykle tylko
ANALIZA REGRESJI SPSS
NLIZ REGRESJI SPSS Metody badań geografii społeczno-ekonomicznej KORELCJ REGRESJ O ile celem korelacji jest zmierzenie siły związku liniowego między (najczęściej dwoma) zmiennymi, o tyle w regresji związek
Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów.
ANALIZA SKUPIEŃ Metoda k-means I. Cel zadania Zadaniem jest analiza zbioru danych, gdzie zmiennymi są poziomy ekspresji genów. Podczas badań pobrano próbki DNA od 36 różnych pacjentów z chorobą nowotworową.
Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi
Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi Piotr Konieczka Katedra Chemii Analitycznej Wydział Chemiczny Politechnika Gdańska D syst D śr m 1 3 5 2 4 6 śr j D 1
4. Średnia i autoregresja zmiennej prognozowanej
4. Średnia i autoregresja zmiennej prognozowanej 1. Średnia w próbie uczącej Własności: y = y = 1 N y = y t = 1, 2, T s = s = 1 N 1 y y R = 0 v = s 1 +, 2. Przykład. Miesięczna sprzedaż żelazek (szt.)
VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15
VI WYKŁAD STATYSTYKA 9/04/2014 B8 sala 0.10B Godz. 15:15 WYKŁAD 6 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI Weryfikacja hipotez ( błędy I i II rodzaju, poziom istotności, zasady
Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.
tel. 44 683 1 55 tel. kom. 64 566 811 e-mail: biuro@wszechwiedza.pl Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: gdzie: y t X t y t = 1 X 1
POLITECHNIKA OPOLSKA
POLITECHNIKA OPOLSKA WYDZIAŁ MECHANICZNY Katedra Technologii Maszyn i Automatyzacji Produkcji Laboratorium Podstaw Inżynierii Jakości Ćwiczenie nr 9 Temat: Karty kontrolne przy alternatywnej ocenie właściwości.
Wykład 4 Związki i zależności
Wykład 4 Związki i zależności Rozważmy: Dane z dwiema lub więcej zmiennymi Zagadnienia do omówienia: Zmienne objaśniające i zmienne odpowiedzi Wykres punktowy Korelacja Prosta regresji Słownictwo: Zmienna
W statystyce stopień zależności między cechami można wyrazić wg następującej skali: n 1
Temat: Wybrane zagadnienia z korelacji i regresji W statystyce stopień zależności między cechami można wyrazić wg następującej skali: Skala Guillforda Przedział Zależność Współczynnik [0,00 0,20) Słaba
TWORZENIE I STOSOWANIE MODELU DATA MINING ZA POMOCĄ PRZEPISÓW STATISTICA DATA MINER NA PRZYKŁADZIE WYKRYWANIA NADUŻYĆ
TWORZENIE I STOSOWANIE MODELU DATA MINING ZA POMOCĄ PRZEPISÓW STATISTICA DATA MINER NA PRZYKŁADZIE WYKRYWANIA NADUŻYĆ Tomasz Demski, StatSoft Polska Sp. z o.o. Narzędzia zgłębiania danych (data mining)
I jest narzędziem służącym do porównywania rozproszenia dwóch zmiennych. Używamy go tylko, gdy pomiędzy zmiennymi istnieje logiczny związek
ZADANIA statystyka opisowa i CTG 1. Dokonano pomiaru stężenia jonów azotanowych w wodzie μg/ml 1 0.51 0.51 0.51 0.50 0.51 0.49 0.52 0.53 0.50 0.47 0.51 0.52 0.53 0.48 0.59 0.50 0.52 0.49 0.49 0.50 0.49
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
PRZEWIDYWANIE WŁAŚCIWOŚCI PRODUKTU Z WYKORZYSTANIEM UCZENIA MASZYN
PRZEWIDYWANIE WŁAŚCIWOŚCI PRODUKTU Z WYKORZYSTANIEM UCZENIA MASZYN Tomasz Demski, StatSoft Polska Sp. z o.o. Przewidywanie właściwości produktu na podstawie składu surowcowego oraz parametrów przebiegu
Metody statystyczne kontroli jakości i niezawodności Lekcja II: Karty kontrolne.
Metody statystyczne kontroli jakości i niezawodności Lekcja II: Karty kontrolne. Wydział Matematyki Politechniki Wrocławskiej Karty kontroli jakości: przypomnienie Załóżmy, że chcemy mierzyć pewną charakterystykę.
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8 Regresja wielokrotna Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X 1, X 2, X 3,...) na zmienną zależną (Y).
5. Model sezonowości i autoregresji zmiennej prognozowanej
5. Model sezonowości i autoregresji zmiennej prognozowanej 1. Model Sezonowości kwartalnej i autoregresji zmiennej prognozowanej (rząd istotnej autokorelacji K = 1) Szacowana postać: y = c Q + ρ y, t =
Statystyka matematyczna dla leśników
Statystyka matematyczna dla leśników Wydział Leśny Kierunek leśnictwo Studia Stacjonarne I Stopnia Rok akademicki 03/04 Wykład 5 Testy statystyczne Ogólne zasady testowania hipotez statystycznych, rodzaje
Ekonometria, lista zadań nr 6 Zadanie 5 H X 1, X 2, X 3
Ekonometria, lista zadań nr 6 Zadanie 5 Poniższy diagram przedstawia porządek między rozważanymi modelami oparty na relacji zawierania pomiędzy podzbiorami zbioru zmiennych objaśniających: H, X 2, X 3
Dopasowywanie modelu do danych
Tematyka wykładu dopasowanie modelu trendu do danych; wybrane rodzaje modeli trendu i ich właściwości; dopasowanie modeli do danych za pomocą narzędzi wykresów liniowych (wykresów rozrzutu) programu STATISTICA;
Metody Ilościowe w Socjologii
Metody Ilościowe w Socjologii wykład 2 i 3 EKONOMETRIA dr inż. Maciej Wolny AGENDA I. Ekonometria podstawowe definicje II. Etapy budowy modelu ekonometrycznego III. Wybrane metody doboru zmiennych do modelu
w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(), zwaną funkcją aproksymującą
LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej
LABORATORIUM 3 Przygotowanie pliku (nazwy zmiennych, export plików.xlsx, selekcja przypadków); Graficzna prezentacja danych: Histogramy (skategoryzowane) i 3-wymiarowe; Wykresy ramka wąsy; Wykresy powierzchniowe;
Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski
Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej
Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński
Mikroekonometria 13 Mikołaj Czajkowski Wiktor Budziński Endogeniczność regresja liniowa W regresji liniowej estymujemy następujące równanie: i i i Metoda Najmniejszych Kwadratów zakłada, że wszystkie zmienne
Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu
Wykład 11-12 Centralne twierdzenie graniczne Statystyka matematyczna: Estymacja parametrów rozkładu Centralne twierdzenie graniczne (CTG) (Central Limit Theorem - CLT) Centralne twierdzenie graniczne (Lindenberga-Levy'ego)
Analiza autokorelacji
Analiza autokorelacji Oblicza się wartości współczynników korelacji między y t oraz y t-i (dla i=1,2,...,k), czyli współczynniki autokorelacji różnych rzędów. Bada się statystyczną istotność tych współczynników.
Stanisław Cihcocki. Natalia Nehrebecka
Stanisław Cihcocki Natalia Nehrebecka 1 1. Kryteria informacyjne 2. Testowanie autokorelacji w modelu 3. Modele dynamiczne: modele o rozłożonych opóźnieniach (DL) modele autoregresyjne o rozłożonych opóźnieniach
( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:
ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość
Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński
Mikroekonometria 5 Mikołaj Czajkowski Wiktor Budziński Zadanie 1. Wykorzystując dane me.medexp3.dta przygotuj model regresji kwantylowej 1. Przygotuj model regresji kwantylowej w którym logarytm wydatków
ZASTOSOWANIE TECHNIK CHEMOMETRYCZNYCH W BADANIACH ŚRODOWISKA. dr inż. Aleksander Astel
ZASTOSOWANIE TECHNIK CHEMOMETRYCZNYCH W BADANIACH ŚRODOWISKA dr inż. Aleksander Astel Gdańsk, 22.12.2004 CHEMOMETRIA dziedzina nauki i techniki zajmująca się wydobywaniem użytecznej informacji z wielowymiarowych
TWORZENIE I STOSOWANIE MODELU PROGNOSTYCZNEGO Z WYKORZYSTANIEM STATISTICA ENTERPRISE
TWORZENIE I STOSOWANIE MODELU PROGNOSTYCZNEGO Z WYKORZYSTANIEM STATISTICA ENTERPRISE Tomasz Demski, StatSoft Polska Sp. z o.o. Wprowadzenie Badanie przebiegu rozmaitych wielkości w czasie w celu znalezienia
Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.
Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru
MODELOWANIE KOSZTÓW USŁUG ZDROWOTNYCH PRZY
MODELOWANIE KOSZTÓW USŁUG ZDROWOTNYCH PRZY WYKORZYSTANIU METOD STATYSTYCZNYCH mgr Małgorzata Pelczar 6 Wprowadzenie Reforma służby zdrowia uwypukliła problem optymalnego ustalania kosztów usług zdrowotnych.
1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:
Wprowadzenie Statystyka opisowa to dział statystyki zajmujący się metodami opisu danych statystycznych (np. środowiskowych) uzyskanych podczas badania statystycznego (np. badań terenowych, laboratoryjnych).
Testowanie hipotez statystycznych.
Statystyka Wykład 10 Wrocław, 22 grudnia 2011 Testowanie hipotez statystycznych Definicja. Hipotezą statystyczną nazywamy stwierdzenie dotyczące parametrów populacji. Definicja. Dwie komplementarne w problemie
Analiza współzależności zjawisk
Analiza współzależności zjawisk Informacje ogólne Jednostki tworzące zbiorowość statystyczną charakteryzowane są zazwyczaj za pomocą wielu cech zmiennych, które nierzadko pozostają ze sobą w pewnym związku.
PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com
Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych
KALIBRACJA LINIOWA W ZAGADNIENIU WALIDACJI METOD POMIAROWYCH
KALIBRACJA LINIOWA W ZAGADNIENIU WALIDACJI METOD POMIAROWYCH Michał Iwaniec, StatSoft Polska Sp. z o.o. Wstęp Badanie stopnia zanieczyszczenia środowiska, analiza jakości produkowanych wyrobów czy też
ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW
ODRZUCANIE WYNIKÓW OJEDYNCZYCH OMIARÓW W praktyce pomiarowej zdarzają się sytuacje gdy jeden z pomiarów odstaje od pozostałych. Jeżeli wykorzystamy fakt, że wyniki pomiarów są zmienną losową opisywaną
Weryfikacja przypuszczeń odnoszących się do określonego poziomu cechy w zbiorowości (grupach) lub jej rozkładu w populacji generalnej,
Szacownie nieznanych wartości parametrów (średniej arytmetycznej, odchylenia standardowego, itd.) w populacji generalnej na postawie wartości tych miar otrzymanych w próbie (punktowa, przedziałowa) Weryfikacja
Wykład 5: Statystyki opisowe (część 2)
Wykład 5: Statystyki opisowe (część 2) Wprowadzenie Na poprzednim wykładzie wprowadzone zostały statystyki opisowe nazywane miarami położenia (średnia, mediana, kwartyle, minimum i maksimum, modalna oraz
STEROWANIE JAKOŚCIĄ PROCESU O WIELU WŁAŚCIWOŚCIACH: WIELOWYMIAROWE KARTY KONTROLNE I INNE NARZĘDZIA
STEROWANIE JAKOŚCIĄ PROCESU O WIELU WŁAŚCIWOŚCIACH: WIELOWYMIAROWE KARTY KONTROLNE I INNE NARZĘDZIA Tomasz Demski, StatSoft Polska Sp. z o.o. Statystyczne sterowanie jakością procesów (SPC) udowodniło
HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =
HISTOGRAM W pewnych przypadkach interesuje nas nie tylko określenie prawdziwej wartości mierzonej wielkości, ale także zbadanie całego rozkład prawdopodobieństwa wyników pomiarów. W takim przypadku wyniki
Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część
Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część populacji, którą podaje się badaniu statystycznemu
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4 Inne układy doświadczalne 1) Układ losowanych bloków Stosujemy, gdy podejrzewamy, że może występować systematyczna zmienność między powtórzeniami np. - zmienność
Zaawansowana eksploracja danych - sprawozdanie nr 1 Rafał Kwiatkowski 89777, Poznań
Zaawansowana eksploracja danych - sprawozdanie nr 1 Rafał Kwiatkowski 89777, Poznań 6.11.1 1 Badanie współzależności atrybutów jakościowych w wielowymiarowych tabelach danych. 1.1 Analiza współzależności