Indeks Punkty Uwagi - sprawozdanie Punkty (prezenta Uwagi - prezentacja
|
|
- Aleksander Kowal
- 7 lat temu
- Przeglądów:
Transkrypt
1 Indeks Punkty Uwagi - sprawozdanie Punkty (prezenta Uwagi - prezentacja za preprocessing związany z dzielnicami. - raport powinien być bardziej formalny. To nie jest opowiadanie,,model jest bardzo słaby + diagnostyka modelu + transformacja Box-Coxa - wyrzucanie obserwacji. Czemu tak niski próg odcięcia? 2 sigma to dosyć mało. Samo wyrzucanie obserwacji jest w porządku + dodanie nowych zmiennych do modelu, namierzenie problemu - wielomian 3 stopnia na dacie zbudowania. To strasznie nieintuicujnie, nie wiadomo jak to interpretować. Lepiej zrobić dyskretyzację, przedwojenne, wielka płyta, nowe budownictwo + wychwycenie zależności dla powierzchni - obrazki, dopasowanie są dla krzywych znacznie wyższego stopnia! - skoro nie ma jednorodnej wariancji to model nie jest poprawnie zbudowany! 1 Brak jasnego zaznaczenia co chcemy zrobić i po co. Bardzo techniczne, rozpoczęcie od szczegółów. Dobra praktyka: wykresy, wizualizacje Bardzo mocno o danych, szczegóły o dzielnicach, co odrzucamy. Bardziej interesuje nas jaki jest zakres mieszkań, które możemy przewidywać. Sformułowania nie rodzące zaufanie,,pewnie, Sformułowania matematyczne: *,,wielomianowe *,,dopasowanie funkcji,,,wielomian trzeciego stopnia *,,mediana, kwantyl *,,wyjaśniliśmy liczbę pokoi powierzchnią * box-cox z lamba -1 *,,piętro w potędze 2 *,,normalne reszty *,,testy jednorodności wariacji Brakuje zmiennych (parking, strzeżone). Pytania: 1. Jak wpływają zmienne? 2. Jaka jest dokładność modelu? Jak to rozumieć? 3.
2 Bardzo dobre wprowadzenie, charakterystyka danych - co mamy, czego nie mamy. Czego możemy się spodziewać. Główny zarzut: Nie mamy tłumaczyć procesu dojścia do modelu, tylko wytłumaczyć model. Wytłumacznie usuwania danych ok. Można mniej mówić o tym czemu. Język matematyczny: * $R^2$ * brak wpływu * niezależność błędu *,,testy na jednordność wariancji nie przeszły * wykres diagnostyczny *,,matematyczne przekształcenia raport powinien być pisany bezosobowo w czasie przeszłym np.,,zbadano, usunięto -,,test na korelację podczas gdy obliczany jest VIF. To raport techniczny - musi być diablo precyzyjny - strona 7, co jest na osi X? + za wykres ofert od daty budowy - kiedy robimy grupowanie zmiennej ciągłej to dostajemy zmienną dyskretną! + za podjęcie decyzji o ograniczeniu zakresu predykcji od lat 60-tych - model dla przedwojennych mieszkań, za dużo zmiennych w stosunku do danych! - Podsumowanie - co zostało zrobione, bez filozofii ;) np.,, Ze względu na nieliniowość zbudowano osobne modele dla budynków przedwojennych i powojennych - Więcej precyzji np.,,dopasowan regresji na poziomie od 50 do 70 procent. To jest raport dla statystka! Język statystyczny: * techniczne wykresy * testy Przed I Wojną Warszawa istniała. Bardziej chodzi o II Wojnę i zniszczenia. Końcówka mocno techniczna. Nie interesuje nas co zostało zrobione, ale jak to wpływa na możliwości modelu. Uwaga: Mieszanie przedwojenne są drogie, bo są w dobrych dzielnicach i w centrum! Dobra końcówka: na czym zależy firmie? Rozumiemy dane, możemy wam pomóc, określcie na czym Wam głównie zależy. 3 Uwaga: Wawer ma dużą powierzchnię, ale nie tak dużą ludność
3 struktura raportu + decyzja o podziale na dwie grupy - brak informacji o mieszkaniach, które zostały usunięte - usuwanie obserwacji w oparciu o odległość międzykwartlową, gołym okiem widać skośność danych - potrzebna transformacja a nie wyrzucanie obserwacji! - chaos w drugiej części raportu, dużo wyplujek erowych, ale nie widać co jest celem 3 Wstęp: mieszkanie - dla każdego lub luksusowe (ważne rozróżnienie) Uwaga: Kudos dla mamy - bardzo fajnie Uwaga: zamiast powiedzieć co zostało zrobione - jak doszedłeś do wyniku Powiedzenie jakie są istotne czynniki i co można powiedzieć - to jest ok. Przybliżenie tego co się znajduje w danych. To są naturalne rzeczy dla zarządu. Zaleta jest taka, że mamy wspólne pojęcia. Uwaga: bardzo fajne wytłumaczenie, czemu piętro ma wpływ tylko na stare budownictwo! Można by stworzyć jakieś kombinowane zmienne: wysokie piętro bez windy. Kudos za mapkę: czym są lokalizacje A,B,C,D? Brak powiązanie literki z kolorem! Przekształcenie, pogrupowanie w oparciu o dane - bardzo dobre. Ale można znacznie oszczędniej opowiadać. Uwaga: Powierzchnia mieszkania: nie widać specjlanie różnicy. Można zrobic dyskretyzację. Małe kawalerki i pozostałe. Język matematyczny: * histogram * kwantyle * odstęp międzykwartylowy * $R^2$ Bardzo dobre podsumowanie tego do czego sprowadza się $R^2$!
4 Wstęp ok: po co budujemy, z czego chcemy skorzystać, korzystamy tylko z danych liczbowych, bez wiedzy eksperckiej. Uwaga: Można by dodać krótkie podsumowanie danych opcja chunk message=false +wyrzucenie obserwacji z poza Warszawy - regresja NIE zakłada niezależności zmiennych. Po prostu w takim wypadku trudniej budować modele - wyrzucenie zmiennch powinno być lepiej umotywowane. Może VIF? - modelujemy cenę za m^2, powierzchnia mieszkania może na to nie wpywać - lepiej najpierw zrobić transformację, a potem odrzucać obserwacje. Być może po transformacji obserwacja będzie mniej wpływowa? - dlaczego przekształcenie Box-Coxa na zmienną surface? Powinno być na zmienną objasnianą! - to samo dla zminnej floor. Jako argument box-coxa można dać pełny model, nie trzeba robić modeli z jedną zmienną - obserwację dla Wawra można ewentualnie usunąc, patrząc na ceny pozostałych mieszkań w tej dzielnicy - p-wartość<0.05 to nie jest game-over. Wskazuje na potencjalny problem - brakuje podsumowania 3 Opis metod: w porządku, przwidujemy cenę metra kwadratowego. Opis ograniczeń, czemu wyrzucamy obserwacje, sygnalizujemy, że zrobiliśmy pewne przekształcenia. Wykres: czego możemy oczekiwać - ok. Preprocessing danych: nie trzeba mówić, że pomijamy zmienne. Jak będą pytania, to musimy potrafić na nie odpowiedzieć. Nie trzeba się tłumaczyć, zanim nie zostanie zadane pytanie. Uwaga do wizualizacji: boxplot dobrze jest uszeregować po medianie Język matematatyczny: * obserwacja odstająca * wykresy techniczny normalności * ujemne wartości czego? Uwaga: Efektywność predykcji, co oznacza 40%? To nie to co zostało powiedziane!
5 cel: bez regresja liniowa, prezentacja jest biznesowa. Schemat zależności jest dobry. Uwaga: kondycja mieszkania -> stan mieszkania Fajny wstęp: czego się dowiedzieliśmy. To są nasze założenia. Jeśli coś nie jest założeniem, to nie ma powodu o nich wspominać. Rozkład cen w skali logarytmicznej -> ok. Dobrze, że jest wykres. Zależność od liczby pokoi. Uwaga: na Pradze Język matematyczny: * obserwacje odstające * wykres diagnostyczny wstęp jest ok - rekomendacje są niechlujnie spisanie np.,,obserwacje z liczba pokoi wie ksza od 11, usuna c lub zaagregowac do jednej. - miara Cooka NIE jest duża, nie jest możliwe, żeby 78% obserwacji było powyżej punktu odcięcia - kilka wykresów diagnostycznych i box-coxa zupełnie bez komentarza - brak informacji o tym jak dobrze był dopasowany model2 3 Uwaga: czym jest dopasowanie modelu w %? Uwaga: próbowałem zbadać -> zbadałem Uwaga: wiedza ekspercka -> ok, ale prawobrzeżna i lewobrzeżna Warszawa bardzo się różnią Podział na 3 okresy -> ok. Mieszkania są bardzo różne. Uwaga: Co to jest,,miara predykcji. Co i jak możemy przewidzieć?
6 za znalezienie źródła danych - dopóki nie mamy właściwej skali trudno jest usunać obserwacje odstające - może we właściwej skali te dane się symetryzują? - do chunka można dodać opcję warning=false + bardzo fajna analza ekspoloracyjna! Dobre wykresy, zrozumienie danych, włożenie wiedzy z zewnątrz, transformacja zmiennych. super! - mała uwaga do piętra: wydaje się, że 14+ powinno być osobno. To mieszkania nie w blokach, droższe + co do analizy roku budowy: można dodać zmienną kategoryczną i dodać jej interakcję z całą resztą - brakuje info o lambda jakie maksymalizuje likelihood w przeksztalceniu box-coxa. Dlaczego,,Model bardzo zmodyfikowany ma transformację logarytmiczną? Może to wynik usunięcia obserwacji odstających na początku? - eksploracja danych. Ale część wniosków niepoprawna. Mamy np. zależność między powierzchnią a ceną metra kwadratowego - korelacje są trochę na wyrost. O ile można jeszcze przyjąć, ze mieszkanie trzypokojowe jest 3/2 bardziej pokojowe niż dwupokojowe. To już trudno uznać, że 10 piętro jest 5 razy bardziej piętrowe niż drugie. To, że zmienna jest wyrażona liczbami nie oznacza, że nie jest kategoryczna -,,performance wzro sł - naprawdę można ładnie, precyzyjnie i po polsku + za pomysł z grupowaniem dzielnic - model z usuniętą zmienną surface. Poprawa R^2 wynika z ograniczenia zbioru do mieszkań zbudowanych po wojnie. Usunięcie zmiennej zawsze powoduje spadek R^2 + bardzo dobry pomysł ze stworzeniem nowej zmiennej - rok zbudowania budynku jako zmienna kategoryczna jest ryzykownym pomysłem. R^2 mocno wzrosło dlatego, że wprowadzilismy dodaktowych 60 zmiennych do modelu. Grupowanie ma sens, ale rozważanie każdego roku osobno może doprowadzić do nadmiernego dopasowania do danych treningowych!
7 połączenie dzielnic, redukcja liczby parametrów - używaj opcji chunków warning=false i message=false. Nie ma powodu żeby pojawiały się w raporcie + eksploracja danych. Brakuje jedynie wniosków z histogramów - brak wniosków z przeprowadzonej diagnostyki pierwszego modelu - liczba pokoi jest w gruncie rzeczy zmienną jakościową, a nie ilościową. Mówienie o korelacji jest pewnym nadużyciem. Jeszcze bardziej nieuzsadnione jest liczenie korelacji z piętrem + redukcja liczby parametrów przez grupowanie dzielnic. Bardzo dobre! +,,lewele + podział na trzy grupy ze względu na rok budowy + usunięcie zmiennych. Porównanie przez analizę wariancji - brakuje podsumowania. Co zostało zrobione, jak wyglądają modele, jakie są ich ograniczenia
8 3 - reszty mają mieć rozład normalny. Zmienna objaśniana nie! Statystyk nie jest aptekarzem to jak liczone są korelacje? W przypadku np. piętra korelacja jest nieuzasadniona (zmienna jakościowa) - dodawanie zmiennej typu 3 potęga powierzchni sprawia, że model jest nieinterpretowalny. Należy tego unikać! - pietro^2 to znowu matematyczna aberracja + diagnostyka, budowa skutecznego modelu 3 Uwaga: użycie plotly - bardzo fajnie. Wytłumaczenie czemu robimy przekształcenie jest ok, ale nie jest konieczne Opis cech - bardzo fajne. Co mamy w danych, co da się wyczytać. Wytłumaczenie dopasowania trzeciego stopnia, bardzo dobre (ewentualnei dyskretyzacja mogłaby tam być) Opis cech, liczba pokoi: opis zależności Uwaga: Dlaczego deweloperskie są takie dobre? Przecież to nie dlatego, że są w wysokim standardzie. Opis cech: zależność od roku budowy.,,zależność trzeciego stopnia Język matematyczny: * oznacznie f(powierzchnia,...), szum -> zamiast tego rysunke co na wejściu, co na wyjściu * mediana -> wartość średnia * zależność kwadratowa -> po prostu można opisać Współczynnik dopasowania: brak wytłumaczenie jak to wpływa. Uwaga: jeśli skala jest nieprzejrzysta, ale jest sensowna, to można usunąć. Najlepiej mieć skalę, która jest interpretowalna.
Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna
Regresja wieloraka Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna zmienna niezależna (można zobrazować
MODELE LINIOWE. Dr Wioleta Drobik
MODELE LINIOWE Dr Wioleta Drobik MODELE LINIOWE Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą
Zaawansowana eksploracja danych - sprawozdanie nr 1 Rafał Kwiatkowski 89777, Poznań
Zaawansowana eksploracja danych - sprawozdanie nr 1 Rafał Kwiatkowski 89777, Poznań 6.11.1 1 Badanie współzależności atrybutów jakościowych w wielowymiarowych tabelach danych. 1.1 Analiza współzależności
WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno
WERYFIKACJA MODELI MODELE LINIOWE Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno ANALIZA KORELACJI LINIOWEJ to NIE JEST badanie związku przyczynowo-skutkowego, Badanie współwystępowania cech (czy istnieje
Stanisław Cichocki Natalia Nehrebecka. Zajęcia 11-12
Stanisław Cichocki Natalia Nehrebecka Zajęcia 11-12 1. Zmienne pominięte 2. Zmienne nieistotne 3. Obserwacje nietypowe i błędne 4. Współliniowość - Mamy 2 modele: y X u 1 1 (1) y X X 1 1 2 2 (2) - Potencjalnie
Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski
Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski Zadanie 1 Eksploracja (EXAMINE) Informacja o analizowanych danych Obserwacje Uwzględnione Wykluczone Ogółem
Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;
LABORATORIUM 4 Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona; dwie zmienne zależne mierzalne małe próby duże próby rozkład normalny
Wprowadzenie do analizy korelacji i regresji
Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących
Estymacja parametrów w modelu normalnym
Estymacja parametrów w modelu normalnym dr Mariusz Grządziel 6 kwietnia 2009 Model normalny Przez model normalny będziemy rozumieć rodzine rozkładów normalnych N(µ, σ), µ R, σ > 0. Z Centralnego Twierdzenia
STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)
STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY) Praca z danymi zaczyna się od badania rozkładu liczebności (częstości) zmiennych. Rozkład liczebności (częstości) zmiennej to jakie wartości zmienna
7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej
7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej Definicja 1 n-elementowa losowa próba prosta nazywamy ciag n niezależnych zmiennych losowych o jednakowych rozkładach
Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego
Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego Współczynnik korelacji opisuje siłę i kierunek związku. Jest miarą symetryczną. Im wyższa korelacja tym lepiej potrafimy
Analiza składowych głównych
Analiza składowych głównych Wprowadzenie (1) W przypadku regresji naszym celem jest predykcja wartości zmiennej wyjściowej za pomocą zmiennych wejściowych, wykrycie związku między wielkościami wejściowymi
Graficzna prezentacja danych statystycznych
Szkolenie dla pracowników Urzędu Statystycznego nt. Wybrane metody statystyczne w analizach makroekonomicznych Katowice, 12 i 26 czerwca 2014 r. Dopasowanie narzędzia do typu zmiennej Dobór narzędzia do
Szkolenie Regresja liniowa
Szkolenie Regresja liniowa program i cennik Łukasz Deryło Analizy statystyczne, szkolenia www.statystyka.c0.pl Szkolenie Regresja liniowa Co to jest regresja liniowa? Regresja liniowa jest podstawową metodą
Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016
Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład I dr inż. Bogumil.Konopka@pwr.edu.pl 2015/2016 1 Wykład I - plan Sprawy organizacyjne Uczenie maszynowe podstawowe pojęcia Proces modelowania
3a. Wstęp: Elementarne równania i nierówności
3a. Wstęp: Elementarne równania i nierówności Grzegorz Kosiorowski Uniwersytet Ekonomiczny w Krakowie zima 2017/2018 Grzegorz Kosiorowski (Uniwersytet Ekonomiczny 3a. Wstęp: w Krakowie) Elementarne równania
Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817
Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817 Zadanie 1: wiek 7 8 9 1 11 11,5 12 13 14 14 15 16 17 18 18,5 19 wzrost 12 122 125 131 135 14 142 145 15 1 154 159 162 164 168 17 Wykres
Analiza regresji wielokrotnej - hierarchiczna
Analiza regresji wielokrotnej - hierarchiczna Poniżej prezentujemy przykładowe pytania z rozwiązaniami dotyczącymi analizy regresji wielokrotnej wykonanej metodą hierarchiczną. Wszystkie rozwiązania są
Analiza regresji - weryfikacja założeń
Medycyna Praktyczna - portal dla lekarzy Analiza regresji - weryfikacja założeń mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie (Kierownik Zakładu: prof.
Dwuczynnikowa ANOVA dla prób niezależnych w schemacie 2x2
Dwuczynnikowa ANOVA dla prób niezależnych w schemacie 2x2 Poniżej prezentujemy przykładowe pytania z rozwiązaniami dotyczącymi dwuczynnikowej analizy wariancji w schemacie 2x2. Wszystkie rozwiązania są
LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej
LABORATORIUM 3 Przygotowanie pliku (nazwy zmiennych, export plików.xlsx, selekcja przypadków); Graficzna prezentacja danych: Histogramy (skategoryzowane) i 3-wymiarowe; Wykresy ramka wąsy; Wykresy powierzchniowe;
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6 Metody sprawdzania założeń w analizie wariancji: -Sprawdzanie równości (jednorodności) wariancji testy: - Cochrana - Hartleya - Bartletta -Sprawdzanie zgodności
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący
WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno
WSTĘP DO REGRESJI LOGISTYCZNEJ Dr Wioleta Drobik-Czwarno REGRESJA LOGISTYCZNA Zmienna zależna jest zmienną dychotomiczną (dwustanową) przyjmuje dwie wartości, najczęściej 0 i 1 Zmienną zależną może być:
Staże Ośrodka RENOWATOR
Staże Ośrodka RENOWATOR Badanie zależności ceny nieruchomości od położenia i innych cech Analiza Beata Kalinowska-Rybka W listopadzie 26r zbierałam informacje dotyczące nieruchomości, o następującej postaci:
WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA
WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA Powtórka Powtórki Kowiariancja cov xy lub c xy - kierunek zależności Współczynnik korelacji liniowej Pearsona r siła liniowej zależności Istotność
Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31
Statystyka Wykład 8 Magdalena Alama-Bućko 10 kwietnia 2017 Magdalena Alama-Bućko Statystyka 10 kwietnia 2017 1 / 31 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia
Sposoby prezentacji problemów w statystyce
S t r o n a 1 Dr Anna Rybak Instytut Informatyki Uniwersytet w Białymstoku Sposoby prezentacji problemów w statystyce Wprowadzenie W artykule zostaną zaprezentowane podstawowe zagadnienia z zakresu statystyki
REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji
Statystyka i opracowanie danych Ćwiczenia 5 Izabela Olejarczyk - Wożeńska AGH, WIMiIP, KISIM REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ MODEL REGRESJI LINIOWEJ Analiza regresji
STATYSTYKA MATEMATYCZNA
STATYSTYKA MATEMATYCZNA 1. Wykład wstępny 2. Zmienne losowe i teoria prawdopodobieństwa 3. Populacje i próby danych 4. Testowanie hipotez i estymacja parametrów 5. Najczęściej wykorzystywane testy statystyczne
Modelowanie Ekonometryczne i Prognozowanie
Modelowanie Ekonometryczne i Prognozowanie David Ramsey e-mail: david.ramsey@pwr.edu.pl strona domowa: www.ioz.pwr.edu.pl/pracownicy/ramsey 27 lutego 2015 1 / 77 Opis Kursu 1. Podstawy oraz Cele Modelowania
OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp
tel.: +48 662 635 712 Liczba stron: 15 Data: 20.07.2010r OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA z wykorzystaniem programu obliczeniowego Q maxp DŁUGIE
INFORMATYKA W SELEKCJI
INFORMATYKA W SELEKCJI INFORMATYKA W SELEKCJI - zagadnienia 1. Dane w pracy hodowlanej praca z dużym zbiorem danych (Excel) 2. Podstawy pracy z relacyjną bazą danych w programie MS Access 3. Systemy statystyczne
Wykład 4 Związki i zależności
Wykład 4 Związki i zależności Rozważmy: Dane z dwiema lub więcej zmiennymi Zagadnienia do omówienia: Zmienne objaśniające i zmienne odpowiedzi Wykres punktowy Korelacja Prosta regresji Słownictwo: Zmienna
R-PEARSONA Zależność liniowa
R-PEARSONA Zależność liniowa Interpretacja wyników: wraz ze wzrostem wartości jednej zmiennej (np. zarobków) liniowo rosną wartości drugiej zmiennej (np. kwoty przeznaczanej na wakacje) czyli np. im wyższe
KORELACJE I REGRESJA LINIOWA
KORELACJE I REGRESJA LINIOWA Korelacje i regresja liniowa Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność Obie analizy się wzajemnie przeplatają Analiza regresji: Opisanie modelem
Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16
Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego
Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com
Regresja wielokrotna Model dla zależności liniowej: Y=a+b 1 X 1 +b 2 X 2 +...+b n X n Cząstkowe współczynniki regresji wielokrotnej: b 1,..., b n Zmienne niezależne (przyczynowe): X 1,..., X n Zmienna
Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1
Zadanie 1 a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1 b) W naszym przypadku populacja są inżynierowie w Tajlandii. Czy można jednak przypuszczać, że na zarobki kobiet-inżynierów
Jednoczynnikowa analiza wariancji
Jednoczynnikowa analiza wariancji Zmienna zależna ilościowa, numeryczna Zmienna niezależna grupująca (dzieli próbę na więcej niż dwie grupy), nominalna zmienną wyrażoną tekstem należy w SPSS przerekodować
Wprowadzenie do analizy dyskryminacyjnej
Wprowadzenie do analizy dyskryminacyjnej Analiza dyskryminacyjna to zespół metod statystycznych używanych w celu znalezienia funkcji dyskryminacyjnej, która możliwie najlepiej charakteryzuje bądź rozdziela
Analiza składowych głównych. Wprowadzenie
Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących
STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)
STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY) Dla opisania rozkładu badanej zmiennej, korzystamy z pewnych charakterystyk liczbowych. Dzielimy je na cztery grupy.. Określenie przeciętnej wartości
Wykład 3. Rozkład normalny
Funkcje gęstości Rozkład normalny Reguła 68-95-99.7 % Wykład 3 Rozkład normalny Standardowy rozkład normalny Prawdopodobieństwa i kwantyle dla rozkładu normalnego Funkcja gęstości Frakcja studentów z vocabulary
Stanisław Cichocki. Natalia Nehrebecka
Stanisław Cichocki Natalia Nehrebecka - adres mailowy: scichocki@o2.pl - strona internetowa: www.wne.uw.edu.pl/scichocki - dyżur: po zajęciach lub po umówieniu mailowo - 80% oceny: egzaminy - 20% oceny:
Natalia Nehrebecka Stanisław Cichocki. Wykład 13
Natalia Nehrebecka Stanisław Cichocki Wykład 13 1 1. Zmienne pominięte 2. Zmienne nieistotne 3. Obserwacje nietypowe i błędne 4. Współliniowość 2 1. Zmienne pominięte 2. Zmienne nieistotne 3. Obserwacje
Kolejna z analiz wielozmiennowych Jej celem jest eksploracja danych, poszukiwanie pewnych struktur, które mogą utworzyć wskaźniki
Analiza czynnikowa Kolejna z analiz wielozmiennowych Jej celem jest eksploracja danych, poszukiwanie pewnych struktur, które mogą utworzyć wskaźniki Budowa wskaźnika Indeks był banalny I miał wady: o Czy
Rozdział 8. Regresja. Definiowanie modelu
Rozdział 8 Regresja Definiowanie modelu Analizę korelacji można traktować jako wstęp do analizy regresji. Jeżeli wykresy rozrzutu oraz wartości współczynników korelacji wskazują na istniejąca współzmienność
Regresja linearyzowalna
1 z 5 2007-05-09 23:22 Medycyna Praktyczna - portal dla lekarzy Regresja linearyzowalna mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie Data utworzenia:
You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com)
Prezentacja materiału statystycznego Szeroko rozumiane modelowanie i prognozowanie jest zwykle kluczowym celem analizy danych. Aby zbudować model wyjaśniający relacje pomiędzy różnymi aspektami rozważanego
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4 Inne układy doświadczalne 1) Układ losowanych bloków Stosujemy, gdy podejrzewamy, że może występować systematyczna zmienność między powtórzeniami np. - zmienność
Statystyczna analiza danych
Statystyczna analiza danych Korelacja i regresja Ewa Szczurek szczurek@mimuw.edu.pl Instytut Informatyki Uniwersytet Warszawski 1/30 Ostrożnie z interpretacją p wartości p wartości zależą od dwóch rzeczy
Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41
Statystyka Wykład 4 Magdalena Alama-Bućko 13 marca 2017 Magdalena Alama-Bućko Statystyka 13 marca 2017 1 / 41 Na poprzednim wykładzie omówiliśmy następujace miary rozproszenia: Wariancja - to średnia arytmetyczna
ANALIZA REGRESJI WIELOKROTNEJ. Zastosowanie statystyki w bioinżynierii Ćwiczenia 8
ANALIZA REGRESJI WIELOKROTNEJ Zastosowanie statystyki w bioinżynierii Ćwiczenia 8 ZADANIE 1A 1. Irysy: Sprawdź zależność długości płatków korony od ich szerokości Utwórz wykres punktowy Wyznacz współczynnik
Analiza współzależności zjawisk
Analiza współzależności zjawisk Informacje ogólne Jednostki tworzące zbiorowość statystyczną charakteryzowane są zazwyczaj za pomocą wielu cech zmiennych, które nierzadko pozostają ze sobą w pewnym związku.
Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość
Dwie metody Klasyczna metoda histogramu jako narzędzie do postawienia hipotezy, jaki rozkład prawdopodobieństwa pasuje do danych Indukcja drzewa decyzyjnego jako metoda wykrycia klasyfikatora ukrytego
Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34
Statystyka Wykład 9 Magdalena Alama-Bućko 24 kwietnia 2017 Magdalena Alama-Bućko Statystyka 24 kwietnia 2017 1 / 34 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia
Stanisław Cichocki. Natalia Nehrebecka
Stanisław Cichocki Natalia Nehrebecka - adres mailowy: nnehrebecka@wne.uw.edu.pl - strona internetowa: www.wne.uw.edu.pl/nnehrebecka - dyżur: wtorek 18.30-19.30 sala 302 lub 303 - 80% oceny: egzaminy -
V. WYMAGANIA EGZAMINACYJNE
V. WYMAGANIA EGZAMINACYJNE Standardy wymagań egzaminacyjnych Zdający posiada umiejętności w zakresie: POZIOM PODSTAWOWY POZIOM ROZSZERZONY 1. wykorzystania i tworzenia informacji: interpretuje tekst matematyczny
Regresja logistyczna. Regresja logistyczna. Wymagania. Przykłady DV
Regresja logistyczna analiza relacji między zbiorem zmiennych niezależnych (ilościowych i dychotomicznych) a dychotomiczną zmienną zależną wyniki wyrażone są w prawdopodobieństwie przynależności do danej
Środowisko R Założenie normalności metody nieparametryczne Wykład R4; 4.06.07 Weryfikacja założenia o normalności rozkładu populacji
Środowisko R Założenie normalności metody nieparametryczne Wykład R4; 4.06.07 Weryfikacja założenia o normalności rozkładu populacji Dane są obserwacje x 1, x 2,..., x n. Czy można założyć, że x 1, x 2,...,
Aproksymacja funkcji a regresja symboliczna
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą
Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe
Typy zmiennych Graficzne reprezentacje danych Statystyki opisowe Jakościowe charakterystyka przyjmuje kilka możliwych wartości, które definiują klasy Porządkowe: odpowiedzi na pytania w ankiecie ; nigdy,
ANALIZA REGRESJI SPSS
NLIZ REGRESJI SPSS Metody badań geografii społeczno-ekonomicznej KORELCJ REGRESJ O ile celem korelacji jest zmierzenie siły związku liniowego między (najczęściej dwoma) zmiennymi, o tyle w regresji związek
Regresja i Korelacja
Regresja i Korelacja Regresja i Korelacja W przyrodzie często obserwujemy związek między kilkoma cechami, np.: drzewa grubsze są z reguły wyższe, drewno iglaste o węższych słojach ma większą gęstość, impregnowane
Próbny egzamin z matematyki dla uczniów klas II LO i III Technikum. w roku szkolnym 2012/2013
Próbny egzamin z matematyki dla uczniów klas II LO i III Technikum w roku szkolnym 2012/2013 I. Zakres materiału do próbnego egzaminu maturalnego z matematyki: 1) liczby rzeczywiste 2) wyrażenia algebraiczne
Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33
Statystyka Wykład 4 Magdalena Alama-Bućko 19 marca 2018 Magdalena Alama-Bućko Statystyka 19 marca 2018 1 / 33 Analiza struktury zbiorowości miary położenia ( miary średnie) miary zmienności (rozproszenia,
Ćwiczenia 10. Analiza regresji. Część I.
Ćwiczenia 10. Analiza regresji. Część I. Zadania obowiązkowe UWAGA! Elementy zadań oznaczone kolorem czerwonym należy przygotować lub wypełnić. Zadanie 10.1. (R/STATISTICA) Twoim zadaniem jest możliwie
STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;
STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych; - badanie skuteczności nowego leku; - badanie stopnia zanieczyszczenia gleb metalami
2.Wstępna analiza danych c.d.- wykład z 5.03.2006 Populacja i próba
2.Wstępna analiza danych c.d.- wykład z 5.03.2006 Populacja i próba Populacja- zbiorowość skończona lub nieskończona, w stosunku do której mają być formułowane wnioski. Próba- skończony podzbiór populacji
Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki
Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Spis treści I. Wzory ogólne... 2 1. Średnia arytmetyczna:... 2 2. Rozstęp:... 2 3. Kwantyle:... 2 4. Wariancja:... 2 5. Odchylenie standardowe:...
APROKSYMACJA ZJAWISK RYNKOWYCH NARZĘDZIEM WSPOMAGAJĄCYM PODEJMOWANIE DECYZJI
APROKSYMACJA ZJAWISK RYNKOWYCH NARZĘDZIEM WSPOMAGAJĄCYM PODEJMOWANIE DECYZJI Łukasz MACH Streszczenie: W artykule przedstawiono wybrane aspekty prognozowania czynników istotnie określających sytuację na
Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).
Statystyka i opracowanie danych Ćwiczenia 12 Izabela Olejarczyk - Wożeńska AGH, WIMiIP, KISIM REGRESJA WIELORAKA Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych
Statystyka matematyczna i ekonometria
Statystyka matematyczna i ekonometria Wykład 9 Anna Skowrońska-Szmer lato 2016/2017 Ekonometria (Gładysz B., Mercik J., Modelowanie ekonometryczne. Studium przypadku, Wydawnictwo PWr., Wrocław 2004.) 2
REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ
REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ Korelacja oznacza fakt współzależności zmiennych, czyli istnienie powiązania pomiędzy nimi. Siłę i kierunek powiązania określa się za pomocą współczynnika korelacji
Inteligentna analiza danych
Numer indeksu 150946 Michał Moroz Imię i nazwisko Numer indeksu 150875 Grzegorz Graczyk Imię i nazwisko kierunek: Informatyka rok akademicki: 2010/2011 Inteligentna analiza danych Ćwiczenie I Wskaźniki
III. Wstęp: Elementarne równania i nierówności
III. Wstęp: Elementarne równania i nierówności Fryderyk Falniowski, Grzegorz Kosiorowski Uniwersytet Ekonomiczny w Krakowie ryderyk Falniowski, Grzegorz Kosiorowski (Uniwersytet III. Wstęp: Ekonomiczny
Zmienne zależne i niezależne
Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE
STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE 1 W trakcie badania obliczono wartości średniej (15,4), mediany (13,6) oraz dominanty (10,0). Określ typ asymetrii rozkładu. 2 Wymień 3 cechy rozkładu Gauss
Dopasowywanie modelu do danych
Tematyka wykładu dopasowanie modelu trendu do danych; wybrane rodzaje modeli trendu i ich właściwości; dopasowanie modeli do danych za pomocą narzędzi wykresów liniowych (wykresów rozrzutu) programu STATISTICA;
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)
Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego
Jak sprawdzić normalność rozkładu w teście dla prób zależnych?
Jak sprawdzić normalność rozkładu w teście dla prób zależnych? W pliku zalezne_10.sta znajdują się dwie zmienne: czasu biegu przed rozpoczęciem cyklu treningowego (zmienna 1) oraz czasu biegu po zakończeniu
3. Modele tendencji czasowej w prognozowaniu
II Modele tendencji czasowej w prognozowaniu 1 Składniki szeregu czasowego W teorii szeregów czasowych wyróżnia się zwykle następujące składowe szeregu czasowego: a) składowa systematyczna; b) składowa
Analizowane modele. Dwa modele: y = X 1 β 1 + u (1) y = X 1 β 1 + X 2 β 2 + ε (2) Będziemy analizować dwie sytuacje:
Analizowane modele Dwa modele: y = X 1 β 1 + u (1) Będziemy analizować dwie sytuacje: y = X 1 β 1 + X 2 β 2 + ε (2) zmienne pominięte: estymujemy model (1) a w rzeczywistości β 2 0 zmienne nieistotne:
Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018
Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład II bogumil.konopka@pwr.edu.pl 2017/2018 Określenie rzeczywistej dokładności modelu Zbiór treningowym vs zbiór testowy Zbiór treningowy
Pokój z widokiem: hedoniczne modele cen mieszkań. dr hab. Emilia Tomczyk Instytut Ekonometrii SGH
Pokój z widokiem: hedoniczne modele cen mieszkań dr hab. Emilia Tomczyk Instytut Ekonometrii SGH Artykuł M. Widłak [Instytut Ekonomiczny NBP], E. Tomczyk (2010) Measuring price dynamics: evidence from
Regresja logistyczna (LOGISTIC)
Zmienna zależna: Wybór opcji zachodniej w polityce zagranicznej (kodowana jako tak, 0 nie) Zmienne niezależne: wiedza o Unii Europejskiej (WIEDZA), zamieszkiwanie w regionie zachodnim (ZACH) lub wschodnim
Ć w i c z e n i e 3 : W i z u a l i z a c j a d a n y c h - w y k r e s y S t r o n a 1
Ć w i c z e n i e 3 : W i z u a l i z a c j a d a n y c h - w y k r e s y S t r o n a 1 Zadanie 1. Tworzenie wykresów zmiennych jakościowych wyrażonych w skali nominalnej i porządkowej. Utworzyć wykres
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z liniowym zadaniem najmniejszych
Statystyka i Analiza Danych
Warsztaty Statystyka i Analiza Danych Gdańsk, 20-22 lutego 2014 Zastosowania wybranych technik regresyjnych do modelowania współzależności zjawisk Janusz Wątroba StatSoft Polska Centrum Zastosowań Matematyki
Badanie zależności skala nominalna
Badanie zależności skala nominalna I. Jak kształtuje się zależność miedzy płcią a wykształceniem? II. Jak kształtuje się zależność między płcią a otyłością (opis BMI)? III. Jak kształtuje się zależność
Analiza statystyczna trudności tekstu
Analiza statystyczna trudności tekstu Łukasz Dębowski ldebowsk@ipipan.waw.pl Problem badawczy Chcielibyśmy mieć wzór matematyczny,...... który dla dowolnego tekstu...... na podstawie pewnych statystyk......
Wymagania edukacyjne z matematyki klasa II technikum
Wymagania edukacyjne z matematyki klasa II technikum Poziom rozszerzony Obowiązują wymagania z zakresu podstawowego oraz dodatkowo: 1. JĘZYK MATEMATYKI I FUNKCJE LICZBOWE Uczeń otrzymuje ocenę dopuszczającą
Jak wybrać 45 najlepszych prezentacji na FORUM?
Być data driven company w erze Big Data. Jak wybrać 45 najlepszych prezentacji na FORUM? Doświadczenia z budowy platformy do prowadzenia na dużą skalę eksperymentów A/B Joanna Radosław Komuda, Kita, IAB
Wykład 4: Statystyki opisowe (część 1)
Wykład 4: Statystyki opisowe (część 1) Wprowadzenie W przypadku danych mających charakter liczbowy do ich charakterystyki można wykorzystać tak zwane STATYSTYKI OPISOWE. Za pomocą statystyk opisowych można
Próba własności i parametry
Próba własności i parametry Podstawowe pojęcia Zbiorowość statystyczna zbiór jednostek (obserwacji) nie identycznych, ale stanowiących logiczną całość Zbiorowość (populacja) generalna skończony lub nieskończony
Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak
Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak Redakcja i korekta Bogdan Baran Projekt graficzny okładki Katarzyna Juras Copyright by Wydawnictwo Naukowe Scholar, Warszawa 2011 ISBN