Indeks Punkty Uwagi - sprawozdanie Punkty (prezenta Uwagi - prezentacja

Podobne dokumenty
Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

MODELE LINIOWE. Dr Wioleta Drobik

Zaawansowana eksploracja danych - sprawozdanie nr 1 Rafał Kwiatkowski 89777, Poznań

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 11-12

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Wprowadzenie do analizy korelacji i regresji

Estymacja parametrów w modelu normalnym

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Analiza składowych głównych

Graficzna prezentacja danych statystycznych

Szkolenie Regresja liniowa

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

3a. Wstęp: Elementarne równania i nierówności

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

Analiza regresji wielokrotnej - hierarchiczna

Analiza regresji - weryfikacja założeń

Dwuczynnikowa ANOVA dla prób niezależnych w schemacie 2x2

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Staże Ośrodka RENOWATOR

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Sposoby prezentacji problemów w statystyce

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

STATYSTYKA MATEMATYCZNA

Modelowanie Ekonometryczne i Prognozowanie

OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp

INFORMATYKA W SELEKCJI

Wykład 4 Związki i zależności

R-PEARSONA Zależność liniowa

KORELACJE I REGRESJA LINIOWA

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1

Jednoczynnikowa analiza wariancji

Wprowadzenie do analizy dyskryminacyjnej

Analiza składowych głównych. Wprowadzenie

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Wykład 3. Rozkład normalny

Stanisław Cichocki. Natalia Nehrebecka

Natalia Nehrebecka Stanisław Cichocki. Wykład 13

Kolejna z analiz wielozmiennowych Jej celem jest eksploracja danych, poszukiwanie pewnych struktur, które mogą utworzyć wskaźniki

Rozdział 8. Regresja. Definiowanie modelu

Regresja linearyzowalna

You created this PDF from an application that is not licensed to print to novapdf printer (

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

Statystyczna analiza danych

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

ANALIZA REGRESJI WIELOKROTNEJ. Zastosowanie statystyki w bioinżynierii Ćwiczenia 8

Analiza współzależności zjawisk

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

Stanisław Cichocki. Natalia Nehrebecka

V. WYMAGANIA EGZAMINACYJNE

Regresja logistyczna. Regresja logistyczna. Wymagania. Przykłady DV

Środowisko R Założenie normalności metody nieparametryczne Wykład R4; Weryfikacja założenia o normalności rozkładu populacji

Aproksymacja funkcji a regresja symboliczna

Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe

ANALIZA REGRESJI SPSS

Regresja i Korelacja

Próbny egzamin z matematyki dla uczniów klas II LO i III Technikum. w roku szkolnym 2012/2013

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Ćwiczenia 10. Analiza regresji. Część I.

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

2.Wstępna analiza danych c.d.- wykład z Populacja i próba

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

APROKSYMACJA ZJAWISK RYNKOWYCH NARZĘDZIEM WSPOMAGAJĄCYM PODEJMOWANIE DECYZJI

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Statystyka matematyczna i ekonometria

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ

Inteligentna analiza danych

III. Wstęp: Elementarne równania i nierówności

Zmienne zależne i niezależne

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Dopasowywanie modelu do danych

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Jak sprawdzić normalność rozkładu w teście dla prób zależnych?

3. Modele tendencji czasowej w prognozowaniu

Analizowane modele. Dwa modele: y = X 1 β 1 + u (1) y = X 1 β 1 + X 2 β 2 + ε (2) Będziemy analizować dwie sytuacje:

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018

Pokój z widokiem: hedoniczne modele cen mieszkań. dr hab. Emilia Tomczyk Instytut Ekonometrii SGH

Regresja logistyczna (LOGISTIC)

Ć w i c z e n i e 3 : W i z u a l i z a c j a d a n y c h - w y k r e s y S t r o n a 1

Metody systemowe i decyzyjne w informatyce

Statystyka i Analiza Danych

Badanie zależności skala nominalna

Analiza statystyczna trudności tekstu

Wymagania edukacyjne z matematyki klasa II technikum

Jak wybrać 45 najlepszych prezentacji na FORUM?

Wykład 4: Statystyki opisowe (część 1)

Próba własności i parametry

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak

Transkrypt:

Indeks Punkty Uwagi - sprawozdanie Punkty (prezenta Uwagi - prezentacja 258478 4 - za preprocessing związany z dzielnicami. - raport powinien być bardziej formalny. To nie jest opowiadanie,,model jest bardzo słaby + diagnostyka modelu + transformacja Box-Coxa - wyrzucanie obserwacji. Czemu tak niski próg odcięcia? 2 sigma to dosyć mało. Samo wyrzucanie obserwacji jest w porządku + dodanie nowych zmiennych do modelu, namierzenie problemu - wielomian 3 stopnia na dacie zbudowania. To strasznie nieintuicujnie, nie wiadomo jak to interpretować. Lepiej zrobić dyskretyzację, przedwojenne, wielka płyta, nowe budownictwo + wychwycenie zależności dla powierzchni - obrazki, dopasowanie są dla krzywych znacznie wyższego stopnia! - skoro nie ma jednorodnej wariancji to model nie jest poprawnie zbudowany! 1 Brak jasnego zaznaczenia co chcemy zrobić i po co. Bardzo techniczne, rozpoczęcie od szczegółów. Dobra praktyka: wykresy, wizualizacje Bardzo mocno o danych, szczegóły o dzielnicach, co odrzucamy. Bardziej interesuje nas jaki jest zakres mieszkań, które możemy przewidywać. Sformułowania nie rodzące zaufanie,,pewnie, Sformułowania matematyczne: *,,wielomianowe *,,dopasowanie funkcji,,,wielomian trzeciego stopnia *,,mediana, kwantyl *,,wyjaśniliśmy liczbę pokoi powierzchnią * box-cox z lamba -1 *,,piętro w potędze 2 *,,normalne reszty *,,testy jednorodności wariacji Brakuje zmiennych (parking, strzeżone). Pytania: 1. Jak wpływają zmienne? 2. Jaka jest dokładność modelu? Jak to rozumieć? 3.

Bardzo dobre wprowadzenie, charakterystyka danych - co mamy, czego nie mamy. Czego możemy się spodziewać. Główny zarzut: Nie mamy tłumaczyć procesu dojścia do modelu, tylko wytłumaczyć model. Wytłumacznie usuwania danych ok. Można mniej mówić o tym czemu. Język matematyczny: * $R^2$ * brak wpływu * niezależność błędu *,,testy na jednordność wariancji nie przeszły * wykres diagnostyczny *,,matematyczne przekształcenia 258554 3 - raport powinien być pisany bezosobowo w czasie przeszłym np.,,zbadano, usunięto -,,test na korelację podczas gdy obliczany jest VIF. To raport techniczny - musi być diablo precyzyjny - strona 7, co jest na osi X? + za wykres ofert od daty budowy - kiedy robimy grupowanie zmiennej ciągłej to dostajemy zmienną dyskretną! + za podjęcie decyzji o ograniczeniu zakresu predykcji od lat 60-tych - model dla przedwojennych mieszkań, za dużo zmiennych w stosunku do danych! - Podsumowanie - co zostało zrobione, bez filozofii ;) np.,, Ze względu na nieliniowość zbudowano osobne modele dla budynków przedwojennych i powojennych - Więcej precyzji np.,,dopasowan regresji na poziomie od 50 do 70 procent. To jest raport dla statystka! Język statystyczny: * techniczne wykresy * testy Przed I Wojną Warszawa istniała. Bardziej chodzi o II Wojnę i zniszczenia. Końcówka mocno techniczna. Nie interesuje nas co zostało zrobione, ale jak to wpływa na możliwości modelu. Uwaga: Mieszanie przedwojenne są drogie, bo są w dobrych dzielnicach i w centrum! Dobra końcówka: na czym zależy firmie? Rozumiemy dane, możemy wam pomóc, określcie na czym Wam głównie zależy. 3 Uwaga: Wawer ma dużą powierzchnię, ale nie tak dużą ludność

258486 4 + struktura raportu + decyzja o podziale na dwie grupy - brak informacji o mieszkaniach, które zostały usunięte - usuwanie obserwacji w oparciu o odległość międzykwartlową, gołym okiem widać skośność danych - potrzebna transformacja a nie wyrzucanie obserwacji! - chaos w drugiej części raportu, dużo wyplujek erowych, ale nie widać co jest celem 3 Wstęp: mieszkanie - dla każdego lub luksusowe (ważne rozróżnienie) Uwaga: Kudos dla mamy - bardzo fajnie Uwaga: zamiast powiedzieć co zostało zrobione - jak doszedłeś do wyniku Powiedzenie jakie są istotne czynniki i co można powiedzieć - to jest ok. Przybliżenie tego co się znajduje w danych. To są naturalne rzeczy dla zarządu. Zaleta jest taka, że mamy wspólne pojęcia. Uwaga: bardzo fajne wytłumaczenie, czemu piętro ma wpływ tylko na stare budownictwo! Można by stworzyć jakieś kombinowane zmienne: wysokie piętro bez windy. Kudos za mapkę: czym są lokalizacje A,B,C,D? Brak powiązanie literki z kolorem! Przekształcenie, pogrupowanie w oparciu o dane - bardzo dobre. Ale można znacznie oszczędniej opowiadać. Uwaga: Powierzchnia mieszkania: nie widać specjlanie różnicy. Można zrobic dyskretyzację. Małe kawalerki i pozostałe. Język matematyczny: * histogram * kwantyle * odstęp międzykwartylowy * $R^2$ Bardzo dobre podsumowanie tego do czego sprowadza się $R^2$!

Wstęp ok: po co budujemy, z czego chcemy skorzystać, korzystamy tylko z danych liczbowych, bez wiedzy eksperckiej. Uwaga: Można by dodać krótkie podsumowanie danych. 258536 3 - opcja chunk message=false +wyrzucenie obserwacji z poza Warszawy - regresja NIE zakłada niezależności zmiennych. Po prostu w takim wypadku trudniej budować modele - wyrzucenie zmiennch powinno być lepiej umotywowane. Może VIF? - modelujemy cenę za m^2, powierzchnia mieszkania może na to nie wpywać - lepiej najpierw zrobić transformację, a potem odrzucać obserwacje. Być może po transformacji obserwacja będzie mniej wpływowa? - dlaczego przekształcenie Box-Coxa na zmienną surface? Powinno być na zmienną objasnianą! - to samo dla zminnej floor. Jako argument box-coxa można dać pełny model, nie trzeba robić modeli z jedną zmienną - obserwację dla Wawra można ewentualnie usunąc, patrząc na ceny pozostałych mieszkań w tej dzielnicy - p-wartość<0.05 to nie jest game-over. Wskazuje na potencjalny problem - brakuje podsumowania 3 Opis metod: w porządku, przwidujemy cenę metra kwadratowego. Opis ograniczeń, czemu wyrzucamy obserwacje, sygnalizujemy, że zrobiliśmy pewne przekształcenia. Wykres: czego możemy oczekiwać - ok. Preprocessing danych: nie trzeba mówić, że pomijamy zmienne. Jak będą pytania, to musimy potrafić na nie odpowiedzieć. Nie trzeba się tłumaczyć, zanim nie zostanie zadane pytanie. Uwaga do wizualizacji: boxplot dobrze jest uszeregować po medianie Język matematatyczny: * obserwacja odstająca * wykresy techniczny normalności * ujemne wartości czego? Uwaga: Efektywność predykcji, co oznacza 40%? To nie to co zostało powiedziane!

cel: bez regresja liniowa, prezentacja jest biznesowa. Schemat zależności jest dobry. Uwaga: kondycja mieszkania -> stan mieszkania Fajny wstęp: czego się dowiedzieliśmy. To są nasze założenia. Jeśli coś nie jest założeniem, to nie ma powodu o nich wspominać. Rozkład cen w skali logarytmicznej -> ok. Dobrze, że jest wykres. Zależność od liczby pokoi. Uwaga: na Pradze Język matematyczny: * obserwacje odstające * wykres diagnostyczny 258601 3 +wstęp jest ok - rekomendacje są niechlujnie spisanie np.,,obserwacje z liczba pokoi wie ksza od 11, usuna c lub zaagregowac do jednej. - miara Cooka NIE jest duża, nie jest możliwe, żeby 78% obserwacji było powyżej punktu odcięcia - kilka wykresów diagnostycznych i box-coxa zupełnie bez komentarza - brak informacji o tym jak dobrze był dopasowany model2 3 Uwaga: czym jest dopasowanie modelu w %? Uwaga: próbowałem zbadać -> zbadałem Uwaga: wiedza ekspercka -> ok, ale prawobrzeżna i lewobrzeżna Warszawa bardzo się różnią Podział na 3 okresy -> ok. Mieszkania są bardzo różne. Uwaga: Co to jest,,miara predykcji. Co i jak możemy przewidzieć?

258544 5 258609 4 + za znalezienie źródła danych - dopóki nie mamy właściwej skali trudno jest usunać obserwacje odstające - może we właściwej skali te dane się symetryzują? - do chunka można dodać opcję warning=false + bardzo fajna analza ekspoloracyjna! Dobre wykresy, zrozumienie danych, włożenie wiedzy z zewnątrz, transformacja zmiennych. super! - mała uwaga do piętra: wydaje się, że 14+ powinno być osobno. To mieszkania nie w blokach, droższe + co do analizy roku budowy: można dodać zmienną kategoryczną i dodać jej interakcję z całą resztą - brakuje info o lambda jakie maksymalizuje likelihood w przeksztalceniu box-coxa. Dlaczego,,Model bardzo zmodyfikowany ma transformację logarytmiczną? Może to wynik usunięcia obserwacji odstających na początku? - eksploracja danych. Ale część wniosków niepoprawna. Mamy np. zależność między powierzchnią a ceną metra kwadratowego - korelacje są trochę na wyrost. O ile można jeszcze przyjąć, ze mieszkanie trzypokojowe jest 3/2 bardziej pokojowe niż dwupokojowe. To już trudno uznać, że 10 piętro jest 5 razy bardziej piętrowe niż drugie. To, że zmienna jest wyrażona liczbami nie oznacza, że nie jest kategoryczna -,,performance wzro sł - naprawdę można ładnie, precyzyjnie i po polsku + za pomysł z grupowaniem dzielnic - model z usuniętą zmienną surface. Poprawa R^2 wynika z ograniczenia zbioru do mieszkań zbudowanych po wojnie. Usunięcie zmiennej zawsze powoduje spadek R^2 + bardzo dobry pomysł ze stworzeniem nowej zmiennej - rok zbudowania budynku jako zmienna kategoryczna jest ryzykownym pomysłem. R^2 mocno wzrosło dlatego, że wprowadzilismy dodaktowych 60 zmiennych do modelu. Grupowanie ma sens, ale rozważanie każdego roku osobno może doprowadzić do nadmiernego dopasowania do danych treningowych!

258512 4 + połączenie dzielnic, redukcja liczby parametrów - używaj opcji chunków warning=false i message=false. Nie ma powodu żeby pojawiały się w raporcie + eksploracja danych. Brakuje jedynie wniosków z histogramów - brak wniosków z przeprowadzonej diagnostyki pierwszego modelu - liczba pokoi jest w gruncie rzeczy zmienną jakościową, a nie ilościową. Mówienie o korelacji jest pewnym nadużyciem. Jeszcze bardziej nieuzsadnione jest liczenie korelacji z piętrem + redukcja liczby parametrów przez grupowanie dzielnic. Bardzo dobre! +,,lewele + podział na trzy grupy ze względu na rok budowy + usunięcie zmiennych. Porównanie przez analizę wariancji - brakuje podsumowania. Co zostało zrobione, jak wyglądają modele, jakie są ich ograniczenia

3 - reszty mają mieć rozład normalny. Zmienna objaśniana nie! Statystyk nie jest aptekarzem. -0.98 to -1. - jak liczone są korelacje? W przypadku np. piętra korelacja jest nieuzasadniona (zmienna jakościowa) - dodawanie zmiennej typu 3 potęga powierzchni sprawia, że model jest nieinterpretowalny. Należy tego unikać! - pietro^2 to znowu matematyczna aberracja + diagnostyka, budowa skutecznego modelu 3 Uwaga: użycie plotly - bardzo fajnie. Wytłumaczenie czemu robimy przekształcenie jest ok, ale nie jest konieczne Opis cech - bardzo fajne. Co mamy w danych, co da się wyczytać. Wytłumaczenie dopasowania trzeciego stopnia, bardzo dobre (ewentualnei dyskretyzacja mogłaby tam być) Opis cech, liczba pokoi: opis zależności Uwaga: Dlaczego deweloperskie są takie dobre? Przecież to nie dlatego, że są w wysokim standardzie. Opis cech: zależność od roku budowy.,,zależność trzeciego stopnia Język matematyczny: * oznacznie f(powierzchnia,...), szum -> zamiast tego rysunke co na wejściu, co na wyjściu * mediana -> wartość średnia * zależność kwadratowa -> po prostu można opisać Współczynnik dopasowania: brak wytłumaczenie jak to wpływa. Uwaga: jeśli skala jest nieprzejrzysta, ale jest sensowna, to można usunąć. Najlepiej mieć skalę, która jest interpretowalna.