FILTROWANIE ZBIORU OFERT NIERUCHOMOŚCI Z WYKORZYSTANIEM INFORMACJI O PREFERENCJACH 1

Podobne dokumenty
strona 1 / 12 Autor: Walesiak Marek Publikacje:

strona 1 / 11 Autor: Walesiak Marek Subdyscyplina: Klasyfikacja i analiza danych Publikacje:

Agnieszka Nowak Brzezińska

Recenzenci Stefan Mynarski, Waldemar Tarczyński. Redaktor Wydawnictwa Anna Grzybowska. Redaktor techniczny Barbara Łopusiewicz. Korektor Barbara Cibis

Hierarchiczna analiza skupień

Wielowymiarowa analiza regionalnego zróżnicowania rolnictwa w Polsce

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

WYKAZ PRAC PUBLIKOWANYCH

Badania eksperymentalne

METODY INŻYNIERII WIEDZY

Badanie rozwoju społeczno-gospodarczego województw - wpływ metodyki badań na uzyskane wyniki

UE we Wrocławiu, WEZiT w Jeleniej Górze Katedra Ekonometrii i Informatyki

Agnieszka Nowak Brzezińska Wykład III

Proces badawczy schemat i zasady realizacji

Adrian Horzyk

Wykład 10 Skalowanie wielowymiarowe

Statystyka w pracy badawczej nauczyciela

NOTA INTERPETACYJNA ZASTOSOWANIE PODEJŚCIA PORÓWNAWCZEGO W WYCENIE NIERUCHOMOŚCI

METODY INŻYNIERII WIEDZY

Agnieszka Nowak Brzezińska Wykład III

STRESZCZENIE. rozprawy doktorskiej pt. Zmienne jakościowe w procesie wyceny wartości rynkowej nieruchomości. Ujęcie statystyczne.

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

NOTA INTERPETACYJNA ZASTOSOWANIE PODEJŚCIA PORÓWNAWCZEGO W WYCENIE NIERUCHOMOŚCI

MINISTER INWESTYCJI I ROZWOJU 1)

Proces badawczy schemat i zasady realizacji

SYSTEM BIOMETRYCZNY IDENTYFIKUJĄCY OSOBY NA PODSTAWIE CECH OSOBNICZYCH TWARZY. Autorzy: M. Lewicka, K. Stańczyk

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Badania eksploracyjne Badania opisowe Badania wyjaśniające (przyczynowe)

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Operacjonalizacja zmiennych

Wykład 5: Statystyki opisowe (część 2)

Analiza składowych głównych. Wprowadzenie

SPOSOBY POMIARU KĄTÓW W PROGRAMIE AutoCAD

Proces badawczy schemat i zasady realizacji

Matematyka - Statystyka matematyczna Mathematical statistics 2, 2, 0, 0, 0

Recenzja rozprawy doktorskiej mgr Bartosza Rymkiewicza pt. Społeczna odpowiedzialność biznesu a dokonania przedsiębiorstwa

Systemy uczące się Lab 4

Wykaz publikacji. Pozycje zwarte:

Elementy modelowania matematycznego

ZASTOSOWANIE METODY ANALIZY STATYSTYCZNEJ RYNKU W SZACOWANIU WARTOŚCI TECHNICZNYCH ŚRODKÓW PRODUKCJI NA PRZYKŁADZIE CIĄGNIKA ROLNICZEGO

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

Internetowy system e-crm do obsługi biura podróży. Marek Bytnar, Paweł Kraiński

Rozpoznawanie obrazów na przykładzie rozpoznawania twarzy

METODY INŻYNIERII WIEDZY

B3.5 Koncentracja. Raport pochodzi z portalu

BADANIA ZRÓŻNICOWANIA RYZYKA WYPADKÓW PRZY PRACY NA PRZYKŁADZIE ANALIZY STATYSTYKI WYPADKÓW DLA BRANŻY GÓRNICTWA I POLSKI

Aproksymacja funkcji a regresja symboliczna

Skalowanie wielowymiarowe idea

PRZEWODNIK PO PRZEDMIOCIE. stacjonarne. II stopnia. ogólnoakademicki. podstawowy WYKŁAD ĆWICZENIA LABORATORIUM PROJEKT SEMINARIUM

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

TYTUŁ PRACY LICENCJACKIEJ/MAGISTERSKIEJ

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Wektory, układ współrzędnych

Wykład 4: Statystyki opisowe (część 1)

ZESZYTY NAUKOWE UNIWERSYTETU SZCZECIŃSKIEGO NR 689 FINANSE, RYNKI FINANSOWE, UBEZPIECZENIA NR ANALIZA WŁASNOŚCI OPCJI SUPERSHARE

Tabela 1. Macierz preferencji dotycząca pięciu przykładowych produktów (obiektów) i sześciu respondentów

w pierwszym okresie nauki w gimnazjum

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Wykład z Technologii Informacyjnych. Piotr Mika

METODY ILOŚCIOWE W ZARZĄDZANIU

PRZEWODNIK PO PRZEDMIOCIE

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Wykaz publikacji. Pozycje zwarte:

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

PRZEWODNIK PO PRZEDMIOCIE

INFRASTRUKTURA I EKOLOGIA TERENÓW WIEJSKICH INFRASTRUCTURE AND ECOLOGY OF RURAL AREAS

Model referencyjny doboru narzędzi Open Source dla zarządzania wymaganiami

Jakość wyrobów i usług. Tomasz Poskrobko

WYKŁAD ĆWICZENIA LABORATORIUM PROJEKT SEMINARIUM

Systemy baz danych w zarządzaniu przedsiębiorstwem. W poszukiwaniu rozwiązania problemu, najbardziej pomocna jest znajomość odpowiedzi

Optymalizacja ciągła

Badania biegłości laboratorium poprzez porównania międzylaboratoryjne

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

4.3 Grupowanie według podobieństwa

Prawdopodobieństwo czerwonych = = 0.33

Wnioskowanie bayesowskie

Algorytm grupowania danych typu kwantyzacji wektorów

Priorytetyzacja przypadków testowych za pomocą macierzy

Dziennik Urzędowy Unii Europejskiej L 274/9

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

Statystyka społeczna. Liczba godzin stacjonarne: Wykłady: 15 Ćwiczenia: 15. niestacjonarne: Wykłady: 9 Ćwiczenia: 9

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

I. OGÓLNE INFORMACJE PODSTAWOWE O PRZEDMIOCIE. Nie dotyczy. podstawowy i kierunkowy

Badania Statystyczne

MODEL KOMPETENCYJNY DYREKTORA

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

Geoportal.gov.pl Przewodnik użytkownika Załącznik 1 Dokumentacja profilu GUGIK usługi OpenLS

Podstawy Informatyki Systemy sterowane przepływem argumentów

Metody badań w naukach ekonomicznych

Elementy statystyki wielowymiarowej

ANALIZA HIERARCHICZNA PROBLEMU W SZACOWANIU RYZYKA PROJEKTU INFORMATYCZNEGO METODĄ PUNKTOWĄ. Joanna Bryndza

Skrypt 17. Podobieństwo figur. 1. Figury podobne skala podobieństwa. Obliczanie wymiarów wielokątów powiększonych bądź pomniejszonych.

KLASYFIKACJA. Słownik języka polskiego

INSTRUKCJA DO ĆWICZENIA NR 1

1 Wprowadzenie do algorytmiki

Badanie zróżnicowania krajów członkowskich i stowarzyszonych Unii Europejskiej w oparciu o wybrane zmienne społeczno-gospodarcze

Niepewności pomiarów

Wykorzystanie komputera przez uczniów klas IV VI szkoły podstawowej w uczeniu się sprawozdanie z badań sondażowych

Transkrypt:

Tomasz Bartłomowicz Uniwersytet Ekonomiczny we Wrocławiu FILTROWANIE ZBIORU OFERT NIERUCHOMOŚCI Z WYKORZYSTANIEM INFORMACJI O PREFERENCJACH 1 Streszczenie. Punktem wyjścia artykułu jest spostrzeżenie, iż internetowe strony udostępniające szczegóły ofert sprzedaży nieruchomości umożliwiają ich sortowanie oraz filtrowanie niemal wyłącznie ze względu na ceny nieruchomości. Stąd głównym założeniem prezentowanego opracowania jest udoskonalenie omawianego mechanizmu o możliwość filtrowania ofert nieruchomości ze względu na ich cechy (atrybuty), w tym przeważające w opisie nieruchomości atrybuty typowo jakościowe. W opracowaniu algorytm filtrowania opiera się na rozpoznaniu preferencji wyrażonych użytkowników nieruchomościowej strony internetowej oraz metodzie klasyfikacji w postaci metody k-nn. Ze względu na przedmiot badania (nieruchomości) w procesie klasyfikacji do wyznaczenia macierzy odległości wykorzystano uogólnioną miarę odległości GDM. Umożliwia to filtrowanie zbioru ofert nieruchomości z wykorzystaniem miary GDM oraz informacji o ich preferencjach. RETRIEVAL OF PROPERTIES OFFERS WITH INFORMATION ABOUT PREFERENCES Summary. The paper presents strengths and failures of data retrieval using on web pages with offers to sell some properties. The main idea of the article is that data on those pages is only retrieval by the price of properties. Therefore the paper presents some concept to refine that action. For classification some properties author proposes k-nearest neighbors method with Generalized Distance Measure (GDM). Author illustrates presented method on an empirical example. 1 Praca naukowa finansowana częściowo ze środków na działalność statutową Katedry Ekonometrii i Informatyki w roku 2010 oraz ze środków na naukę w latach 2009-2012 jako projekt badawczy nr N N111 446037.

1. Wprowadzenie Sortowanie i filtrowanie danych to jedne z podstawowych zagadnień informatyki, polegające w pierwszym przypadku na uporządkowaniu, w drugim na selekcji zbioru danych względem pewnych zmiennych (cech, atrybutów) charakterystycznych dla każdego z elementów tego zbioru 2. Czynności te, choć niedostrzegane, stanowią podstawową praktykę wszędzie tam, gdzie ilość prezentowanego materiału przekracza możliwości jego pełnego poznania. Przykładem mogą być tutaj oferty sprzedaży nieruchomości dostępne na internetowych stronach biur pośrednictwa w obrocie nieruchomościami. W artykule przedstawia się zalety i wady stosowanych rozwiązań w zakresie filtrowania internetowych ofert sprzedaży nieruchomości, a w świetle tych ostatnich dokonuje się próby udoskonalenia tego mechanizmu. Służyć temu ma wykorzystanie naukowej metody klasyfikacji, odpowiedniej miary podobieństwa oraz, w postaci prezentowanego przykładu, przekonanie co do możliwości połączenia powyższych w ramach mechanizmu filtrowania innego, niż ma to miejsce obecnie na stronie internetowej. 2. Definicja problemu W artykule punktem wyjścia jest spostrzeżenie, iż internetowe strony udostępniające oferty biur pośrednictwa w obrocie nieruchomościami umożliwiają sortowanie i filtrowanie zawartych tam informacji z punktu widzenia jednego lub co najwyżej kilku kryteriów. Najczęściej jest to cena nieruchomości, sporadycznie inne metryczne (ilościowe) cechy nieruchomości. Poza ceną można w tym miejscu dodatkowo wymienić powierzchnię działki, liczbę pokoi, piętrową lokalizację lokalu itp. W przypadku cech niemetrycznych (jakościowych) sortowanie, a w dalszej kolejności filtrowanie ofert nieruchomości zazwyczaj w ogóle nie jest przewidziane w mechanizmach strony internetowej. Oznacza to brak uwzględnienia w wyszukiwaniu nieruchomości m.in. takich zmiennych, jak: lokalizacja nieruchomości, uzbrojenie terenu, kształt działki, otoczenie środowiskowe nieruchomości, o bardziej specyficznych cechach nieruchomości nie wspominając. Ponadto należy zauważyć, iż nieruchomości to wyjątkowy i specyficzny przedmiot wymiany rynkowej. O ich specyfice przekonuje m.in. fakt braku nieruchomości identycznych, 2 Opis na podstawie internetowego słownika języka polskiego dostępnego pod adresem: http://sjp.pwn.pl.

tj. charakteryzujących się kompletem takich samych atrybutów i ich poziomów. W przypadku rynku nieruchomości mówi się co najwyżej o nieruchomościach podobnych. Należy zatem zauważyć, iż deklaracja bardzo konkretnych kryteriów filtrowania ofert nieruchomości może w praktyce jako wynik filtrowania za każdym razem oznaczać co najwyżej pojedynczy jej wariant lub nawet brak jakichkolwiek wyników wyszukiwania. Do wad istniejących rozwiązań trzeba także dodać, iż deklaracja właściwych kryteriów wyszukiwania (reguł filtrowania) oznacza potrzebę dysponowania choćby minimalną wiedzą na temat filtrowanych obiektów nieruchomości i ich atrybutów. Dostępne na stronach internetowych mechanizmy sortowania i filtrowania ofert nieruchomości, z uwagi na przedmiot filtrowania, są co najmniej niewystarczające, a nawet co stanowi tezę niniejszego artykułu nieadekwatne do ich przedmiotu. W przekonaniu autora, głównie z racji przewagi wspomnianych cech jakościowych, dedykowane rozwiązania w postaci klasycznych mechanizmów filtrowania uszczuplają możliwości przeglądu stron internetowych z ofertami sprzedaży nieruchomości. Tym samym głównym celem artykułu jest prezentacja rozwiązania pozwalającego wyeliminować wymienione wady, a przynajmniej w wysokim stopniu je ograniczyć. 3. Proponowane rozwiązanie Rozwiązanie postawionego w artykule problemu polega na zaproponowaniu sposobu sortowania (filtrowania) ofert nieruchomości przy wykorzystaniu naukowej metody klasyfikacji i adekwatnej do przykładu miary podobieństwa. Warto w tym miejscu podkreślić, iż z uwagi na definiowaną przez użytkownika strony www liczebność zbioru przefiltrowanych ofert nieruchomości w rozwiązaniu zdecydowano się wykorzystać metodę klasyfikacji w postaci metody k-najbliższych sąsiadów (k-nn). W tej znanej i prostej metodzie, klasyfikacja polega na wyborze k obserwacji leżących najbliżej nieznanej obserwacji i przypisaniu jej do tej klasy, do której należy najwięcej spośród jej k sąsiadów (por. Tadeusiewicz, Lasiński, 1991, s. 43 53). W sposób graficzny działanie metody k-nn w ograniczeniu do dwóch atrybutów przedstawia rysunek 1. Obiekt ze znakiem zapytania reprezentuje obiekt klasyfikowany do pierwszej klasy klasy obiektów zakreskowanych lub drugiej klasy klasy obiektów zacieniowanych. W sytuacji gdy k = 1 obiekt jest klasyfikowany do pierwszej klasy z uwagi na najbliższą odległość obiektu zakreskowanego. W sytuacji gdy k = 3 obiekt jest klasyfikowany

do klasy drugiej ponieważ wewnątrz okręgu, zawierającego 3 najbliższe obserwacje, znajdują się 2 zacieniowane kółka i tylko 1 kółko zakreskowane 3. Atrybut 1 1NN? 3NN 2NN Atrybut 2 Rysunek 1. Graficzna prezentacja działania metody k-najbliższych sąsiadów Źródło: Opracowanie własne na podstawie dokumentu Classification: k Nearest Neighbours dostępnego pod adresem: http://www.cs.ucc.ie/~dgb/courses/tai/notes/handout4.pdf. Należy w tym miejscu zauważyć, iż definicja najbliższej obserwacji sprowadza się do minimalizacji pewnej metryki, mierzącej odległość między wektorami zmiennych dwóch obiektów. Choć znane są przypadki stosowania takich miar jak miejska czy Mahalanobisa, najczęściej stosowana jest w tym miejscu odległość euklidesowa (1): d E = m ( xil xkl ) l= 1 2 (1) gdzie: d E euklidesowa miara odległości, i = 1,, k numer obiektu, l = 1,, m numer zmiennej. 3 W sytuacji gdy zastosowanie metody k-nn ogranicza się do pomiaru odległości oraz wyboru najbliższych sąsiadów oznacza to klasyfikację obserwacji do k licznych klas. Ponadto metoda k-najbliższych sąsiadów umożliwia także prognozowanie.

Należy jednak pamiętać, iż z uwagi na przedmiot zainteresowania w postaci nieruchomości przewagę zmiennych opisujących klasyfikowane obiekty stanowią zmienne mierzone na skali porządkowej. W konsekwencji oznacza to potrzebę zastosowania miary adekwatnej do skali pomiaru, w tym przypadku uogólnionej miary odległości GDM (2) (por. Walesiak, 2003, s. 37; Gatnar, Walesiak, 2004, s. 355; Walesiak, 2006, s. 36): d GDM m 1 ikj kij j= 1 j= 1 l= 1 l i, k = 2 2 a b + m n m n 2 ailj j= 1 l= 1 j= 1 l= 1 m n a ilj b b 2 klj klj 1 2 (2) gdzie: d GDM uogólniona miara odległości GDM, i, k, l = 1,, n numer obiektu, j = 1,, m numer zmiennej. Jak podaje M. Walesiak, miarę [ ] można stosować w sytuacji, gdy w zbiorze są zmienne mierzone na skali porządkowej (por. Walesiak, 2002, s. 75). Co więcej, w literaturze z zakresu statystycznej analizy wielowymiarowej nie zaproponowano dotychczas innych miar odległości dla zmiennych porządkowych (por. Walesiak, 2002, s. 76). Sposób zastosowania uogólnionej miary odległości GDM oraz wzór rozwiązania postawionego w artykule problemu filtrowania internetowych ofert nieruchomości z wykorzystaniem metody k-najbliższych sąsiadów prezentuje poniższy przykład. 4. Przykład filtrowania ofert nieruchomości metodą k-nn Praktyczne zastosowanie metody k-najbliższych sąsiadów w każdym przypadku oznacza konieczność dysponowania zbiorem obiektów, którym w przykładzie są warianty (profile) niezabudowanych nieruchomości gruntowych (działek budowlanych) opisane zestawem sześciu cech (atrybutów, zmiennych objaśniających) w postaci lokalizacji nieruchomości w strefie miasta, powierzchni, uzbrojenia terenu, rodzaju formy władania

nieruchomością, kształtu i położenia środowiskowego działki 4. Należy zauważyć, iż każda ze zmiennych realizowana jest przez odpowiadające jej poziomy. W przypadku lokalizacji nieruchomości w strefie miasta jest to odpowiednio lokalizacja: centralna, śródmiejska i peryferyjna, w przypadku pozostałych cech odpowiednio: powierzchnia nieruchomości mała (poniżej 800 m 2 ), średnia (800-2000 m 2 ) i duża (powyżej 2000 m 2 ); uzbrojenie terenu podstawowe, niepełne i pełne ; forma władania nieruchomością własność i użytkowanie wieczyste ; kształt typowy i nietypowy ; położenie środowiskowe nieruchomości niekorzystne, przeciętne i korzystne (por. tabela 1). Tabela 1. Cechy niezabudowanych nieruchomości gruntowych na jeleniogórskim rynku nieruchomości z oferty wybranych biur pośrednictwa w obrocie nieruchomościami Kod Oznaczenie Nazwa cechy Realizacje cechy realizacji cechy cechy Centralna 1 X 1 X 2 X 3 X 4 X 5 Lokalizacja nieruchomości gruntowej w strefie miasta Powierzchnia nieruchomości Uzbrojenie terenu (tzw. media) Forma władania nieruchomością Kształt Śródmiejska 2 Peryferyjna 3 Mała 1 Średnia 2 Duża 3 Podstawowe 1 Niepełne 2 Pełne 3 Własność 1 użytkowanie wieczyste 2 Typowy 1 Nietypowy 2 4 Pomimo iż przykład ma charakter uproszczony, wybór cech opisujących nieruchomości bazuje na przeprowadzonych przez autora badaniach relatywnej ważności cech nieruchomości i odzwierciedla najważniejsze cechy niezabudowanych nieruchomości gruntowych (por. T. Bartłomowicz, 2002, s. 272 280; R. Pawlukowicz, T. Bartłomowicz, 2005, s. 128 139).

X 6 Położenie (otoczenie) środowiskowe nieruchomości Niekorzystne 1 Przeciętne 2 Korzystne 3 Źródło: Opracowanie własne. W przykładzie źródło danych stanowią strony internetowe jeleniogórskich biur pośrednictwa w obrocie nieruchomościami, z których ostatecznie wybrano 16 ofert (profilów) nieruchomości (P01, P02,, P16). Charakterystykę wykorzystanych ofert z uwzględnieniem kodów realizacji poszczególnych cech (por. tabela 1) prezentuje w postaci macierzy danych tabela 2. Należy zauważyć, iż wszystkie zaczerpnięte oferty charakteryzują się pełną własnością (kod 1 dla zmiennej X 4 ). Oznacza to, iż o zróżnicowaniu obiektów de facto decydują pozostałe zmienne (X 1, X 2, X 3, X 5, X 6 ). Na potrzeby prezentacji proponowanego rozwiązania przyjmuje się założenie, iż użytkownika strony internetowej szczególnie interesuje jeden z wariantów nieruchomości w postaci profilu P09 ( śródmiejska lokalizacja, średnia powierzchnia, niepełne uzbrojenie, własność, typowy kształt oraz korzystne położenie). Jednocześnie zakłada się, iż użytkownika interesuje pewien zbiór działek budowlanych, które spełniają wszystkie lub większość tych samych kryteriów są najbardziej podobne do profilu P09. Przedstawione w artykule rozwiązanie w miejsce klasycznego filtrowania ofert nieruchomości, które wymagałoby zastosowania kryteriów wyszukiwania w postaci atrybutów profilu P09, proponuje mechanizm polegający każdorazowo na możliwości wyszukania nieruchomości z definicji najbardziej podobnych do profilu będącego punktem wyjścia (profilu wzorcowego). Co ważne, z racji sugerowanej metody klasyfikacji w postaci k-nn, w mechanizmie tym przewiduje się możliwość deklaracji liczby poszukiwanych nieruchomości podobnych 5. W praktyce odpowiada to sytuacji, w której użytkownik strony internetowej zaciekawiony wybraną ofertą nieruchomości jest w stanie wyszukać z bazy ofert konkretną, z góry zadeklarowaną liczbę nieruchomości najbardziej podobnych do danej oferty, przy czym operacja ta odbywa się bez podawania jakichkolwiek dodatkowych kryteriów. Oznacza to, iż wiedza o preferowanych wariantach nieruchomości czerpana jest z 5 Od strony technicznej umożliwia to idea metody k-najbliższych sąsiadów, w której klasyfikacja odbywa się do k licznych klas k jako liczba sąsiadów jest definiowane w przeciwieństwie do innych metod klasyfikacji, gdzie podział następuje do k klas.

opisu profilu startowego (wzorcowego) w postaci preferencji wyrażonych 6 strony internetowej. użytkownika Tabela 2. Macierz danych (realizacje cech rynkowych w zbiorze klasyfikowanych nieruchomości) Cechy rynkowe i ich realizacje Profile (według tabeli 1) nieruchomości X 1 X 2 X 3 X 4 X 5 X 6 P01 3 2 1 1 1 3 P02 2 2 2 1 1 2 P03 3 2 1 1 2 2 P04 3 3 2 1 1 3 P05 3 2 1 1 1 3 P06 1 1 3 1 2 1 P07 3 2 1 1 1 2 P08 2 2 1 1 1 3 P09 2 2 2 1 1 3 P10 3 2 2 1 2 1 P11 3 3 1 1 1 2 P12 2 2 3 1 1 1 P13 3 2 2 1 1 3 P14 3 2 1 1 1 2 P15 2 1 3 1 2 2 P16 3 3 2 1 1 1 Źródło: Opracowanie własne. 6 W przeciwieństwie do preferencji ujawnionych, preferencje wyrażone to hipotetyczne (deklarowane) preferencje nabywców wyrażające ich intencje (por. Bąk, 2004, s. 43).

Aby możliwe było numeryczne zastosowanie metody k-nn, dane niemetryczne opisujące wszystkie profile nieruchomości zakodowano (por. tabela 2), co umożliwiło za pomocą wzorów (1) i (2) wyznaczenie macierzy odległości między poszczególnymi wariantami nieruchomości. Obliczenia, wykorzystując w tym celu polecenie dist.gdm z modułu clustersim, zrealizowano w środowisku R i otrzymano następujący zestaw wyników dla miary GDM (por. Walesiak, Gatnar, 2009, s. 421): > data(properties) > matrix <- dist.gdm(properties, method="gdm2") > print(round(matrix, 2)) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 2 0.31 3 0.21 0.30 4 0.20 0.28 0.37 5 0.00 0.31 0.21 0.20 6 0.70 0.30 0.44 0.69 0.70 7 0.10 0.22 0.12 0.29 0.10 0.57 8 0.12 0.18 0.30 0.29 0.12 0.54 0.21 9 0.22 0.09 0.39 0.20 0.22 0.41 0.31 0.09 10 0.44 0.28 0.15 0.40 0.44 0.26 0.28 0.51 0.42 11 0.20 0.29 0.20 0.17 0.20 0.70 0.10 0.29 0.38 0.35 12 0.56 0.13 0.48 0.45 0.56 0.18 0.41 0.43 0.28 0.26 0.47 13 0.11 0.21 0.30 0.10 0.11 0.56 0.21 0.22 0.11 0.34 0.29 0.40 14 0.10 0.22 0.12 0.29 0.10 0.57 0.00 0.21 0.31 0.28 0.10 0.41 0.21 15 0.53 0.21 0.33 0.54 0.53 0.08 0.46 0.42 0.29 0.26 0.60 0.21 0.39 0.46

16 0.42 0.26 0.35 0.20 0.42 0.51 0.27 0.50 0.41 0.19 0.15 0.24 0.32 0.27 0.52 W przypadku miary euklidesowej mającej za zadanie potwierdzić wskazania GDM obliczenia zrealizowano za pomocą programu MsExcel. Sumaryczne wyniki odległości nieruchomości opisanej profilem P09 od pozostałych ofert nieruchomości prezentuje tabela 3. Przy założeniu k = 3 uzyskane wyniki pozwalają jednoznacznie wyróżnić trzech najbliższych sąsiadów dla wariantu wzorcowego. W przykładzie są to profile: P02, P08 i P13 7. Wyróżnienie najbliższych sąsiadów dla wariantu wzorcowego oznacza znalezienie klasy nieruchomości dla wariantu charakteryzującego się atrybutami uznanymi za interesujące. W przełożeniu na działanie proponowanego mechanizmu filtrowania oznacza to wyszukanie zadeklarowanej liczby ofert, które ze wszystkich dostępnych na stronie internetowej w największym stopniu odpowiadają ofercie porównywanej. Należy w tym miejscu podkreślić, iż mechanizm ten, co należy uznać za jego zaletę, pozwala bez względu na objętość bazy danych wyszukać oferty najbardziej i nie do końca spełniające kryteria obiektu wzorcowego. Warto podkreślić, iż filtrowanie w klasycznym rozumieniu tego pojęcia takiej możliwości nie daje. Tabela 3. Odległości euklidesowe oraz GDM profilu nr 9 od pozostałych ofert nieruchomości Odległość Profil nieruchomości Euklidesowa GDM P01 1,41 0,22 P02 1,00 0,09 P03 2,00 0,39 P04 1,41 0,20 P05 1,41 0,22 P06 2,83 0,41 7 W przypadku k = 4 do trzech ww. wariantów zgodnie z ideą poszukiwania najmniejszej odległości pomiędzy wariantem wzorcowym a pozostałymi wariantami należałoby dodać wariant P04, w przypadku k = 5 wariant P05, w przypadku k = 6 wariant P01 itd.

P07 1,73 0,31 P08 1,00 0,09 P09 0,00 0,00 P10 2,45 0,42 P11 2,00 0,38 P12 2,24 0,28 P13 1,00 0,11 P14 1,73 0,31 P15 2,00 0,29 P16 2,45 0,41 Źródło: Obliczenia własne. 5. Podsumowanie Przedstawione rozwiązanie, głównie z uwagi na brak możliwości definiowania indywidualnych kryteriów, należy traktować jako rozwinięcie znanych i dostępnych mechanizmów filtrowania zawartości internetowych stron, w tym przypadku ofert sprzedaży nieruchomości. Wydaje się, iż zaproponowany mechanizm sortowania (filtrowania) dla tego typu zbioru danych, jakim są nieruchomości, jest bardziej adekwatny od rozwiązań standardowych, które niekoniecznie są dla tego typu danych dedykowane. Zaletą proponowanego rozwiązania jest niewątpliwie możliwość ograniczenia niebezpieczeństw wspomnianych w artykule, tj. m.in. możliwości uzyskania zbyt małej lub zbyt dużej liczby przefiltrowanych wyników. Jak zostało to już zauważone, wynika to z zastosowania odpowiedniej metody klasyfikacji. W opinii autora artykułu możliwość deklaracji liczby wyników filtrowania należy uznać za przejaw funkcjonalności proponowanego rozwiązania. Jednak za największą zaletę prezentowanego mechanizmu należy uznać możliwość uzyskania wśród filtrowanych wyników rekordów najbardziej podobnych do rekordu wzorca, szczególnie że proponowany mechanizm uwzględnia wybór rekordów różniących się od

wzorca w mniejszym lub większym stopniu. Jak już zauważono, każdorazowo pozwala to wyszukać oferty najbardziej, nawet jeśli nie do końca, spełniające określone kryteria. W połączeniu z wcześniej wspomnianą zaletą na przykładzie nieruchomości daje to gwarancję wyszukania określonej liczby ofert, co w przypadku filtrowania w klasycznym rozumieniu tego pojęcia takiej pewności nie daje. W opinii autora artykułu proponowany mechanizm przeszukiwania strony www nadaje się do szerszego zastosowania nie tylko w odniesieniu do nieruchomości. Wszędzie, gdzie sortowanie (filtrowanie) jest niezbędne, a większość cech to zmienne niemetryczne, proponowane rozwiązanie wydaje się przewyższać rozwiązania uniwersalne. Gdy dodatkowo zauważy się, iż numerycznie procedurę obliczeniową metody będącej podstawą klasyfikacji można zrealizować w języku programowania strony internetowej, to zaprezentowane rozwiązanie jawi się jako interesujące narzędzie filtrowania zbioru ofert z wykorzystaniem informacji o preferencjach użytkownika strony internetowej. Bibliografia 1. Bartłomowicz T., Zastosowanie metody conjoint analysis do pomiaru preferencji potencjalnych nabywców nieruchomości, w: Jajuga K., Walesiak M. (red.), Klasyfikacja i analiza danych teoria i zastosowania. Taksonomia 9, Wydawnictwo AE we Wrocławiu, Wrocław 2002. 2. Bąk A., Dekompozycyjne metody pomiaru preferencji w badaniach marketingowych, Wydawnictwo AE we Wrocławiu, Wrocław 2004. 3. Classification: k Nearest Neighbours, dokument dostępny w internecie na stronie: http://www.cs.ucc.ie/~dgb/courses/tai/notes/handout4.pdf. 4. Gatnar E., Walesiak M. (red.), Metody statystycznej analizy wielowymiarowej w badaniach marketingowych, Wydawnictwo AE we Wrocławiu, Wrocław 2004. 5. Pawlukowicz R., Bartłomowicz T., Conjoint analysis jako sposób wyznaczania wag cech rynkowych w wycenie rynkowej nieruchomości za pomocą podejścia porównawczego, w: Ekonometria 15, red. J. Dziechciarz, Wydawnictwo AE we Wrocławiu, Wrocław 2005. 6. Słownik języka polskiego, PWN, słownik dostępny w internecie na stronie: http://sjp.pwn.pl. 7. Tadeusiewicz R., Lasiński M., Rozpoznawanie obrazów, PWN, Warszawa 1991.

8. Walesiak M., Gatnar E. (red.), Statystyczna analiza danych z wykorzystaniem programu R, PWN, Warszawa 2009. 9. Walesiak M., Obszary zastosowań uogólnionej miary odległości GDM w statystycznej analizie wielowymiarowej, w: Ekonometria 11, red. J. Dziechciarz, Wydawnictwo AE we Wrocławiu, Wrocław 2003. 10. Walesiak M., Pomiar podobieństwa obiektów w świetle skal pomiaru i wag zmiennych, w: Ekonometria 10, red. J. Dziechciarz, Wydawnictwo AE we Wrocławiu, Wrocław 2002. 11. Walesiak M., Uogólniona miara odległości w statystycznej analizie wielowymiarowej, wydanie 2 rozszerzone, Wydawnictwo AE we Wrocławiu, Wrocław 2006.