Metody Informatyki Stosowanej

Podobne dokumenty

Proposal of thesis topic for mgr in. (MSE) programme in Telecommunications and Computer Science

Unit of Social Gerontology, Institute of Labour and Social Studies ageing and its consequences for society

Zakopane, plan miasta: Skala ok. 1: = City map (Polish Edition)

Tychy, plan miasta: Skala 1: (Polish Edition)

MaPlan Sp. z O.O. Click here if your download doesn"t start automatically

Network Services for Spatial Data in European Geo-Portals and their Compliance with ISO and OGC Standards

ERASMUS + : Trail of extinct and active volcanoes, earthquakes through Europe. SURVEY TO STUDENTS.

SSW1.1, HFW Fry #20, Zeno #25 Benchmark: Qtr.1. Fry #65, Zeno #67. like

Karpacz, plan miasta 1:10 000: Panorama Karkonoszy, mapa szlakow turystycznych (Polish Edition)

Hard-Margin Support Vector Machines

Stargard Szczecinski i okolice (Polish Edition)

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

Polska Szkoła Weekendowa, Arklow, Co. Wicklow KWESTIONRIUSZ OSOBOWY DZIECKA CHILD RECORD FORM

Cracow University of Economics Poland. Overview. Sources of Real GDP per Capita Growth: Polish Regional-Macroeconomic Dimensions

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

Ankiety Nowe funkcje! Pomoc Twoje konto Wyloguj. BIODIVERSITY OF RIVERS: Survey to students

Miedzy legenda a historia: Szlakiem piastowskim z Poznania do Gniezna (Biblioteka Kroniki Wielkopolski) (Polish Edition)

PROJECT. Syllabus for course Global Marketing. on the study program: Management

Instructions for student teams

Katowice, plan miasta: Skala 1: = City map = Stadtplan (Polish Edition)

Patients price acceptance SELECTED FINDINGS

Helena Boguta, klasa 8W, rok szkolny 2018/2019

Evaluation of the main goal and specific objectives of the Human Capital Operational Programme

ARNOLD. EDUKACJA KULTURYSTY (POLSKA WERSJA JEZYKOWA) BY DOUGLAS KENT HALL

Latent Dirichlet Allocation Models and their Evaluation IT for Practice 2016

EXAMPLES OF CABRI GEOMETRE II APPLICATION IN GEOMETRIC SCIENTIFIC RESEARCH

Zarządzanie sieciami telekomunikacyjnymi

TTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 9: Inference in Structured Prediction

F-16 VIRTUAL COCKPIT PROJECT OF COMPUTER-AIDED LEARNING APPLICATION WEAPON SYSTEM POWER ON PROCEDURE

Krytyczne czynniki sukcesu w zarządzaniu projektami

Auditorium classes. Lectures

Sargent Opens Sonairte Farmers' Market

Cracow University of Economics Poland

PROGRAM STAŻU. Nazwa podmiotu oferującego staż / Company name IBM Global Services Delivery Centre Sp z o.o.

Ankiety Nowe funkcje! Pomoc Twoje konto Wyloguj. BIODIVERSITY OF RIVERS: Survey to teachers

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

European Crime Prevention Award (ECPA) Annex I - new version 2014

Instrukcja obsługi User s manual

Weronika Mysliwiec, klasa 8W, rok szkolny 2018/2019

Metodyki projektowania i modelowania systemów Cyganek & Kasperek & Rajda 2013 Katedra Elektroniki AGH

Miedzy legenda a historia: Szlakiem piastowskim z Poznania do Gniezna (Biblioteka Kroniki Wielkopolski) (Polish Edition)

Fig 5 Spectrograms of the original signal (top) extracted shaft-related GAD components (middle) and

Blow-Up: Photographs in the Time of Tumult; Black and White Photography Festival Zakopane Warszawa 2002 / Powiekszenie: Fotografie w czasach zgielku

WYDZIAŁ NAUK EKONOMICZNYCH. Studia II stopnia niestacjonarne Kierunek Międzynarodowe Stosunki Gospodarcze Specjalność INERNATIONAL LOGISTICS

Ocena potrzeb pacjentów z zaburzeniami psychicznymi

Institutional Determinants of IncomeLevel Convergence in the European. Union: Are Institutions Responsible for Divergence Tendencies of Some

Knovel Math: Jakość produktu

PROJECT. Syllabus for course Negotiations. on the study program: Management

Machine Learning for Data Science (CS4786) Lecture 24. Differential Privacy and Re-useable Holdout

PRZEWODNIK PO PRZEDMIOCIE. Negotiation techniques. Management. Stationary. II degree

SubVersion. Piotr Mikulski. SubVersion. P. Mikulski. Co to jest subversion? Zalety SubVersion. Wady SubVersion. Inne różnice SubVersion i CVS

Faculty: Management and Finance. Management

ZGŁOSZENIE WSPÓLNEGO POLSKO -. PROJEKTU NA LATA: APPLICATION FOR A JOINT POLISH -... PROJECT FOR THE YEARS:.

Wybrzeze Baltyku, mapa turystyczna 1: (Polish Edition)

SWPS Uniwersytet Humanistycznospołeczny. Wydział Zamiejscowy we Wrocławiu. Karolina Horodyska

Wprowadzenie do programu RapidMiner, część 5 Michał Bereta

Zmiany techniczne wprowadzone w wersji Comarch ERP Altum

Emilka szuka swojej gwiazdy / Emily Climbs (Emily, #2)

OPTYMALIZACJA PUBLICZNEGO TRANSPORTU ZBIOROWEGO W GMINIE ŚRODA WIELKOPOLSKA

What our clients think about us? A summary od survey results

PROJECT. Syllabus for course Principles of Marketing. on the study program: Management

Analysis of Movie Profitability STAT 469 IN CLASS ANALYSIS #2

P R A C A D Y P L O M O W A

POLITECHNIKA WARSZAWSKA. Wydział Zarządzania ROZPRAWA DOKTORSKA. mgr Marcin Chrząścik

Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)

Pielgrzymka do Ojczyzny: Przemowienia i homilie Ojca Swietego Jana Pawla II (Jan Pawel II-- pierwszy Polak na Stolicy Piotrowej) (Polish Edition)

Realizacja systemów wbudowanych (embeded systems) w strukturach PSoC (Programmable System on Chip)

Machine Learning for Data Science (CS4786) Lecture11. Random Projections & Canonical Correlation Analysis

Dolny Slask 1: , mapa turystycznosamochodowa: Plan Wroclawia (Polish Edition)

System optymalizacji produkcji energii

WYDZIAŁ NAUK EKONOMICZNYCH

Rozpoznawanie twarzy metodą PCA Michał Bereta 1. Testowanie statystycznej istotności różnic między jakością klasyfikatorów

OpenPoland.net API Documentation

Ocena zachowań prozdrowotnych w zakresie higieny jamy ustnej obywateli

Working Tax Credit Child Tax Credit Jobseeker s Allowance

Łukasz Reszka Wiceprezes Zarządu

Osoby 50+ na rynku pracy PL1-GRU

Ontology-based system of job offers analysis

Barbara Adamczyk. Dzieci ulicy. w Polsce i na świecie. Definicja. typologia etiologia

LEARNING AGREEMENT FOR STUDIES

Teaching activities. improving methods of teaching. improving social students skills. respect to each other. communication through games -

Linear Classification and Logistic Regression. Pascal Fua IC-CVLab

Revenue Maximization. Sept. 25, 2018

PSB dla masazystow. Praca Zbiorowa. Click here if your download doesn"t start automatically

UMOWY WYPOŻYCZENIA KOMENTARZ

archivist: Managing Data Analysis Results

Ekonomiczne i społeczno-demograficzne czynniki zgonów osób w wieku produkcyjnym w Polsce w latach

Installation of EuroCert software for qualified electronic signature

deep learning for NLP (5 lectures)

Formularz recenzji magazynu. Journal of Corporate Responsibility and Leadership Review Form

XT001_ INTRODUCTION TO EXIT INTERVIEW PYTANIE NIE JEST ZADAWANE W POLSCE W 2006 ROKU. WCIŚNIJ Ctrl+R BY PRZEJŚĆ DALEJ. 1.

Transkrypt:

Polska Akademia Nauk Oddział w Gdasku Komisja Informatyki Metody Informatyki Stosowanej Nr 4/2010 (25) Szczecin 2010

Metody Informatyki Stosowanej Kwartalnik Komisji Informatyki Polskiej Akademii Nauk Oddział w Gdasku Komitet Naukowy: Przewodniczcy: prof. dr hab. in. Henryk Krawczyk, czł. koresp. PAN, Politechnika Gdaska Członkowie: prof. dr hab. in. Michał Białko, czł. rzecz. PAN, Politechnika Koszaliska prof. dr hab. in. Ludosław Drelichowski, Uniwersytet Technologiczno-Przyrodniczy w Bydgoszczy prof. dr hab. in. Janusz Kacprzyk, czł. rzecz. PAN, Instytut Bada Systemowych PAN prof. dr hab. Jan Madey, Uniwersytet Warszawski prof. dr hab. in. Leszek Rutkowski, czł. koresp. PAN, Politechnika Czstochowska prof. dr hab. in. Piotr Sienkiewicz, Akademia Obrony Narodowej prof. dr in. Jerzy Sołdek, Zachodniopomorska Szkoła Biznesu w Szczecinie prof. dr hab. in. Andrzej Straszak, Instytut Bada Systemowych PAN prof. dr hab. Maciej M. Sysło, Uniwersytet Wrocławski Recenzenci współpracujcy z redakcj: Marian Adamski, Andrzej Banachowicz, Zbigniew Banaszak, Joanna Bana, Alexander Barkalov, Włodzimierz Bielecki, Piotr Błaszyski, Janusz Bobulski, Piotr Bubacz, Ryszard Budziski, Henryk Budzisz, Dariusz Burak, Tadeusz Czachórski, Jacek Czarnecki, Andrzej Czyewski, Piotr Dziurzaski, Witold Dzwinel, Imed El Fray, Mykhaylo Fedorov, Paweł Forczmaski, Dariusz Frejlichowski, Krzysztof Giaro, Zbigniew Gmyrek, Stanisław Grzegórski, Volodymyr Harbarchuk, Edward Hrynkiewicz, Zbigniew Huzar, Janusz Jabłoski, Jarosław Jankowski, Wojciech Jdruch, Tadeusz Kaczorek, Andrei Karatkevich, Andrzej Kasiski, Aleksander Katkow, Włodzimierz Khadzhynow, Przemysław Klsk, Jacek Kluska, Leonid Kompanets, Józef Korbicz, Jerzy Korostil, Marcin Korze, Witold Kosiski, Magdalena Krakowiak, Krzysztof Kraska, Georgy Kukharev, Emma Kusztina, Piotr Lipiski, Małgorzata Łatuszyska, Ewa Łukasik, Radosław Maciaszczyk, Wiesław Madej, Krzysztof Makles, Wojciech Maleika, Krzysztof Małecki, Radosław Mantiuk, Andrzej Marciniak, Oleg Maslennikow, Piotr Mróz, Karol Myszkowski, Andrzej Napieralski, Evgeny Ochin, Krzysztof Okarma, Remigiusz Olejnik, Piotr Pechmann, Jerzy Peja, Andrzej Pieczyski, Andrzej Piegat, Piotr Piela, Maria Pietruszka, Zbigniew Pietrzykowski, Mateusz Piwowarski, Marcin Pluciski, Anna Pławiak-Mowna, Orest Popov, Edward Półrolniczak, Artur Przelaskowski, Valeriy Rogoza, Przemysław Róewski, Mirosław Ryba, Anna Samborska-Owczarek, Dominik Sankowski, Adam Słowik, Marek Stabrowski, Andrzej Stateczny, Jerzy Stefanowski, Janusz Stokłosa, Zdzisław Szczerbiski, Tomasz Szmuc, Marcin Szpyrka, Boena miałkowska, Ryszard Tadeusiewicz, Alexander ariov, Larysa Titarenko, Leszek Trybus, Andrzej Tujaka, Zenon Ulman, Andrzej Walczak, Jarosław Wtróbski, Agnieszka Wgrzyn, Marek Wgrzyn, Sławomir Wiak, Waldemar Wolski, Waldemar Wójcik, Oleg Zaikin, Wojciech Zajc, Danuta Zakrzewska, Zenon Zwierzewicz Redaktor Naczelny: Antoni Wiliski Sekretarz redakcji: Piotr Czapiewski ISSN 1898-5297 Wydawnictwo: Polska Akademia Nauk Oddział w Gdasku, Komisja Informatyki Adres kontaktowy: ul. ołnierska 52 p. 301, 71-210 Szczecin, email: pan@wi.zut.edu.pl Druk: Pracownia Poligraficzna Wydziału Informatyki Zachodniopomorskiego Uniwersytetu Technologicznego w Szczecinie Nakład 510 egz.

Spis treci Ewa Adamus, Przemysław Klsk, Joanna Kołodziejczyk, Marcin Korze, Andrzej Piegat, Marcin Pluciski RULES INDUCTION ON CHILD WELL BEING... 5 Marcin Gibert, Boena miałkowska WYCENA DOMEN INTERNETOWYCH Z WYKORZYSTANIEM TEORII ZBIORÓW PRZYBLIONYCH. 11 Andrzej Grosser, Juliusz Mikoda, Norbert Sczygiol, Anna Wawszczak POSSIBILITIES OF USING MODERN TECHNIQUES AND TOOLS OF SOFTWARE ENGINEERING IN DESIGNING AND DEVELOPMENT OF NUMERICAL SIMULATION SYSTEMS... 25 Przemysław Klsk A COMPARISON OF CERTAIN GENERALIZATION BOUNDS OF LEARNING MACHINES FOR PRACTICAL APPLICATIONS... 35 Radosław Maciaszczyk, Ireneusz Dbski FUZJA DANYCH POMIAROWYCH W UKŁADACH IMU... 47 Wojciech Maleika, Michał Pałczyski, Dariusz Frejlichowski, Andrzej Stateczny ANALIZA DANYCH POMIAROWYCH ECHOSONDY WIELOWIZKOWEJ SIMRAD EM3000....... 55 Remigiusz Olejnik UWARUNKOWANIA BUDOWY SZYBKIEJ SIECI AX.25-OVER-IP NA TERENIE POLSKI... 65 Olga Siedlecka-Lamch A MINIMIZATION ALGORITHM OF 1-WAY QUANTUM FINITE AUTOMATA... 73 Krzysztof Makles MODELE ZEWNTRZNE I WEWNTRZNE W INTERAKTYWNEJ OPTYMALIZACJI WIZUALNEJ W TRYBIE BEZPOREDNIM... 81 Przemysław Korytkowski, Tomasz Winiewski SIMULATION-BASED OPTIMIZATION OF A MULTI-PRODUCT ASSEMBLY-TO-ORDER SYSTEM... 93 Paweł Ziemba, Mateusz Piwowarski DOBÓR PLATFORMY E-LEARNINGOWEJ ZA POMOC METODY PROMETHEE GDSS......... 109 Piotr Łosowski RODOWISKA ZWIRTUALIZOWANE W ZARZDZANIU PROCESAMI BIZNESOWYMI I EDUKACYJNYMI... 125

Rules induction on child well being Ewa Adamus, Przemysław Klęsk, Joanna Kołodziejczyk, Marcin Korzeń, Andrzej Piegat, Marcin Pluciński West Pomeranian University of Technology, Szczecin Faculty of Comupter Science and Information Technology Abstract: The aim of this research was to induct rules from a dataset obtained through a survey on child well-being that was performed in Poland Western Pomarania. For rule induction the exhaustive algorithm was used. The assessment of the strengths of found rules can be carried out and expressed in terms of: the conditional entropy and the Kullback-Leibler s number. Resulting rules are elements of a Pareto optimal set of derived rules, which are sensible and interesting. Each rule combines the functionings (activities during childhood) and subjective evaluation of childhood. Keywords: decision rule induction, child well being measurement, survey on childhood in Poland 1. Introduction Child well being is a multidimensional subject complex for interpretation and perception. Quantitive and qualitative variables must be used to describe it adequately. Traditional mathematical and statistical tools used for building economic decision support systems failed on quantitave data. Therefore other methods need to be employed for child well being modeling. This paper presents the application of a rule induction method to discover the dependencies between different children capabilities and corresponding childhood assessment. The measures of a rule strength used in the algorithm are the child well being indicators at the same time. The socioeconomic aspect of the paper is to establish a list of capabilities (A. K. Sen s capability approach [1]) with reference to children well being in Poland. The list of capabilities specific to child well being in Western countries and Italy in particular is defined in [2]. Poland can use the same list according to the criteria described in [2] and because it is a part of the EU. A capability subset consisting of life and physical health, social interaction, education and knowledge, leisure activities, play and bodily integrity was chosen. Mental well being was rejected because of in the past the professional psychological support was not common in Poland. Bodily integrity was substituted by safety of life. Capabilities are based on functionings i.e. activities which are specific for an individual and divided in certain areas. A questionnaire was constructed based on functionings selected for every capability. Further in the article a survey conducted in Poland using above mention questionnaire is described in details. Specified functionings and the profile of the average respondent is given. This paper is included in an international project Measuring Interaction between Quality of Life, Children Well-Being, Work And Public Policies supported by Fondazione Cassa di Risparmio di Modena Metody Informatyki Stosowanej, nr 4/2010 (25), s. 5-10 ISSN 1898-5297 Polska Akademia Nauk Oddział w Gdasku, Komisja Informatyki http://pan.wi.zut.edu.pl

6 Ewa Adamus, Przemysław Klęsk, Joanna Kołodziejczyk, et al. Moreover, the dataset is a source of information about the household structure, labour market and other economic and sociologic conditions in the questioned group. Some descriptive statistics were used to present this information. In the next part of the article a short description of the rules induction algorithm is presented. The interpretation of rule assessment measures used in the applied method is emphasized. Finally the set of derived rules is presented and interpreted. Conclusions outline functionings that are most interesting and surprising in the childhood assessment. 2. Survey on child well being A questionnaire meeting the Sen s capability approach requirements was prepared for the research. It included 26 questions of which only one was non retrospective. They yielded information about functionings during the childhood and subjective respondent opinion about them. The questions cover such areas as: personal information (e.g. age, sex) family details (siblings, parents age at respondent s birth) house conditions professional occupation of parents, job problems health-care interaction with father and mother (types of activities, games, etc.) after-school activities, hobbies primary school assessment safety, social life. Additionally, the use of supervised learning methods was predetermined therefore there were questions about childhood assessment. The subject of these questions were intensity of education, intensity of entertainment, health and physical fitness and living conditions taking into account the list of capabilities. Each capability was evaluated using a scale of 1(lowest mark) to 5 (highest mark). Each respondent was surveyed independently of his family members. The survey gathered 310 records mostly among students. The average respondent is a 23.15 year old young male (std. dev. of 4.3) (Figure 1 (a)), living in a city over 10 000 citizens (Figure 1 (b)). (a) Sex (b) Respondent s origin Figure 1. Respondents sex and origin There were different types of questions (Figure 2) resulting in numerical, nominal and binary answers. Finally 85 attributes were obtained, including 67% binary. Four of them were used as a decision (category) attribute to supervised learning methods.

Rules induction on child well being 7 Figure 2. Excerpt from the questionnaire 3. Preliminary data evaluation This section presents some preliminary calculations on the dataset. Some descriptive statistics were used to conclude dependencies between variables and some general tendencies in the data. Household structure can be delineate based on such variables as family composition, number of children, the size of the house/apartment and mother/father age at the respondent s birth. 91% of the respondents grew up in a family with two parents. The average number of siblings is 1,34 and 33% of the interviewed people come from large families (with 3 or more children) and only 14.85% were the only child. Based on the dataset the average age for women to give birth is 27.1 years (compare [3]) and the father is two years older. The dataset gives conclusions on the labour market in 1982-1992 that is in the period where 91% of the respondents were born which is presented in Figure 3. Manual labor is dominated by men and housekeeping by women. Women more often than men work at offices and are unemployed. Almost 62% of respondents reported occasional job problems in the family and only 1.6% a constant problem with employment. Figure 3. Job market based on samples From the whole dataset information about independent childhood estimation based on a support can be derived. The support (supp(y )) is simply the number of cases in the dataset agreeing with the assumed value of the attribute (in this case decision attribute (Y )). The support is sometimes expressed as a percentage of the total number of records in the database. The support measured for every decision variable is given in Table 1.

8 Ewa Adamus, Przemysław Klęsk, Joanna Kołodziejczyk, et al. Table 1. Subjective child well being estimation in the whole dataset supp(y ) Decision attribute (Y ) very poor/ poor/ neutral good/ intense very good/ weak weak intense (1) (2) (3) (4) (5) Education 0.032 0.039 0.368 0.452 0.097 Entertainment 0.013 0.029 0.171 0.516 0.261 Health 0.006 0.100 0.239 0.400 0.242 Living conditions 0.006 0.032 0.158 0.523 0.268 Average 0.015 0.050 0.234 0.473 0.217 Almost half of the studied samples estimated their childhood as good and an insignificant number of respondents assessed it as poor. It is rather natural, that most people remember mainly good things from the past. We tend to idealize childhood and forget unpleasant events. While most of the respondents were students the assumption can by made that an environment they grew up was normal to very secure. 4. Rules induction algorithm Based on the collected dataset rules in a following form can be extracted: if (CARE by NANNY = yes) and (EDUCATION LEVEL AT SCHOOL = average) } {{ } X=x then (INTENSITY OF EDUCATION = neutral) } {{ } Y =y where X is an antecedent and Y is a consequent of the rule. The antecedent can be composed of p terms connected with an and. In the presented example p =2. The greedy algorithm is used to induct decision rules [4]. n is the number of variables. p is the length of the antecedent (number of terms. m i is the domain size of the i-th variable. The algorithm works as follows: 1. Iterate over all ( n p) combinations of variables indices. 1.1 For a fixed combination (i 1,i 2,...,i p ) of variables, iterate over all settings (v 1,v 2,...,v p ) of values possible for these variables. The number of iterations is p j=1 m i j. 1.1.1 Consider the rule: r : if X i1 = v 1 and X i2 = v 2 and and X ip = v p then Y = y, where y is the most frequent decision for the antecedent. 1.1.2 Calculate supp(r), H(r) and KL(r) and memorize the rule. 2. Find Pareto-optimal rules within the set of all rules. where: H(r) =H(Y X = x) = y Y P (Y = y X = x)log 2 P (Y = y X = x) (1) is a conditional entropy given the fixed X and KL(r) =KL ( P (Y X = x) P (Y ) ) = y Y P (Y = y X = x)log 2 P (Y = y X = x) P (Y = y) (2)

Rules induction on child well being 9 is a Kullback-Leibler s divergence of the rule r. Entropy and Kullback-Leibler s number are measures that assess the rule. The conditional entropy attains the largest (so the worst) values for the rules having distributions of decisions P (Y X = x) close to uniform. On the other hand, the more the distribution P (Y X = x) is concentrated around a single decision value the closer the entropy is to zero (the better rule). The Kullback-Leibler s number specifically rewards those rules for which the distribution P (Y X = x) differs largely from the distribution P (Y ). One could say informally that by applying the Kullback-Leibler s number we look for surprising rules i.e. such ones that allow a good predict of rare decisions (which is more difficult) and not the frequent decisions (which is easy). 5. Results For every decision variable: intensity of education, intensity of entertainment, health and physical fitness and living conditions 22146 rules were searched (for p = 1 and p = 2). For each rule the entropy and the KL measure were determined. Pareto optimal rules were selected based on the KL and the support. There are some selected rules presented below. The numbers in the parenthesis are the support, the confidence confidence(p (Y = y X = x)), and last one is the KL measure respectively. 1. if (AFTER SCHOOL CLASSES DANCING = no) then (Y 1 = intense). (34/310) (0.67647) KL=0.24901. 2. if (CARE ACQUAINTANCES/NEIGHBORS = no) then (Y 1 = intense). (50/310) (0.64) KL=0.10827. 3. if (ACTIVITIES WITH FATHER PLAY (BLOCKS, DOLLS, ETC.) = no) and (ACTIVITIES WITH FATHER HOBBY = no) then (Y 1 = intense). (52/310) (0.67308) KL=0.27172. 4. if (MOTHER S JOB HANDWORK = yes) and (EDUCATION LEVEL AT SCHOOL = average) then (Y 1 = neutral). (83/310) (0.51807) KL=0.13116. 5.... Socioeconomic results connecting functionings in the antecedent part of the rule with subjective childhood assessment given in the consequent part of the rule are shown in Table 2. Some rules are not very intuitive and need a comment. For example the rule: if often need for health service then health/physical condition worse seems to confuse cause and effect. The rule induction algorithm cannot identify this and therefore some rules can sound unnatural. 6. Conclusions Child well being is difficult to model because it is a highly multidimensional problem described qualitatively as well as quantitatively. The main goal of the presented research was to obtain rules joining different aspects of childhood with its subjective assessment. To achieve this goal a survey was prepared and conducted. The dataset collected in the survey was a learning set for the greedy rule induction algorithm. Pareto optimal borders based on the Kullback-Leibler s number and the support indicated rules that were interesting and sensible. Some of the concluded rules are intuitive and common. For instance, if parents help their children at classes or there are a lot of books at home then children would show more interest towards education. Other rules stating that attending an unsafe school or poor education results in poor living conditions is a specific case of the general relationship between safety and living conditions. However, even sensible rules which confirm stereotypes are not interesting. The most valuable outcome were rules that are unusual or surprising. They can change a known model of child well being. For example it was discovered that fewer activities with

10 Ewa Adamus, Przemysław Klęsk, Joanna Kołodziejczyk, et al. Table 2. Emerging conclusions Consequent (then) Education intense Education neutral Entertainment intense Physical condition good Physical condition poor Living conditions good to very good Living conditions poor Antecedent (if) -few activities with parents -good level of education at school -parents helped children with classes -parents on pension or unemployed -many books at home -many activities with parents -many classes (music, dancing) -more contact with other people (nanny) -average or worse level of education at school -more contacts with friends, relatives -pets at home -safe school/neighborhood -parents at home (freelancer/pension) -nanny or private kindergarden -young parents -often contacts with relatives and friends -frequent camps -often need for health service -good education at school -very good opinion on health service -artistic activities -parent at home (even unemployed) and good school -unsafe school -rare contacts with relatives -poor education parents lead to more interest in education. If a child is loaded with after-school classes it s interest in education is lower. No rules with conclusions other than entertainment rated as intense were found. The reason is that playing is naturally associated with childhood and probably people see it in every activity during this early period of life. Therefore many different functionings were connected with intense entertainment. Rules on living conditions assessed as good join good opinions about such aspects of life like education, health service and artistic activities. In future research more samples are going to be used and the comparison with a dataset from another European country will be performed. References [1] A. K. Sen. Capability and Well-Being, pp. 30 54. The Quality of Life. Clarendon Press, Oxford, 1993. [2] T. Addabbo, M. D. Tommaso, G. Facchinetti. To what extent fuzzy set theory and structural equation modelling can measure functioningss? An application to child well being Materiali di Discussione del Dipartimento di Economia Politica, 468, 2004. [3] Report on women fertility 1960-2008. Technical report, Central Statistical Ofice, 2008. Available as http:///www.stat.gov.pl/ cps/ rde/ xbcr/ gus/ PUBL_population_structure_07_table7.xls. [4] P. Klęsk, M. Korzeń, W. Piesiak. Induction of decision rules for classification, Pareto-optimal rules: a case study on medical data set of blood DNA mutations and cancers. Polish Journal of Environmental Studies, 16(4A):116 119, 2007.

Wycena domen internetowych z wykorzystaniem teorii zbiorów przyblionych Marcin Gibert, Boena miałkowska Zachodniopomorski Uniwersytet Technologiczny w Szczecinie, Wydział Informatyki Abstract: This paper present principles, criteria and factors which are affecting the price of internet domain and procedure of the evaluation of any internet domain based on decision rules. These rules were deduced on the basis of historical data about prices of internet domains using the Rough Set Theory. Keywords: Price of internet domain, Rough Set Theory 1. Wprowadzenie Domeny internetowe jako wane czynniki wpływajce na warto witryn internetowych s przedmiotem handlu, który dynamicznie rozwija si zarówno w Polsce jak i na całym wiecie. Jedn z najwikszych polskich giełd domen internetowych jest Aftermarket.pl. Zasadniczym problemem handlu domenami jest okrelenie ich aktualnych wartoci. Wyceny domen dokonuj przede wszystkim specjalici. Czsto posługuj si przy wycenie wybranymi lingwistycznymi cechami tych domen, długoci nazwy domeny, tzw. potencjałem domeny w skali globalnej, statusem domen podobnych do wycenianej domeny, sytuacj prawn itp. Odmienn form wyceny domen internetowych s aplikacje oparte na oprogramowaniu, w tym równie aplikacje internetowe. Przykładem serwisu dokonujcego wyceny domen jest estibot.com. W tym przypadku wycena jest wykonywana na podstawie danych ze wczeniejszej sprzeday wycenianej domeny lub aktualnie wystawionych na sprzeda podobnych domen dostpnych w serwisie Sedo.com. Czynnikami, które s podstaw wyceny s potencjał zarobkowy danych domen według informacji pobranych z parkingu domen [6], warto PageRank, który okrela jako witryny [7] oraz historyczna odwiedzalno (ilo odwiedzin) wycenianej domeny. Omówione sposoby wyceny nie s zadawalajce. Dla przykładu algorytm estibot.com nie podaje realnej warto domeny typerzy.pl, wyceniajc j na zero, co dowodzi wydruk z tej aplikacji zamieszczony na rysunku 1. Głównym powodem niezadowalajcej wyceny domen jest trudno analizy duych iloci danych, ograniczony i niewłaciwy dobór kryteriów wyceny domen oraz zmienno czynników charakteryzujcych domen w czasie. W artykule zaprezentowano zasady wyceny, kryteria i czynniki wpływajce na warto domen oraz procedur wyceny dowolnej domeny w oparciu o reguły wyznaczone na podstawie historycznych danych o wczeniej zrealizowanych wycenach metod teorii zbiorów przyblionych (TZP). Zaprezentowan metod zilustrowano wynikami wyceny przykładowej domeny typerzy.pl. Metody Informatyki Stosowanej, nr 4/2010 (25), s. 11-24 ISSN 1898-5297 Polska Akademia Nauk Oddział w Gdasku, Komisja Informatyki http://pan.wi.zut.edu.pl

12 Marcin Gibert, Boena miałkowska Rysunek 1. Wycena domeny typerzy.pl przez serwis estibot.com (ródło: wydruk z aplikacji) 2. Kryteria i zasady wyceny domen internetowych Mona wymieni wiele a nawet kilkadziesit czynników wpływajcych na kocow warto domeny internetowej. Do najwaniejszych czynników mona zaliczy: Rozszerzenia domen domeny mona podzieli na domeny najwyszego poziomu TLD (ang. Top Level Domain); wyrónia si tu domeny globalne, krajowe (Np. dla Polski jest to rozszerzenie.pl), kontynentalne (Np..eu); domenami globalnymi s Np..com,.net,.org,.biz,.info[2]; w przypadku polskiego rynku domen najbardziej szerok jest domena typu cctld (ang. Country Code Top Level Domain) czyli w tym przypadku rozszerzenie.pl. Z domen wyszego poziomu tworzy si domeny pochodne: regionalne lub funkcjonalne (Np. waw.pl czy info.pl) [1]. Rodzaj domeny okrela czy w domenie uyte s diakrytyczne znaki narodowe charakterystyczne dla danego jzyka (Np. w domenie polskiej,,, ł,, ó,,, ). Niepodane znaki wprowadzone do nazwy domeny (Np. cyfry lub znak - ) w wikszoci przypadków drastycznie obniaj warto domeny[3]; ma to zwizek ze spadkiem i łatwoci szybkiego zapamitywania (Np. domeny stopprocent.com i 100procent.com s całkowicie róne, a wymawia si ich nazw jednakowo). Długo domeny liczona liczb znaków uytych w nazwie domeny; długo domeny wpływa na łatwo zapamitania oraz moliwo popełnia błdów w nazwie domeny (Np. literówki w przypadku długich nazw domen). Warto lingwistyczna ocena domeny pod ktem jzykowym (Np. domeny o specyficznej wartoci nazwy domeny) w aspektach fonetycznych, fonograficznych czy morfologicznych opisanych w literaturze [4]. Łatwo zapamitywania nazwy domeny. Potencjał marketingowy - oznaczony popularnoci słów kluczowych uytych w nazwie domeny (Np. zwizek z tematyk domeny, bran, mod, itd.)

Wycena domen internetowych z wykorzystaniem teorii zbiorów przyblionych 13 Łatwo pozycjonowania domeny w wyszukiwarkach internetowych uycie odpowiednich słów kluczowych w nazwie domeny moe ułatwi pozycjonowanie witryny internetowej w wyszukiwarkach[5]. Potencjalny ruch domeny mierzony biec odwiedzalnoci domeny. Sytuacja prawna domeny nazwa domeny moe by Np. zastrzeon mark firmy lub okrelonego produktu, co w konsekwencji moe spowodowa utrat domeny. Status podobnych domen czynnik okrelajcy czy domena o tej samej nazwie, ale z innym rozszerzeniem lub rodzajem domeny jest dostpna w rozległej sieci. Istnieje jeszcze wiele innych czynników, które maj potencjalny wpływ na warto domen internetowych. Wymienione powyej czynniki nale jednak do najczciej rozwaanych kryteriów wyceny domen, cho czsto stosuje si przy wycenach róne sposoby ich zestawiania, nadawania priorytetów tym kryteriom czy odmienne sposoby dyskretyzacji ich wartoci. Dokładne zasady wyceny domen internetowych s przewanie tajemnic firmow i nie s dostpne publicznie. Ogólnie dostpne s jednak zasady, które stosuje si przy wycenie domen. Przykładem takich zasad jest serwis Reklamy.org, w którym wymieniono jako kryteria wyceny współczynnik TLD, długo domeny, niepodane znaki, liczb słów, łatwo zapamitania, potencjał rozwoju, sił słów kluczowych, warto marketingow, moliwo pozycjonowania domeny, współczynnik potencjalnego ruchu, właciw wycen domeny w skali tanio - rednio drogo oraz informacje o istniejcych nazwach w innych rozszerzeniach domen. Przykładow wycen domeny typerzy.pl przez serwis Reklamy.org przedstawia rysunku 2. Rysunek 2. Wycena domeny typerzy.pl przez serwis Reklamy.org (ródło: wydruk z serwisu) Zrealizowana z uyciem serwisu Reklamy.org wycena domeny typerzy.pl znacznie róni si od wyceny zaprezentowanej przez serwis Estibot.com, przytoczonej na rysunku 1. Oznacza to, e problem wyceny domen internetowych jest wanym problemem. W jego rozwizaniu naley wykorzysta due zbiory danych o zrealizowanych wycenach oraz realizowa ten proces w czasie rzeczywistym z badaniem zmiennych w czasie reguł obowizujcych w procesie wyceny. Tak metod zaprezentowano w kolejnym rozdziale.

14 Marcin Gibert, Boena miałkowska 3. Ogólny algorytm wyceny domen Ogólny algorytm metody wyceny wartoci domeny D zaprezentowano na rysunku 3. Podstaw tego algorytmu jest baza danych o zrealizowanych wycenach dowolnych domen D 1, D 2,, D j, rónych od domeny D. Na podstawie danych o wartociach kryteriów oceny q 1, q 2,, q n dla domen D 1, D 2,, D j stosujc metod TZP mona wyznaczy ogólne reguły wyceny domen. Regułami tymi s reguł R 1, R 2,, R k. W oparciu o wartoci kryteriów oceny q 1, q 2,, q n dla domeny wycenianej D takie, e q i =value(q i ) dla i=1,2,,n (1) gdzie value(q i ) oznaczono warto wielkoci podanej jako argument tej funkcji, wyznacza si reguł R potwierdzan przez wartoci q 1, q 2,, q n. Prawa strona reguły R stanowi wycen domeny D. n=n+1 Wybór kryteriów wyceny domen q 1, q 2,, q n metod zbierania opinii ekspertów tak Czy nowe kryteria? j=j+1 Gromadzenie danych d j 1, d j 2,, d j n o sprzeday j-tej domeny D j gdzie d i i=value(q i ) dla i=1,2,,n, j=1,2, Generowanie reguł R 1, R 2,, R k metod TZP nie Czy wycena nowej domeny D? tak Obliczenie wartoci domeny D na podstawie cech q 1, q 2,, q n domeny D odpowiednich do q 1, q 2,, q n i zbioru reguł R 1, R 2, R k takich, e q i =value(q i ) Rysunek 3. Procedura wyceny domeny D na podstawie reguł i kryteriów wyznaczonych na podstawie historycznej ewidencji wycen zrealizowanych (ródło: opracowanie własne)

Wycena domen internetowych z wykorzystaniem teorii zbiorów przyblionych 15 4. Zastosowanie zbiorów przyblionych do generowania reguł wyceny domen internetowych W opracowaniu wyceny domen internetowych z zastosowaniem teorii zbiorów przyblionych dla uproszenia oblicze przyjto: Wyłcznie domeny z rozszerzeniem.pl. W analizie nie rozwaano domen typu IDN. Analiza nie uwzgldniała aspektów niepodanych znaków w nazwie domeny i zgodnoci z nazwami słownikowymi. Ze wzgldu na ograniczone moliwoci ilustracyjne metody do analizy wybrano tylko trzy najwaniejsze czynniki, bdce atrybutami warunkowymi analizy, co nie umniejsza stosowalnoci metody; atrybutami tymi były długo nazwy domeny, jej popularno oraz termin rejestracji domeny zwany dalej cigłoci rejestracji. Za atrybut decyzyjny analizy przyjto cen domeny. Według opinii decydenta atrybut warunkowy długo nazwy domeny, oznaczony symbolem q 1 mógł przyjmowa nastpujce wartoci: Długo krótka nazwa domeny złoona z mniej ni 8 liter. Długo rednia nazwa domeny złoona z liczby liter zawartej w przedziale od 8 do 14. Długo długa nazwa domeny złoona z wicej ni 14 liter. Do klasyfikacji atrybutu warunkowego popularno domeny (atrybut oznaczony symbolem q 2 ) uyto popularnoci nazwy domeny jako sława kluczowego, w wyszukiwarce Google.pl w regionie Polska z uyciem polskich znaków w dopasowaniu do wyraenia słowo kluczowe. Popularno domen została opisana nastpujcymi wartociami: Mała popularno poniej 18850 wyników, rednia popularno od 18850 do 520000 wyników, Dua popularno powyej 520000 wyników. Długo rejestracji domeny (atrybut warunkowy q 3 ) okrelono w oparciu o dane zaczerpnite z bazy WHOIS dostpnej na stronie www.whois.pl i okrelono nastpujco: Długo rejestracji krótka poniej 2 miesicy, rednia od 2 do 29 miesicy, Długi okres rejestracji domeny to powyej 29 miesicy. Atrybutem decyzyjnym cena domeny okrelił decydent zainteresowany wycen domen według nastpujcej zasady: Cena niska poniej 1305zł Cena rednia od 1305zł do 4288 zł Wysoka cena powyej 4288zł. Do wyznaczenia reguł decyzyjnych wyceny domen uyto dwadziecia jeden wzorcowych domen, które były wczeniej wycenione i dla których dostpne były dane o atrybutach warunkowych tych domen. Charakterystyk tych domen zaprezentowano w tabeli 1. Do wyznaczenia reguł obowizujcych w wycenie domen przyjto formy kodowe, odpowiednie do opisu lingwistycznego atrybutów warunkowych. Zaprezentowano je w tabelach 2, 3 i 4. Dla atrybutu decyzyjnego przyjto form kodujc zgodn z tabel 5.

16 Marcin Gibert, Boena miałkowska Tabela 1. Ceny sprzeday domen internetowych w cigu miesicy maj, czerwiec, lipiec, sierpie 2010 roku (ródło: AfterMarket.pl, Di.pl, PPD.pl, Sedo.com) Atrybuty warunkowe Atrybut decyzyjny Lp. Nazwa domeny Długo Popularno Cigło rejestracji Cena (q 1 ) (q 2 ) (q 3 ) (d) 1 Zakochanie.pl 10 102000 2 900 2 ZdrowyPorod.pl 11 362 1 1000 3 SzafyPrzesuwne.pl 14 766000 5 1000 4 SzkoleniaInternetowe.pl 20 19200 0 1050 5 AdaptacjeWnetrz.pl 15 557000 0 1100 6 PoradnikFinansowy.pl 17 10500 0 1125 7 DoradcaBankowy.pl 14 18500 0 1300 8 Kosmetykalaserowa.pl 17 31900 0 1310 9 Lezanki.pl 7 40800 0 1500 10 TwojePrzedszkole.pl 16 5210 33 2500 11 ZiemiaOgrodowa.pl 14 14500 13 3660 12 RusztowaniaBudowlane.pl 20 14200 15 3660 13 PracaDlaKsiegowych.pl 18 8850 8 3700 14 Tuniki.pl 6 483000 21 4026 15 Drut.pl 4 565000 114 4550 16 Budowlaniec.pl 11 160000 24 4600 17 Podatekvat.pl 10 1660000 37 7320 18 Lala.pl 4 401000 41 10000 19 Matma.pl 5 2890000 49 43000 20 Material.pl 8 7020000 81 81000 21 Magazyny.pl 8 1500000 78 132000 Tabela 2. Zakodowana forma długoci domen Dane wejciowe Forma zakodowana krótka 1 rednia 2 długa 3 Tabela 3. Zakodowana forma popularnoci domen Dane wejciowe Forma zakodowana mała 1 rednia 2 dua 3

Wycena domen internetowych z wykorzystaniem teorii zbiorów przyblionych 17 Tabela 4. Zakodowana forma cigłoci rejestracji domen Dane wejciowe Forma zakodowana krótka 1 rednia 2 długa 3 Tabela 5. Zakodowana forma cen domen Dane wejciowe Forma zakodowana niska 1 rednia 2 wysoka 3 Powysze formy kodujce pozwoliły na utworzenie tabeli informacyjnej w formie tabeli 6. Wyodrbniono w niej elementarne zbiory warunkowe E j odpowiadajce unikalnym regułom wynikajcym z bazy przykładów U. W pełnym zbiorze trzech atrybutów warunkowych (q 1, q 2, q 3 ) wyznaczono 14 elementarnych zbiorów warunkowych wyselekcjonowanych z 21 przykładów oraz elementarne zbiory decyzyjne Xi (koncepty). Wizualizacje wszystkich przykładów przyporzdkowanych odpowiednim elementarnym zbiorom warunkowym w rzucie na przestrze atrybutów warunkowych przedstawia rysunek 4. Nastpnym etapem oblicze było okrelenie iloci reguł pewnych wygenerowanych na bazie wszystkich przykładów sprzeday domen oraz wyznaczenie przecitnego stopienia zrozumienia decyzji. W tym celu obliczono dolne przyblienia konceptów DP(Xi), które zawieraj wyłcznie elementarne zbiory warunkowe z pewnymi regułami oraz iloci przykładów card(dp(xi)) nalecych do dolnych przyblie. Na podobnych zasadach oszacowano równie górne przyblienie konceptów GP(Xi), które wyodrbniaj wszystkie przykłady z elementarnych zbiorów warunkowych nalecych do poszczególnych konceptów oraz obliczono iloci przykładów card(gp(xi)) nalece do górnych przyblie. Górne i dolne przyblienie konceptów odpowiednio GP(Xi) oraz DP(Xi) zaprezentowano w tabeli 7. Rozmieszczenie wygenerowanych reguł w przestrzeni atrybutów warunkowych zaprezentowano graficznie na rysunku 4, dolne przyblienia w formie graficznej prezentuje rysunek 5 za górne odpowiednio na rysunku 6. Pozytywny obszar rodziny konceptów decyzyjnych F oznaczony jako Pos(F) jest w tym przypadku zgodny ze wzorem (2). Oznacza to, e: Pos(F) = E2 E3 E5 E7 E8 E10 E11 E12 E13 E14 (2) Pos(F) = [ 2 3 5 6 7 9 10 11 12 13 14 15 17 18 19 20 21] (3) Ilo przykładów w pozytywnym obszarze wynosi 17, a ilo wszystkich przykładów jest równa 21. Ostatecznie jako przyblienia (F) obliczana jest zgodnie ze wzorem (4) (4)

18 Marcin Gibert, Boena miałkowska gdzie: (F) jako przyblienia rodziny konceptów decyzyjnych F, card(pos(f) liczebno pozytywnego obszaru rodziny konceptów decyzyjnych F, card(u) liczebno przykładów. Lp. Atrybuty warunkowe Długo (q 1 ) Tabela 6. Tabela informacyjna w formie zakodowanej Popularno (q 2 ) Cigło rejestracji (q 3 ) 1 2 2 2 E 1 1 2 2 1 1 E 2 1 3 2 3 2 E 3 1 4 3 2 1 E 4 1 5 3 3 1 E 5 1 6 3 1 1 E 6 1 7 2 1 1 E 2 1 8 3 2 1 E 4 2 9 1 2 1 E 7 2 10 3 1 3 E 8 2 11 2 1 2 E 9 2 12 3 1 2 E 10 2 13 3 1 2 E 10 2 14 1 2 2 E 11 2 15 1 3 3 E 12 3 16 2 2 2 E 1 3 17 2 3 3 E 13 3 18 1 2 3 E 14 3 19 1 3 3 E 12 1 20 1 3 3 E 12 3 21 1 3 3 E 12 3 E i Cena X 1 X 2 X 3 X i Poszczególne przykłady przyporzdkowane do odpowiednich elementarnych zbiorów warunkowych to: E 1 ={1,16} E 5 ={5} E 9 ={11} E 13 ={17} E 2 ={2,7} E 6 ={6} E 10 ={12,13} E 14 ={18} E 3 ={3} E 7 ={9} E 11 ={14} E 4 ={4,8} E 8 ={10} E 12 ={15,19,20,21}

Wycena domen internetowych z wykorzystaniem teorii zbiorów przyblionych 19 Rysunek 4. Rozmieszczenie reguł w przestrzeni atrybutów warunkowych (q 1, q 2, q 3 ) (ródło: opracowanie własne) Zbiory decyzyjne konceptów X i X1 [1,2,3,4,5,6,7] X2 [8,9,10,11,12,13,14] X3 [15,16,17,18,19,20,21] Tabela 7. Tabela dolnego i górnego przyblienia konceptów Dolne przyblienie konceptów DP(X i ) card(dp(x i )) Górne przyblienie konceptów GP(X i ) card(gp(x i )) [2,3,5,6,7] 5 [1,2,3,4,5,6,7,8,16] 9 [9,10,11,12,13,14] 6 [4,8,9,10,11,12,13,14] 8 [15,17,18,19,20,21] 6 [1,15,16,17,18,19,20,21] 8 Dokładno przyblienia konceptu Xi obliczana jest według wzoru 5: gdzie: (Xi) dokładno przyblienia konceptu decyzyjnego Xi, card(dp(xi)) liczebno dolnego przyblienia konceptu decyzyjnego Xi, (5)

20 Marcin Gibert, Boena miałkowska card(gp(xi)) liczebno górnego przyblienia konceptu decyzyjnego Xi. Z przytoczonych oblicze wynika, e jako przyblienia rodziny konceptów decyzyjnych wynosi 0,81 (81% przykładów wykorzystanych w obliczeniach pozwala na generowanie reguł pewnych) za dokładno przyblie kolejnych konceptów decyzyjnych jest równa (X1) = 0,55, (X2) = 0,75, (X3) = 0,75. Rysunek 5. Dolne przyblienie DP(X i ) konceptów decyzyjnych (ródło: opracowanie własne) Dokładno przyblienia rodziny konceptów decyzyjnych F obliczana jest zgodnie ze wzorem (6): gdzie: (F) dokładno przyblienia rodziny konceptów decyzyjnych F, card(pos(f)) liczno pozytywnego obszaru rodziny konceptów decyzyjnych F, card(gp(xi)) liczebno górnego przyblienia konceptu decyzyjnego Xi. Ostatecznie obliczono dokładno przyblienia rodziny konceptów decyzyjnych F, który wyniósł (F) = 0,68. (6)