Lingwistyczne podsumowania baz danych. Inteligentne generowanie streszczeń Instytut Informatyki, Politechnika Łódzka Katowice, 29 stycznia 2010 r.
Problematyka Bazy i hurtownie danych olbrzymia ilość liczb...... a ludzka percepcja jest ograniczona Wymagania użytkowników Przyjazna, naturalna reprezentacja danych czytelność danych i wiedzy język naturalny znaczenie i kontekst objaśnianie, podsumowywanie
Problematyka Bazy i hurtownie danych olbrzymia ilość liczb...... a ludzka percepcja jest ograniczona Wymagania użytkowników Przyjazna, naturalna reprezentacja danych czytelność danych i wiedzy język naturalny znaczenie i kontekst objaśnianie, podsumowywanie
Problematyka Bazy i hurtownie danych olbrzymia ilość liczb...... a ludzka percepcja jest ograniczona Wymagania użytkowników Przyjazna, naturalna reprezentacja danych czytelność danych i wiedzy język naturalny znaczenie i kontekst objaśnianie, podsumowywanie
Reprezentacja wyrażeń nieprecyzyjnych Lingwistyczne podsumowania baz danych Reprezentacja wyrażeń nieprecyzyjnych Zbiór rozmyty A = { x, µ A (x) : x X} (1) µ A : X [0, 1] funkcja przynależności [Zadeh 1965] Własność zbiór posiadających ją obiektów
Reprezentacja wyrażeń nieprecyzyjnych Lingwistyczne podsumowania baz danych Reprezentacja wyrażeń nieprecyzyjnych Zbiór rozmyty A = { x, µ A (x) : x X} (1) µ A : X [0, 1] funkcja przynależności [Zadeh 1965] Własność zbiór posiadających ją obiektów
Reprezentacja wyrażeń nieprecyzyjnych Lingwistyczne podsumowania baz danych ORAZ, LUB, NIE - iloczyn, suma, dopełnienie zb. rozm. BARDZO, MNIEJ WIECEJ, PRAWIE - modyfikatory, hedges operacje na funkcjach przynależności, np. potęgowanie Wyrażenia kwantyfikowane lingwistycznie ) T ( Q x ów jest S) = µ Q (card(s) ( ) card(s W) T ( Q x ów, które są W, jest S) = µ Q card(w) (2) (3) gdzie: S, W zbiory rozmyte w X, Q kwantyfikator rozmyty np. OKOŁO POŁOWY studentów ma WYSOKA ŚREDNIA
Reprezentacja wyrażeń nieprecyzyjnych Lingwistyczne podsumowania baz danych ORAZ, LUB, NIE - iloczyn, suma, dopełnienie zb. rozm. BARDZO, MNIEJ WIECEJ, PRAWIE - modyfikatory, hedges operacje na funkcjach przynależności, np. potęgowanie Wyrażenia kwantyfikowane lingwistycznie ) T ( Q x ów jest S) = µ Q (card(s) ( ) card(s W) T ( Q x ów, które są W, jest S) = µ Q card(w) (2) (3) gdzie: S, W zbiory rozmyte w X, Q kwantyfikator rozmyty np. OKOŁO POŁOWY studentów ma WYSOKA ŚREDNIA
Reprezentacja wyrażeń nieprecyzyjnych Lingwistyczne podsumowania baz danych ORAZ, LUB, NIE - iloczyn, suma, dopełnienie zb. rozm. BARDZO, MNIEJ WIECEJ, PRAWIE - modyfikatory, hedges operacje na funkcjach przynależności, np. potęgowanie Wyrażenia kwantyfikowane lingwistycznie ) T ( Q x ów jest S) = µ Q (card(s) ( ) card(s W) T ( Q x ów, które są W, jest S) = µ Q card(w) (2) (3) gdzie: S, W zbiory rozmyte w X, Q kwantyfikator rozmyty np. OKOŁO POŁOWY studentów ma WYSOKA ŚREDNIA
Reprezentacja wyrażeń nieprecyzyjnych Lingwistyczne podsumowania baz danych Lingwistyczne podsumowania baz danych Większość pracowników ma średnią pensję 1-sza forma, Q I, [Yager 1982] ( ) d T = µ i D µ S (d i ) Q D Większość pracowników około 30 lat, ma średnią pensję 2-ga forma, Q II, [Kacprzyk, Yager, Zadrożny 2001] ( d T = µ i D µ S (d i ) µ W (d i ) Q d i D µ W (d i ) ) (4) (5) gdzie D = {d 1, d 2,..., d m }
Reprezentacja wyrażeń nieprecyzyjnych Lingwistyczne podsumowania baz danych Lingwistyczne podsumowania baz danych Większość pracowników ma średnią pensję 1-sza forma, Q I, [Yager 1982] ( ) d T = µ i D µ S (d i ) Q D Większość pracowników około 30 lat, ma średnią pensję 2-ga forma, Q II, [Kacprzyk, Yager, Zadrożny 2001] ( d T = µ i D µ S (d i ) µ W (d i ) Q d i D µ W (d i ) ) (4) (5) gdzie D = {d 1, d 2,..., d m }
Reprezentacja wyrażeń nieprecyzyjnych Lingwistyczne podsumowania baz danych Około połowy pracowników ma około 30 lat [0.61]. Znacznie więcej niż 2000 pracowników ma wyższe wykształcenie [0.74]. Około połowy pracowników zarabia blisko 4000 [0.53]. Wielu pracowników ma wyższe wykształcenie i zarabia blisko 4000 [0.36]
Reprezentacja wyrażeń nieprecyzyjnych Lingwistyczne podsumowania baz danych Około połowy pracowników ma około 30 lat [0.61]. Znacznie więcej niż 2000 pracowników ma wyższe wykształcenie [0.74]. Około połowy pracowników zarabia blisko 4000 [0.53]. Wielu pracowników ma wyższe wykształcenie i zarabia blisko 4000 [0.36]
Reprezentacja wyrażeń nieprecyzyjnych Lingwistyczne podsumowania baz danych Około połowy pracowników ma około 30 lat [0.61]. Znacznie więcej niż 2000 pracowników ma wyższe wykształcenie [0.74]. Około połowy pracowników zarabia blisko 4000 [0.53]. Wielu pracowników ma wyższe wykształcenie i zarabia blisko 4000 [0.36]
Reprezentacja wyrażeń nieprecyzyjnych Lingwistyczne podsumowania baz danych Około połowy pracowników ma około 30 lat [0.61]. Znacznie więcej niż 2000 pracowników ma wyższe wykształcenie [0.74]. Około połowy pracowników zarabia blisko 4000 [0.53]. Wielu pracowników ma wyższe wykształcenie i zarabia blisko 4000 [0.36]
Reprezentacja wyrażeń nieprecyzyjnych Lingwistyczne podsumowania baz danych Około połowy pracowników ma około 30 lat [0.61]. Znacznie więcej niż 2000 pracowników ma wyższe wykształcenie [0.74]. Około połowy pracowników zarabia blisko 4000 [0.53]. Wielu pracowników ma wyższe wykształcenie i zarabia blisko 4000 [0.36]
Reprezentacja wyrażeń nieprecyzyjnych Lingwistyczne podsumowania baz danych Około połowy pracowników ma około 30 lat [0.61]. Znacznie więcej niż 2000 pracowników ma wyższe wykształcenie [0.74]. Około połowy pracowników zarabia blisko 4000 [0.53]. Wielu pracowników ma wyższe wykształcenie i zarabia blisko 4000 [0.36]
Reprezentacja wyrażeń nieprecyzyjnych Lingwistyczne podsumowania baz danych Około połowy pracowników ma około 30 lat [0.61]. Znacznie więcej niż 2000 pracowników ma wyższe wykształcenie [0.74]. Około połowy pracowników zarabia blisko 4000 [0.53]. Wielu pracowników ma wyższe wykształcenie i zarabia blisko 4000 [0.36]
Reprezentacja wyrażeń nieprecyzyjnych Lingwistyczne podsumowania baz danych Około połowy pracowników ma około 30 lat [0.61]. Znacznie więcej niż 2000 pracowników ma wyższe wykształcenie [0.74]. Około połowy pracowników zarabia blisko 4000 [0.53]. Wielu pracowników ma wyższe wykształcenie i zarabia blisko 4000 [0.36]
Prace bieżące Ostatnie publikacje Kacprzyk, Zadrożny 1995 FQUERY for MS Access George, Srikanth 1996 zastosowanie alg. genetycznych Kacprzyk, Strykowski 1996 wspomaganie marketingu Ochelska 2001 podsumowania dokumentów medycznych Kacprzyk, Zadrożny 2003 protoformy, podsumowania interaktywne i przez internet Kacprzyk, Wilbik 2007 podsumowania szeregów czasowych wiele innych
Prace bieżące Ostatnie publikacje Kacprzyk, Zadrożny 1995 FQUERY for MS Access George, Srikanth 1996 zastosowanie alg. genetycznych Kacprzyk, Strykowski 1996 wspomaganie marketingu Ochelska 2001 podsumowania dokumentów medycznych Kacprzyk, Zadrożny 2003 protoformy, podsumowania interaktywne i przez internet Kacprzyk, Wilbik 2007 podsumowania szeregów czasowych wiele innych
Prace bieżące Ostatnie publikacje Kacprzyk, Zadrożny 1995 FQUERY for MS Access George, Srikanth 1996 zastosowanie alg. genetycznych Kacprzyk, Strykowski 1996 wspomaganie marketingu Ochelska 2001 podsumowania dokumentów medycznych Kacprzyk, Zadrożny 2003 protoformy, podsumowania interaktywne i przez internet Kacprzyk, Wilbik 2007 podsumowania szeregów czasowych wiele innych
Prace bieżące Ostatnie publikacje Kacprzyk, Zadrożny 1995 FQUERY for MS Access George, Srikanth 1996 zastosowanie alg. genetycznych Kacprzyk, Strykowski 1996 wspomaganie marketingu Ochelska 2001 podsumowania dokumentów medycznych Kacprzyk, Zadrożny 2003 protoformy, podsumowania interaktywne i przez internet Kacprzyk, Wilbik 2007 podsumowania szeregów czasowych wiele innych
Prace bieżące Ostatnie publikacje Kacprzyk, Zadrożny 1995 FQUERY for MS Access George, Srikanth 1996 zastosowanie alg. genetycznych Kacprzyk, Strykowski 1996 wspomaganie marketingu Ochelska 2001 podsumowania dokumentów medycznych Kacprzyk, Zadrożny 2003 protoformy, podsumowania interaktywne i przez internet Kacprzyk, Wilbik 2007 podsumowania szeregów czasowych wiele innych
Prace bieżące Ostatnie publikacje Kacprzyk, Zadrożny 1995 FQUERY for MS Access George, Srikanth 1996 zastosowanie alg. genetycznych Kacprzyk, Strykowski 1996 wspomaganie marketingu Ochelska 2001 podsumowania dokumentów medycznych Kacprzyk, Zadrożny 2003 protoformy, podsumowania interaktywne i przez internet Kacprzyk, Wilbik 2007 podsumowania szeregów czasowych wiele innych
Prace bieżące Problematyka Prace bieżące Ostatnie publikacje Podsumowania danych rozmytych poprzez type-2 fuzzy sets Przyspieszone i/lub nowe algorytmy obliczania degrees of truth Miary jakości podsumowań Gramatyka i fleksja podsumowań Interfejsy użytkownika i eksperta/-ów GD O(n log n) MVCP O(n) T 1 T 5, T 6 T 11, I, SP( ), descriptors Jęz. słowiańskie Wykresy JChart, format XML
Prace bieżące Problematyka Prace bieżące Ostatnie publikacje Podsumowania danych rozmytych poprzez type-2 fuzzy sets Przyspieszone i/lub nowe algorytmy obliczania degrees of truth Miary jakości podsumowań Gramatyka i fleksja podsumowań Interfejsy użytkownika i eksperta/-ów GD O(n log n) MVCP O(n) T 1 T 5, T 6 T 11, I, SP( ), descriptors Jęz. słowiańskie Wykresy JChart, format XML
Prace bieżące Problematyka Prace bieżące Ostatnie publikacje Podsumowania danych rozmytych poprzez type-2 fuzzy sets Przyspieszone i/lub nowe algorytmy obliczania degrees of truth Miary jakości podsumowań Gramatyka i fleksja podsumowań Interfejsy użytkownika i eksperta/-ów GD O(n log n) MVCP O(n) T 1 T 5, T 6 T 11, I, SP( ), descriptors Jęz. słowiańskie Wykresy JChart, format XML
Prace bieżące Problematyka Prace bieżące Ostatnie publikacje Podsumowania danych rozmytych poprzez type-2 fuzzy sets Przyspieszone i/lub nowe algorytmy obliczania degrees of truth Miary jakości podsumowań Gramatyka i fleksja podsumowań Interfejsy użytkownika i eksperta/-ów GD O(n log n) MVCP O(n) T 1 T 5, T 6 T 11, I, SP( ), descriptors Jęz. słowiańskie Wykresy JChart, format XML
Prace bieżące Problematyka Prace bieżące Ostatnie publikacje Podsumowania danych rozmytych poprzez type-2 fuzzy sets Przyspieszone i/lub nowe algorytmy obliczania degrees of truth Miary jakości podsumowań Gramatyka i fleksja podsumowań Interfejsy użytkownika i eksperta/-ów GD O(n log n) MVCP O(n) T 1 T 5, T 6 T 11, I, SP( ), descriptors Jęz. słowiańskie Wykresy JChart, format XML
Prace bieżące Ostatnie publikacje Nadal olbrzymi i niewykorzystany potencjał aplikacyjny Barwise a i Coopera teoria uogólnionej kwantyfikacji (TGQ) ponad 30 rodzajów kwantyfikatorów lingwistycznych (!) Rozszerzenia zbiorów rozmytych Przedziałowe zbiory rozmyte Intuicjonistyczne zbiory rozmyte oraz I-fuzzy sets Zbiory rozmyte typu 2 Zbiory przybliżone Pawlaka Nowe implementacje, w połączeniu np. z Fuzzy SQL
Prace bieżące Ostatnie publikacje Nadal olbrzymi i niewykorzystany potencjał aplikacyjny Barwise a i Coopera teoria uogólnionej kwantyfikacji (TGQ) ponad 30 rodzajów kwantyfikatorów lingwistycznych (!) Rozszerzenia zbiorów rozmytych Przedziałowe zbiory rozmyte Intuicjonistyczne zbiory rozmyte oraz I-fuzzy sets Zbiory rozmyte typu 2 Zbiory przybliżone Pawlaka Nowe implementacje, w połączeniu np. z Fuzzy SQL
Prace bieżące Ostatnie publikacje Nadal olbrzymi i niewykorzystany potencjał aplikacyjny Barwise a i Coopera teoria uogólnionej kwantyfikacji (TGQ) ponad 30 rodzajów kwantyfikatorów lingwistycznych (!) Rozszerzenia zbiorów rozmytych Przedziałowe zbiory rozmyte Intuicjonistyczne zbiory rozmyte oraz I-fuzzy sets Zbiory rozmyte typu 2 Zbiory przybliżone Pawlaka Nowe implementacje, w połączeniu np. z Fuzzy SQL
Ostatnie publikacje Prace bieżące Ostatnie publikacje Niewiadomski, A., On Finity, Countability, Cardinalities, And Cylindric Extensions of Type-2 Fuzzy Sets in Linguistic Summarization of Databases, IEEE Transactions on Fuzzy Systems, 2010, (w druku). Niewiadomski, A., Korczak, O., Methods of evaluating degrees of truth for linguistic summaries of data: a comparative analysis. Lecture Notes in Artificial Intelligence, 2010, (w druku). Niewiadomski, A., On type-2 fuzzy logic and linguistic summarization of databases, Bulletin of the Section of Logic, Vol. 38, Nr 3/4, 2009, ss. 215 227. Niewiadomski, A., Methods for the Linguistic Summarization of Data: Applications of Fuzzy Sets and Their Extensions. Akademicka Oficyna Wydawnicza EXIT, 2008. Seria IBS PAN, Badania Systemowe, tom 60. Niewiadomski, A., A type-2 fuzzy approach to linguistic summarization of data, IEEE Transactions on Fuzzy Systems, Vol. 16, Nr 1, 2008, ss. 198-212. Niewiadomski, A., Ochelska, J., Szczepaniak, P. S., Interval- valued linguistic summaries of databases, Control and Cybernetics, Vol. 35, Nr 2, 2006, ss. 415-444.