Seminarium Nowe przewagi konkurencyjne - technologia, informacja, społeczność Bogna Zacny Warszawa, 13.11.2015
Zespół Wydział Informatyki i Komunikacji Katedra Inżynierii Wiedzy Agata Berdowska Krzysztof Kania Tomasz Staś Bogna Zacny
WYKORZYSTANIE INFORMACJI W KREOWANIU PRZEWAGI KONKURENCYJNEJ
Agenda Wykorzystanie informacji w kreowaniu przewagi konkurencyjnej gospodarka oparta na wiedzy informacja jako źródło przewagi konkurencyjnej Big Data
Dane, informacja i wiedza Dane reprezentacja obiektów świata zewnętrznego, dobranych w celu zapamiętania faktów, zdarzeń, prawidłowości. Przedstawionych w sformalizowanej postaci, umożliwiającej przekazywanie i dokonywanie na nich różnorodnych czynności przetwarzania
Dane, informacja i wiedza Informacja (teoria jakościowa) oznacza znaczenie, treści jakie przy zastosowaniu odpowiedniej konwencji przyporządkowuje się danym. Informacja ustala znaczenie danych w relacji do wyspecyfikowanego kontekstu działania lub wypowiedzi
Dane, informacja i wiedza Wiedza wykracza poza informacje, gdyż implikuje zdolność do rozwiązywania problemów, do inteligentnego zachowania i działania. To usystematyzowana informacja, będąca wynikiem celowego nagromadzenia lub wypadkową doświadczeń w odniesieniu do poszczególnych obszarów działalności.
Dane, informacja i wiedza Dane Informacja Wiedza Fakty, liczby, tekst Znajomość rzeczy Zdolność do efektywnego działania
Gospodarka oparta na wiedzy Gospodarka Oparta na Wiedzy (Knowledge Based Economy) Nowa gospodarka (New Economy), Gospodarka cyfrowa (Digital Economy) Gospodarka sieciowa (Network Economy)
Gospodarka oparta na wiedzy Podstawowe znaczenie we współczesnej gospodarce odgrywają nie tylko czynniki materialne (hardware, zasoby finansowe), jak to było do tej pory, ale w coraz większym stopniu wiedza. Wiedza: kodyfikowana niekodyfikowana Paul Michael Romer
Rodzaje wiedzy Wiedza ukryta (Tacit) Wiedza z doświadczenia Wiedza przejawiająca się w zastosowaniu Wiedza analogowa (praktyka) Przykład: Umiejętności manualne Wiedza jawna (Explicit) Wiedza z wnioskowania Wiedza którą można wyrazić Wiedza cyfrowa (teoria) Przykład: Formuła matematyczna
Zarządzanie wiedzą cechy wiedzy Cechy odróżniające wiedzę od innych zasobów (Alvin Toffler) Dominacja - wiedza zajmuje priorytetowe miejsce wśród pozostałych zasobów, ma ona strategiczne znaczenie dla funkcjonowania każdego przedsiębiorstwa; Niewyczerpalność - oznacza to, że wartość zasobów wiedzy nie zmniejsza się gdy jest przekazywana;
Zarządzanie wiedzą cechy wiedzy Symultaniczność - wiedza może być w tym samym czasie wykorzystywana przez wiele osób, w wielu miejscach jednocześnie; Nieliniowość - brak jednoznacznej korelacji pomiędzy wielkością zasobów wiedzy a korzyściami z tego faktu wynikającymi. Posiadanie dużych zasobów wiedzy nie decyduje bezpośrednio o przewadze konkurencyjnej.
Zarządzanie wiedzą Zarządzanie wiedzą to ogół procesów umożliwiających: tworzenie, upowszechnianie, wykorzystywanie wiedzy do realizacji celów organizacji.
Fazy modelu procesowego Pozyskiwanie Adaptacja Tworzenie Nabywanie wiedzy Gromadze nie wiedzy Przechowywani Kodyfikacja Wykorzysta nie wiedzy Wizja Technologie Produkty/usługi Dzielenie się wiedzą Transmisja Absorpcja
Big Data cechy Jedną z charakterystyk, jest zaproponowany przez Doug a Laney a z firmy Gartner w 2001 roku, model 3V Variety Volume Velocity
Big Data cechy Volume (objętość), który oznacza gigantyczny przyrost danych w bardzo szybkim tempie.
Big Data cechy Velocity (szybkość przetwarzania), rozumiana jako szybkość napływu danych. Ciągły napływ danych jest nazywany strumieniowym. Jakakolwiek interakcja lub przeanalizowanie danych napływających strumieniowo w czasie rzeczywistym wymaga ogromnej mocy obliczeniowej. Taką moc udostępniają nowe rozwiązania technologiczne na przykład farmy serwerów czy chmury obliczeniowe
Big Data cechy Variety (różnorodność), oznaczająca, iż zgromadzone dane zostały uzyskane z wielu różnych źródeł i są zapisywane w różnych formatach o niejednorodnej strukturze. Dane posiadające określony typ i format to dane strukturalne (structured), dane które posiadają tylko elementy struktury wewnętrznej nazywane są semistrukturalnymi (semi-struktured) oraz dane nie posiadające żadnej struktury noszą miano niestrukturalnych (unstructured).
Big Data cechy Firma IBM, która oprócz atrybutów wymienionych w modelu 3V dodatkowo uwzględniła cechę Veracity czyli wiarygodność. Atrybut ten oznacza konieczność weryfikacji pozyskiwanych danych. Należy uwzględnić fakt, że dane umieszczane w Internecie przez użytkowników nie zawsze są prawdziwe, co w konsekwencji wpłynie na nieprawdziwość wysuniętych wniosków.
Big Data cechy Istnieje również model 5V z atrybutem Value (wartość), ponieważ przetwarzanie BIG Data zmierza w swej istocie do uzyskania pewnej wartości - takiej wyjątkowej i nieznanej wcześniej wiedzy która zostaje wydobyta poprzez analizę dużych i złożonych danych i która może być wykorzystana do osiągnięcia jakiejś korzyści.
Co może być taką wartością? Dzięki możliwości automatycznego monitorowania treści opinii internautów w serwisach społecznościowych, automatycznej analizy treści e- maili, blogów ogłoszeń, ocen klientów pozostawianych na portalach aukcyjnych i w serwisach porównujących ceny itp., śledzenia przedmiotów włączonych w Internet Rzeczy, przedsiębiorcy wzbogacą swą wiedzę na temat:
Co może być taką wartością? postrzegania ich produktów, usług, organizacji przez klientów, opinii klientów na temat kampanii reklamowych i sponsorskich, reakcji klientów i kontrahentów na nowe produkty lub zmiany w produkowanym asortymencie, oczekiwań klientów co do rozwoju i kierunków doskonalenia produktów firmy, opinii kontrahentów na temat organizacji, interakcji pomiędzy kontrahentami.
Skąd bierze się wartość w BD? Jednym z podstawowych sposobów odnajdowania zależności pomiędzy zjawiskami oraz opisu rzeczywistości są metody drążenia danych (Data Mining).
Drążenia danych automatyczne odkrywanie nietrywialnych, dotychczas nieznanych, zależności, związków, podobieństw lub trendów - ogólnie nazywanych wzorcami (patterns) - w dużych repozytoriach danych.
Drążenia danych Statystyka Data Mining Uczenie maszynowe AI Bazy danych
Zadania drążenia danych Regresja Analiza wariancji Regresja prosta Analiza dyskryminacji Regresja logistyczna
Zadania drążenia danych Redukcja wymiaru cech analiza czynnikowa (analiza składowych głównych), skalowanie wielowymiarowe, analiza korespondencji analiza skupień. Grupowanie Hierarchiczne Niehierarchiczne (iteracyjno-optymalizacyjne)
Zadania drążenia danych Klasyfikacja Drzewa klasyfikacyjne i regresyjne Algorytmy reguł decyzyjnych Sztuczne sieci neuronowe Asocjacja Analiza koszykowa Analiza wzorców sekwencji
Analiza regresji Zbiór metod wykorzystywany do: oceny oczekiwanej wartości zmiennej y w oparciu o wartości zmiennych objaśniających X, oceny współczynników b, oceny poprawności i dopasowania modelu (funkcji regresji). y zmienna ilościowa, x 1, x 2,, x k zmienne ilościowe lub jakościowe.
Zmienna y Gdy zmienna y nie jest zmienną ilościową nie można stosować metod regresji liniowej.
Analiza dyskryminacji Metoda regresji stosowana gdy zmienna objaśniana (y) jest zmienną nominalną. Analiza funkcji dyskryminacyjnej jest stosowana do rozstrzygania, które zmienne pozwalają w najlepszy sposób dzielić dany zbiór przypadków na występujące w naturalny sposób grupy.
Regresja logistyczna Metoda regresji stosowana gdy zmienna objaśniana (y) jest zmienną binarną Cecha jest zmierzona na skali dychotomicznej (przyjmuje tylko dwie wartości).
Redukcja wymiaru cech Istotą metod redukcji wymiaru cech jest fakt istnienia silnej korelacji pomiędzy zmiennymi, które w rzeczywistości mogą mierzyć to samo zjawisko tylko z różnych punktów widzenia.
Redukcja wymiaru cech Celem metod redukcji wymiaru jest: zmniejszenie liczby elementów opisujących, wyeliminowania ze zbioru danych zmiennych silnie (funkcyjnie) zależnych od innych cech wybranych do budowy modelu, stworzenie struktury pozwalającej na przejrzystą interpretację zmiennych ukrytych.
Metody redukcji wymiaru Wyróżnia się wiele metod redukcji wymiaru przestrzeni cech: analiza czynnikowa (analiza składowych głównych), skalowanie wielowymiarowe, analiza korespondencji analiza skupień grupowanie cech.
Analiza czynnikowa pozwala na zidentyfikowanie nieskorelownych liniowych kombinacji zmiennych, użytych do celów budowy modelu gdzie każda zmienna jest wyjaśniana przez czynniki.
Skalowanie wielowymiarowe W analizie czynnikowej podobieństwa między obiektami (np. zmiennymi) są wyrażone w postaci macierzy korelacji. Przy pomocy skalowania wielowymiarowego oprócz macierzy korelacji, można analizować dowolny rodzaj macierzy podobieństwa lub odmienności. Zmierza do uporządkowania "obiektów" w przestrzeni o danej liczbie wymiarów, tak aby odtworzyć zaobserwowane odległości.
Analiza korespondencji Technika analizy tablic dwudzielczych i wielodzielczych, zawierających pewne miary charakteryzujące powiązanie między kolumnami i wierszami.
Grupowanie Grupowanie obiektów polega na znajdowaniu skończonego zbioru klas (podzbiorów) w bazie danych. Celem grupowania jest podział zbioru na stosunkowo homogeniczne (jednorodne, zgodne) grupy (klasy) zwane klastrami (skupieniami) różniące się względem siebie.
Grupowanie - zastosowania określanie segmentów rynku na podstawie cech klientów, redukcja wymiaru przestrzeni cech na te decydujące o zmienności zjawiska.
Drzewa klasyfikacyjne i regresyjne Metody regresji wymagają spełnienia wielu rygorystycznych założeń. Jeżeli wymogi teoretyczne i założenia dotyczące rozkładów oczekiwane przez metody tradycyjne nie są spełnione zalecana jest analiza przy pomocy drzew klasyfikacyjnych i regresyjnych. y zmienna jakościowa drzewa klasyfikacyjne y zmienna ilościowa drzewa regresyjne
Klasyfikacja Znajdowanie odwzorowywania danych w zbiór predefiniowanych klas (podzbiorów). Celem klasyfikacji jest budowa modelu (klasyfikatora) który służy do klasyfikowania nowych obiektów w bazie danych lub głębszego zrozumienia istniejącego podziału obiektów na predefiniowane klasy
Klasyfikacja Baza danych zawiera obiekty opisane atrybutami (cechami nazywanymi deskryptorami), z których jeden jest atrybutem decyzyjnym Wartości atrybutu decyzyjnego dzielą zbiór krotek na predefiniowane klasy, składające sie z krotek o tej samej wartości atrybutu decyzyjnego
Klasyfikacja - zastosowania identyfikacja cech kredytobiorców wiarygodnych i niewiarygodnych, analiza churn.
Odkrywanie reguł asocjacji odkrywanie asocjacji pomiędzy atrybutami, analiza podobieństwa - wspólnego występowania, analiza koszyka sklepowego (koszykowa),
Reguły asocjacji - zastosowania odkrycie grup objawów wskazujących określoną chorobę budowa modelu wspomagającego decyzję lekarza, odkrycie grup produktów kupowanych podczas jednej transakcji promocje cenowe.
Odkrywanie wzorców sekwencji - zastosowania odkrycie grup produktów kupowanych podczas kolejnych transakcji, przewidywanie sprzedaży.
Technologie Big Data Przetwarzanie ogromnych zbiorów danych wymaga nie tylko odpowiednich metod, ale również stosownej infrastruktury. Najczęściej aby można było przeprowadzić takie analizy jak te, opisane wyżej potrzebne są potężne komputery oraz wielkie zasoby pamięci i przestrzeni dyskowej.
Technologie Big Data W przetwarzania BIG DATA stosuje się obecnie m.in. takie technologie jak: chmura obliczeniowa (cloud computing), platforma Hadoop, bazy danych następnej generacji - NoSQL, narzędzia do wizualizacji
Chmura obliczeniowa Chmura obliczeniowa jest to platforma, która zawiera zarówno sprzęt informatyczny (serwerownie) jak i oprogramowanie udostępniane przez Internet. Moc obliczeniowa chmury może być dowolnie zwiększana, odpowiednio do potrzeb użytkownika.
Chmura obliczeniowa
Chmura obliczeniowa
Platforma Hadoop Platforma Apache Hadoop jest biblioteką programów umożliwiających analizę BIG DATA z dużych rozproszonych zbiorów danych strukturalnych i niestrukturalnych. Oferuje gromadzenie i przetwarzanie danych realizowane przy pomocy nawet do 1000 połączonych serwerów.
Platforma Hadoop Elementy składowe Apache Hadoop to: Hadoop Common wspólne narzędzia, które umożliwiają rozwijanie innych modułów Hadoop; Hadoop Distributed File System (HDFS) jego zadaniem jest przechowywanie i zarządzanie plikami na rozproszonych komputerach i zapewnianie wysokiej przepustowości pomiędzy danymi; Hadoop YARN realizuje zarządzanie zasobami i obliczeniami w klastrach oraz tworzy harmonogramy zadań użytkowników;
Platforma Hadoop Hadoop MapReduce jest to program pozwalający tworzyć aplikacje do przetwarzania ogromnych ilości danych równolegle na wielu klastrach oraz mechanizm, umożliwiający podział zbioru danych na mniejsze kawałki, które później są analizowane oddzielnie, ale równolegle, a następnie łączący ze sobą otrzymane wyniki.
Bazy danych NoSQL Tradycyjne bazy danych w których posługujemy się językiem SQL mają swoje ograniczenia działają na danych ustrukturalizowanych. Przetwarzanie danych różnorodnych wymagało przygotowanie nowych mechanizmów, które właśnie dla odróżnienia od tradycyjnej technologii nazwano NoSQL, co oznacza nie tylko SQL.
Bazy danych NoSQL NoSQL skupia się wokół koncepcji rozproszonych baz danych, gdzie dane niestrukturalne mogą być składowane w wielu węzłach przetwarzania. Rozproszona architektura pozwala na skalowanie (powiększanie) poziome bazy danych NoSQL, czyli w sytuacji gwałtownego przyrostu danych można dodać dodatkowe węzły, dzięki czemu przetwarzanie danych nie zostaje spowolnione.
DZIĘKUJĘ ZA UWAGĘ zacny@ue.katowice.pl
Źródła Gołuchowski J. [red.nauk] (2011) Wprowadzenie do inżynierii wiedzy. Podręcznik akademicki, Difin SA, Warszawa. K. Porwit, Cechy gospodarki opartej na wiedzy, [w:] A. Kukliński (red.) (2001) Gospodarka oparta na wiedzy. Wyzwanie dla Polski XXI wieku, Komitet Badań Naukowych, Warszawa. E. Dyson, G. Gilder, G. Keyworth, A. Toffler (1994) Cyberspace and the American Dream: A Magna Carta for the Knowledge Age. In: Future Insight 1.2. The Progress & Freedom Foundation. M. Tabakow, J. Korczak, B. Franczyk, (2014) BIG DATA Definicje, wyzwania i technologie informatyczne, [w:] INFORMATYKA EKONOMICZNA BUSINESS INFORMATICS 1(31),ISSN 1507-3858. http://infografika.wp.pl/title,91-proc-polskich-uzytkownikow-komputerow-niewie-co-to-cloud-computing,wid,14946645,wiadomosc.html http://www-01.ibm.com/software/data/bigdata/images/4-vs-of-big-data.jpg http://www.thecloudist.com/?p=1737 http://blogs.gartner.com/doug-laney/files/2012/01/ad949-3d-data-management- Controlling-Data-Volume-Velocity-and-Variety.pdf https://datajobs.com/what-is-hadoop-and-nosql https://hadoop.apache.org/