EKSPLORACJA DANYCH DLA OPTYMALIZACJI KAMPANII MARKETINGOWYCH W SIECI SPOŁECZNEJ



Podobne dokumenty
Drzewa decyzyjne. Inteligentne Obliczenia. Wydział Mechatroniki Politechniki Warszawskiej. Anna Sztyber

Transformacja wiedzy w budowie i eksploatacji maszyn

DRZEWA KLASYFIKACYJNE W BADANIACH SATYSFAKCJI

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

Drzewa decyzyjne i lasy losowe

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań

Analiza Sieci Społecznych Pajek

Data mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych

ALGORYTM RANDOM FOREST

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Testowanie modeli predykcyjnych

Indukowane Reguły Decyzyjne I. Wykład 3

Centralność w sieciach społecznych. Radosław Michalski Social Network Group - kwiecień 2009

10. Redukcja wymiaru - metoda PCA

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Inżynieria biomedyczna

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

StatSoft profesjonalny partner w zakresie analizy danych

Od Expert Data Scientist do Citizen Data Scientist, czyli jak w praktyce korzystać z zaawansowanej analizy danych

Specyfika i zasady przyznawania punktów w ramach kryteriów merytorycznych fakultatywnych

Systemy uczące się Lab 4

Analiza Sieci Społecznych Pajek

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Analiza wykonalności dla wskaźnika: dostępność obszarów pod zabudowę

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III

Sieć społeczna przedsiębiorcy w teorii i praktyce zarządzania małą firmą

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Rozmyte drzewa decyzyjne. Łukasz Ryniewicz Metody inteligencji obliczeniowej

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

Omówienie specyfiki i zasad przyznawania punktów w ramach kryteriów merytorycznych fakultatywnych

Jak przygotować artykuł naukowy? Podział na grupy i wybór tematu projektu. Projekt zespołowy 2017/2018 Zbigniew Chaniecki Krzysztof Grudzień

Zastosowanie sztucznej inteligencji w testowaniu oprogramowania

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

Sterowanie procesem i jego zdolność. Zbigniew Wiśniewski

ZASTOSOWANIE TECHNIK DATA MINING W BADANIACH NAUKOWYCH

Badania eksploracyjne Badania opisowe Badania wyjaśniające (przyczynowe)

ZARZĄDZANIE PROCESAMI I PROJEKTAMI. Zakres projektu. dr inż. ADAM KOLIŃSKI ZARZĄDZANIE PROCESAMI I PROJEKTAMI. Zakres projektu. dr inż.

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Optymalizacja systemów

Badania marketingowe. Źródło:

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Proces badawczy schemat i zasady realizacji

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

Tom 6 Opis oprogramowania

Scoring kredytowy w pigułce

Metodologia badań psychologicznych

Analiza danych. TEMATYKA PRZEDMIOTU

Metody badawcze. Metodologia Podstawowe rodzaje metod badawczych

Wykrywanie nietypowości w danych rzeczywistych

Sylabus. Zaawansowana analiza danych eksperymentalnych Advanced analysis of experimental data

Wprowadzenie do analizy korelacji i regresji

Etapy modelowania ekonometrycznego

Generacja Y o mediach społecznościowych w miejscu pracy

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Wykład I. Wprowadzenie do baz danych

ED Laboratorium 3. Drzewa decyzyjne

SKORING JAKO NARZĘDZIE WSPIERAJĄCE SPÓŁDZIELCZE KASY OSZCZĘDNOŚCIOWO-KREDYTOWE W SPEŁNIENIU NOWYCH WYMAGAŃ NADZORCZYCH


SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Ewaluacja w polityce społecznej

JAK EFEKTYWNIE I POPRAWNIE WYKONAĆ ANALIZĘ I RAPORT Z BADAŃ BIEGŁOŚCI I WALIDACJI PRAKTYCZNE WSKAZÓWKI

WSPOMAGANIE ANALIZY DANYCH ZA POMOCĄ NARZĘDZI STATISTICA

Statystyka i Analiza Danych


Część 2: Data Mining

w ramach na rzecz rozwoju ICT studia podyplomowe

Pojęcie bazy danych. Funkcje i możliwości.

ANALIZA SIECI SPOŁECZNYCH W ZARZĄDZANIU

Symfonia Finanse i Księgowość

Konto Basic (bezpłatne)

Omówienie specyfiki i zasad przyznawania punktów w ramach kryteriów merytorycznych fakultatywnych

Metodyka projektowania komputerowych systemów sterowania

Sieci Społeczne i Analiza Sieci. P. Kazienko and K. Musial Instytut Informatyki Stosowanej, Politechnika Wrocławska Wrocław, 25 Października 2007

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

Metody zbiorów przybliżonych w uczeniu się podobieństwa z wielowymiarowych zbiorów danych

Social Media Część 1 Trendy w korzystaniu. Luty 2017

Widzenie komputerowe (computer vision)


Detaliczny rynek części zamiennych, eksploatacyjnych i akcesoriów do samochodów osobowych w Polsce 2014 Analiza rynku i prognozy rozwoju na lata

NOWY MODEL PROMOCJI ZDROWIA I EDUKACJI ZDROWOTNEJ. Podręcznik metodologiczny dla personelu medycznego i paramedycznego

Porównanie czasu wykonania wybranych przekształceń przestrzennych dla programów GIS: ArcGIS i QGIS

Spis treści. Analiza i modelowanie_nowicki, Chomiak_Księga1.indb :03:08

Michał Kozielski Łukasz Warchał. Instytut Informatyki, Politechnika Śląska

CO WIE SMARTFON? ROZPOZNAWANIE AKTYWNOŚCI CZŁOWIEKA METODAMI KLASYFIKACYJNYMI STATISTICA DATA MINER

PODEJMOWANIE DECYZJI KIEROWNICZYCH W PROCESIE NEGOCJACJI BIZNESOWYCH. Autor: mgr inż. Viktoriia Gromova. Wrocław 2012 r.

Internetowy system e-crm do obsługi biura podróży. Marek Bytnar, Paweł Kraiński

Ćwiczenie 6 - Hurtownie danych i metody eksploracje danych. Regresja logistyczna i jej zastosowanie

15 Października Onet Audience. Nowa jakość dotarcia do konsumenta!

netsprint Firma i produkty artur.banach@netsprint.eu 1

Text mining w programie RapidMiner Michał Bereta

Ewelina Dziura Krzysztof Maryański

IBM Business Analytics

Szkolenia SAS Cennik i kalendarz 2017

MODELOWANIE KOSZTÓW USŁUG ZDROWOTNYCH PRZY

Znaczenie klastrow dla innowacyjności gospodarki w Polsce

Wykład 2 Rola otoczenia w procesie formułowania strategii organizacji

MODELOWANIE STANÓW CZYNNOŚCIOWYCH W JĘZYKU SIECI BAYESOWSKICH

OPISU MODUŁU KSZTAŁCENIA (SYLABUS) dla przedmiotu Koncepcje zarządzania na kierunku Administracja

Transkrypt:

EKSPLORACJA DANYCH DLA OPTYMALIZACJI KAMPANII MARKETINGOWYCH W SIECI SPOŁECZNEJ Jerzy Surma, Szkoła Główna Handlowa Biznesowe wykorzystanie sieci społecznych jest naturalną konsekwencją ich niezwykle intensywnego rozwoju w ostatnich latach. Informacje uzyskane o uczestnikach danej społeczności mogą być podstawą do trafnego rozpoznawania ich potrzeb i w efekcie dostosowywania spersonalizowanych komunikatów marketingowych. W przedstawionym badaniu zostanie omówiony model analityczny (C&RT) dla zadania maksymalizacji reakcji (respons) w kampanii marketingowej prowadzonej w internetowym serwisie społecznościowym. Przedstawiony model ma na celu ilustrację zagadnienia wykorzystania zaawansowanych metod eksploracji danych w celu biznesowego wykorzystania sieci społecznych oraz związanych z tym problemów badawczych. Wprowadzenie Dane, jakie są współcześnie rejestrowane w kontekście użytkowania serwisu społecznościowego, można podzielić na dane związane z konkretnym użytkownikiem (np. wiek, płeć, miejsce zamieszkania itp.), reprezentowane przez zmienne indywidualne, oraz dane opisujące relacje z innymi użytkownikami sieci (np. częstość kontaktów z innymi użytkownikami, rodzaj kontaktów, liczba zaproszeń od innych osób, liczba komentarzy do wpisów na blogu itp.), reprezentowane przez zmienne relacyjne. Oba wspomniane rodzaje danych mogą mieć charakter deklaratywny 8 albo behawioralny, tj. wynikający z rzeczywistych zachowań użytkownika w sieci społecznej. Ten behawioralny wymiar danych pozostawianych przez duże zbiorowości użytkowników powiązany z ich znaczącym wolumenem, np. w przypadku wielomiesięcznych i intensywnych aktywności, pozwala na przeprowadzanie istotnych statystycznie badań w ramach analiz sieciowych (social network analysis) (Wasserman, Faust 2009). Zastosowanie metod eksploracji danych (data mining) w tym obszarze wydaje się zatem obiecującym podejściem 9. 8 Na przykład deklarowany wiek i płeć w formularzu rejestracyjnym. 9 Patrz rozdział: Graph Mining, Social Network Analysis, and Multirelational Data Mining w podręczniku Hana i Kambera (Han, Kamber 2006). Copyright StatSoft Polska 2010 www.statsoft.pl/czytelnia.html 15

W następnym rozdziale zostanie przedstawiony prosty model analityczny dla zadania klasyfikacji zbudowany w oparciu o drzewo decyzyjne typu C&RT (Breimann i inni, 1984), w celu predykcji reakcji na komunikat marketingowy (Chiu, Tavella 2008). Model został zbudowany w wykorzystaniem danych otrzymanych dla deklarowanych zmiennych indywidualnych oraz behawioralnych zmiennych relacyjnych. Charakterystyka badanej sieci społecznej Sieć społeczna użyta w prezentowanym badaniu jest rzeczywiście funkcjonującym serwisem społecznościowym dla profesjonalistów, liczącym kilkadziesiąt tysięcy aktywnych użytkowników. Fragment sieci, który podlegał analizie, jest opisany w tabeli 1, która zawiera zestaw klasycznych wskaźników używanych w badaniu sieci społecznych (Knoge, Yang 2008). Analizowana sieć odzwierciedla cechy charakterystyczne dla tzw. małych światów (Watts 1999), tzn. jest dobrze powiązana (największy komponent obejmuje ponad 90% węzłów 10 ), ma niski średni stopień liczby powiązań pomiędzy danym węzłem a jego sąsiadami (5,88) oraz relatywnie krótką ścieżkę powiązań (3,53). Rysunek 1 ilustruje powiązania pomiędzy losowo wybranymi węzłami sieci. Omówiona charakterystyka odzwierciedla stan sieci w okresie, kiedy były przeprowadzone badania omówione w następnym rozdziale 11. Tabela 1. Charakterystyka badanego podzbioru sieci społecznej. Wskaźnik Wartość Members 19 593 Total number of vertices 3025 Number of components 90 Number of vertices in giant component 2828 Density 0,002 Average friends number 5,88 Betweenness centrality 0,21 Clustering coefficient 0,23 Average path length 3,53 Źródło: (Surma, Furmanek 2010). 10 Number of vertices in giant component/ Number of components (patrz tabela 1). 11 Należy podkreślić dużą dynamikę zmian struktury badanej sieci społecznej, która nie jest reprezentowana w przedstawionych wskaźnikach sieciowych. 16 www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 2010

Rys. 1. Przykład powiązań wybranych węzłów sieci (źródło: opracowanie własne z wykorzystaniem oprogramowania NetDraw 2.096). Badania eksperymentalne Badania eksperymentalne zostały wykonane na podstawie wyników kampanii marketingowej przeprowadzonej na losowo wybranej grupie użytkowników serwisu społecznościowego. W ramach kampanii wysłano e-mail z reklamą do wylosowanych użytkowników. Reakcja była określona jako pozytywna, kiedy użytkownik otworzył e-mail, potwierdził link w nim zawarty i w efekcie otworzył stronę WWW reklamodawcy. W przeciwnym przypadku reakcja była interpretowana jako negatywna. Odpowiednia zmienna celu (respons) została zdefiniowana jako zmienna jakościowa o dwuelementowym zbiorze wartości {YES, NO}. Badania eksperymentalne z wykorzystaniem drzew decyzyjnych typu C&RT umożliwiły wygenerowanie klasyfikatora, który umożliwiał osiągniecie responsu wynoszącego 6,4% na zbiorze testującym. Jest to wynik statystycznie lepszy (p=0,01) od losowego responsu wynoszącego 3,7% (Surma, Furmanek 2010). Model analityczny w tym badaniu został opracowany na podstawie 62 zmiennych dostępnych w systemie bazy danych zaprojektowanym i wdrożonym na potrzeby funkcjonowania serwisu. Copyright StatSoft Polska 2010 www.statsoft.pl/czytelnia.html 17

Tabela 2. Rodzaje zmiennych badanej sieci społecznej. Rodzaje zmiennych Liczba Przykładowe zmienne Indywidualne 25 voivodeship (województwo), branch (branża), title (tytuł), sex (płeć), age (wiek) itp. Relacyjne 37 days_from_mod (liczba dni od ostatniej modyfikacji), sent_invitation_sum (liczba odebranych zaproszeń), groups_joint (liczba zadeklarownych grup) itp. Relacyjne SNA 12 6 degree, fareness, ncloseness, clustercoefficient, npairs, Betweenness Źródło: opracowanie własne. Tabela 3. Ranking ważności 10 najistotniejszych zmiennych ze względu na zmienną celu. Źródło: opracowanie własne z wykorzystaniem oprogramowania STATISTICA 9.1. Interesujące jest określenie potencjalnej korzyści, jaka wynika z dostępności wiedzy o relacjach społecznych użytkowników. W tym celu podzielono badane zmienne na: indywidualne i relacyjne. Dodatkowo rozbudowano badanie o 6 zmiennych reprezentujących klasyczne zmienne sieciowe. W wyniku otrzymano 68 zmiennych (patrz tabela 2). Następnie opracowano 795-elementowy ciąg uczący, gdzie 536 elementów było pozytywnych (respons=yes) i odpowiednio 259 negatywnych (response=no). Wstępna analiza ważności zmiennych (patrz tabela 3) wskazuje na duże znaczenie zmiennych relacyjnych. W pierwszej dziesiątce najistotniejszych zmiennych znalazło się pięć zmiennych relacyjnych, w tym trzy typu SNA. Z wykorzystaniem 795 elementów ciągu uczącego wygenerowano binarne drzewo decyzyjne, którego strukturę przedstawiono na rys. 2. W korzeniu tego drzewa oraz na pierwszym i drugim poziomie pojawiły się zmienne indywidualne. Zmienne relacyjne pojawiły się na niższych poziomach drzewa, natomiast zmienne typu 12 Definicje zmiennych SNA są zgodne z systemem Ucinet (Borgatti, Everett, Freeman 2002). 18 www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 2010

SNA w ogóle nie zostały użyte. Przeprowadzone badanie pokazuje brak użyteczności zmiennych relacyjnych w optymalizacji analizowanej kampanii marketingowej. Rys. 2. Struktura drzewa wygenerowanego dla 795 elementów ciągu uczącego (źródło: opracowanie własne z wykorzystaniem oprogramowania STATISTICA 9.1). Podsumowanie Otrzymane wyniki wykazują niewielką użyteczność zmiennych relacyjnych i de facto niewykorzystanie wartości dodanej, jakie potencjalnie istnieje w eksploracji sieci społecznych. Ten rezultat może być wynikiem następujących czynników: Niereprezentatywność ciągu uczącego: trudności w dostępie do danych potrzebnych do obliczenia zmiennych relacyjnych typu SNA ograniczyły ciąg uczący do 795 elementów. Charakterystyka tego ciągu (67% pozytywnych elementów) nie odpowiada rzeczywistości, gdzie liczność pozytywnych elementów jest zwykle poniżej 5%. Potwierdziły to badania testowe procedurą 10-cross-fold, gdzie uzyskano ponadnormatywnie wysoką dokładność klasyfikacji. Słabość sieci: badana sieć wykazuje relatywnie niski poziom więzi międzyludzkich (patrz tabela 1), co mogło implikować brak wpływu zmiennych relacyjnych na zmienną celu. Copyright StatSoft Polska 2010 www.statsoft.pl/czytelnia.html 19

Nieadekwatność zmiennych: użyte zmienne relacyjne ograniczają się do czysto ilościowego opisania złożonych relacji międzyludzkich. Duża liczba znajomych, aktywność na grupach dyskusyjnych wcale nie oznacza głębokich więzi społecznych. Użyte zmienne relacyjne w ogóle nie odwołują się do semantyki relacji, ograniczając się wyłącznie do ich ilościowego ujęcia. Brak zależności: wątpliwe jest powiązanie przyczynowe pomiędzy użytymi zmiennymi relacyjnymi a zmienną celu, czyli reakcją na kampanię marketingową. To zagadnienie wydaje się kluczowe, gdyż zmienne indywidualne wybrane jako istotne w drzewie decyzyjnych są semantycznie związane z produktem oferowanym w reklamie. Możliwa jest w tym kontekście wiarygodna interpretacja poszczególnych gałęzi drzewa. Brak pomiaru: jest uzasadnione podejrzenie, że użytkownicy sieci mogli wymieniać między sobą wiadomości na temat reklamowanego produktu, np. poprzez rekomendacje, dyskusje, zapytania itp. Tego typu zachowania społeczne, mające istotny wpływ na wyniki kampanii marketingowej, nie były mierzone. Spełnienie powyższych czynników implikuje nietrywialne problemy badawcze w kontekście opracowania adekwatnych metod eksploracji danych. Istotne zagadnienia naukowe wymagające rozwiązania to eksploracja danych: o dynamicznej charakterystyce, silnie uzależnionych funkcyjnie od upływu czasu (temporal data mining), tekstowych (text mining), o złożonej strukturze, tj. relacyjnych (multirelational data mining) i reprezentowanych w postaci grafów (graph mining), odwołujących się do wiedzy dziedzinowej (ontology) i mających interpretację semantyczną, wymagających dużych mocy obliczeniowych ze względu na złożoność obliczeniową algorytmów sieciowych. W powyższym kontekście użycie metod eksploracji w badaniu sieci społecznych jest jednym z największych wyzwań badawczych stojących przed współczesną analityką danych. Badania tego typu są już intensywnie prowadzone i to nie tylko w kontekście niezwykłego wyzwania intelektualnego, ale również przewidywanych korzyści biznesowych. Podziękowania. Autor pragnie podziękować Pani Annie Furmanek za przygotowanie ciągu uczącego omawianego w niniejszym artykule. Literatura 1. Borgatti, S.P., Everett, M.G., Freeman L.C. Ucinet 6 for Windows: Software for Social Network Analysis. Harvard Analytic Technologies, 2002. 2. Breiman, L., Friedman, J,. Stone, C.J., Olshen, R. Classification and regression trees, Chapman & Hal, 1984. 20 www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 2010

3. Chiu, S.,Tavella, D. Data mining and market intelligence for optimal marketing returns, Elsevier, 2008. 4. Han, J., Kamber, M. Data Mining. Concepts and Techniques. Morgan Kaufmann, 2006. 5. Knoge, D., Yang, S. Social Network Analysis, Sage Publications, 2008. 6. Watterman, S., Faust, K. Social Network Analysis. Methods and Applications, Cambridge University Press, 2009. 7. Watts, D.J. Small worlds: the dynamics of networks between order and randomness, Princeton University Press, 1999. 8. Surma J., Furmanek A. Improving marketing response by data mining in social network. The 2nd International Conference on Mining Social Networks for Decision Support, Odense, 2010. Copyright StatSoft Polska 2010 www.statsoft.pl/czytelnia.html 21