120 mln odsłon, 500 mln zdarzeń, miliardy impresji i rekomendacji, dziennie. I co z tego? Big Data w poszukiwaniu actionable data. Mariusz Trejtowicz Grupa Onet - Ringier Axel Springer
2 skala czyli codla nas oznacza tzw. Big Data?
3 marki Grupa Onet-RAS to oprócz największego zasięgowo portalu w Polsce również szereg innych marek internetowych lub prasowych z witrynami w Internecie, które generują ilości danych bez wątpienia mieszczące się w tzw. Big Data.
4 dane Przykładowy jeden dzień z życia hurtowni danych, wtorek, 17.05.2016: brak znaczących wydarzeń, wydarzeniem dnia na Onecie jest Wielka Gala Gwiazd Plejady. 17.05.2016: 73,4 mln kliknięć 247 234 clk 194 782 clk 120 539 clk 132,1 mln odsłon 239 mln zdarzeń wideo 223 mln żądań do systemu reklamy (kilka do kilkunastu impresji reklamy każda) 1 mld rekomendacji (logowanych)..
5 rozwiązania Niektóre technologie wykorzystywane w składowaniu, przetwarzaniu lub udostępnianiu danych:
6 sukcesy czyli czym możemy się pochwalić?
7 testy SG Dla sukcesu portalu bardzo ważne są działające w czasie bliskim rzeczywistego narzędzia wspierające proces wydawniczy: klikmapaobrazująca aktualną popularność treści, testy wielowariantowe, narzędzia pokazujące trendy popularności treści. Umiemy dobrze wykorzystywać dane dla zdyskontowania zainteresowania użytkowników angażującymi wydarzeniami, jak np. 5 goli Roberta Lewandowskiego w meczu z VfL Wolfsburg.
8 eksperymentowanie Orientację na dane wspierają środowiska eksperymentalne, pozwalające równolegle testować różne warianty rozwiązań funkcjonalnych, np.. kolor tła bloczka, różne logiki zarządzania prezentacją reklamy wideo, rozwiązania rekomendacyjne.
9 personalizacja Mamy techniczne możliwości oraz dowiedliśmy efektywności budowania strony głównej Onet w pełni spersonalizowany sposób = różne treści prezentowane różnym użytkownikom.
10 kultura Często problemem w budowie organizacji zorientowanej na dane jest kultura organizacyjna. Onet-RAS ma bardzo silną kulturę zorientowaną na decyzje oparte na wynikach i faktach, jak również wysoką gotowość po stronie biznesowej do wykorzystania danych. Ludzie i ich potencjał, to nasza najsilniejsza strona, również w obszarze Big Data. Nabardzo niewiele oczekiwań biznesowych rzeczywiście jednak odpowiadamy poprzez udostępnienie właściwych danych
11 wyzwania czyli dlaczego nie jesteśmy zadowoleni?
12 użytkownik Nie umieliśmy wyjść w analizach poza ograniczenia wielości stosowanych metod identyfikacji użytkownika. Przykład: na stronie Onet użytkownik może mieć co najmniej trzy różne identyfikatory budowane na podstawie ciasteczek (o medianie czasu życia poniżej 60 dni), z możliwością różnienia się wersji tych samych identyfikatorów pomiędzy co najmniej dwoma domenami, dla których są one nadawane; kolejnym, niepowiązanym identyfikatorem jest identyfikator użytkownika zalogowanego; kolejnym: identyfikator w Google Analytics. Raportowana ilość unikalnych użytkowników miesięcznie w hurtowni to 80-90 mln. Rzeczywista ilość ludzi (tzw. realny użytkownik ), którzy co najmniej raz miesięcznie trafiają na nasze serwisy, szacowana badawczo, jest ponad 4-krotnie mniejsza. 82 mln UU miesięcznie???
13 lojalność Wiemy, że klikalność, to nie wszystko. Wiemy, że w długookresowej perspektywie większe znaczenia ma zaangażowanie oraz lojalność użytkownika. Nie umiemy ich dobrze mierzyć.
14 wartość Dla efektywnego zarządzania treścią potrzebujemy znać jej wartość. Dla efektywnego zarządzania relacjami z użytkownikiem, potrzebujemy znać jego wartość. Dla efektywnego zarządzania wartością uzyskiwaną z kontaktu z użytkownikiem, potrzebujemy zrozumieć wartość tego kontaktu. Każde z powyższych zagadnień jest olbrzymim wyzwaniem. KONTENT KONTAKT UŻYTKOWNIK
15 konkluzja czyli jak uniknąć przytłoczenia ciężarem Big Data i zbudować podejście oparte na actionable data
16 Big Data Jesteśmy w sytuacji Big Data, czyli sytuacji 4 V: Volume = ilość danych surowych przewyższająca możliwości relacyjnych hurtowni danych Velocity = dane dostępne w czasie bardzo bliskim rzeczywistego Variety = zróżnicowane formaty przechowywania i udostępniania danych, wielość źródeł Veracity = różne wersje prawdy w zależności od źródła danych lub przyjętych założeń Czy to jest powód do dumy?
17 actionable data Jakich zbiorów danych potrzebujesz, żeby rozwiązać swój problem? Jak nie dać się przytłoczyć Big Data. TEZA 1.: Konstruuj niewielkie, łatwe w dostępie struktury danych. Przykład: Użytkowników, relacją z którymi możemy rzeczywiście zarządzać, jest co najwyżej kilkanaście milionów. Potrzebujemy znać dla nich kilkadziesiąt najważniejszych cech.
18 actionable data Jak świeżych danych do tego potrzebujesz? Jak nie dać się przytłoczyć Big Data. TEZA 2.: W wielu przypadkach świeżość [, kompletność, dokładność]* danych nie jest potrzebna dla wsparcia decyzji biznesowych. *niewłaściwe skreślić, zastanawiając się dwukrotnie Przykład: Śledzenie struktury demograficznej serwisu w czasie rzeczywistym to strata zasobów**. ** chyba, że rzeczywiście mamy sposób monetyzacji tej wiedzy
19 actionable data Naprawdę??? Jak nie dać się przytłoczyć Big Data. TEZA 3.: Czego nie masz w tabelach, nie potrzebujesz. Przykład: Dane potrzebne dla publikacji treści to bardzo złożona struktura JSON; udostępnienie dla potrzeb analitycznych tylko logicznego widoku tabelarycznego albozmaterializowanych i zoptymalizowanych analitycznie danych kolumnowych jest naprawdę proste.
20 actionable data Co podpowiada Ci zdrowy rozsądek? Jak nie dać się przytłoczyć Big Data. TEZA 4.: Wartość w tabeli powinna uruchamiać myślenie, a nie dawać ostateczną odpowiedź. Przykład: Niezgodność danych nie jest problemem, ale wartością. Z sytuacji, gdy dwa systemy analityczne pokazują różne wartości, oraz takiej, gdy dysponuję wartością z jednego tylko źródła: wolę ten pierwszy problem.
21 acting data man Realizacja stojących za tymi tezami założeń wymaga konsultanta-analityka, który podejmie odpowiedzialność nie tylko za budowę actionabledata, ale również będzie w stanie pomóc jednostkom biznesowym w przejściu od danych, do rzeczywistych działań.
22 Inwestujmy w ludzi, nie w dane! Dziękuję! Mariusz Trejtowicz Mariusz.Trejtowicz@GrupaOnet.pl +48 662 280 575