Fedezd fel az adatokat az adatvizualizáció segítségével

A vizualizáció kritikus fontosságú az adatok elemzéséhez. Ez a támadás frontvonalát nyújtja, felfedi az adatok bonyolult szerkezetét, amelyben semmilyen más módon nem lehet elmélyedni. Felfedezzük az elképzelhetetlen hatásokat, és megvitatjuk a képzelteket.

—William S. Cleveland: Adatok ábrázolása

Önmagukban az adatok, amelyek egy számítógép merevlemezén lévő fájlban tárolt bitekből és bájtokból állnak, láthatatlanok. Annak érdekében, hogy képesek legyünk látni és értelmezni az adatokat, vizualizálnunk kell azokat. Ebben a fejezetben a vizualizáció kifejezés tágabb értelmezését fogom használni, amely magában foglalja még az adatok tiszta szöveges ábrázolási formáit is. Például ha csak betöltünk egy adathalmazt egy táblázatkezelő szoftverbe, az is adatvizualizációnak tekinthető. A láthatatlan adatok hirtelen látható képpé válnak a képernyődön.
Így nem arról kellene szólnia a kérdéseknek, hogy újságíróknak meg kell-e jeleníteniük az adatok, vagy sem, hanem hogy a vizualizáció melyik fajtája melyik szituációban lehet a leghasznosabb.

Más szóval: Mikor van értelme annak, hogy túllépjünk a táblázatos megjelenítésen? A rövid válasz: szinte mindig. A táblázatok egyedül biztosan nem elegendőek ahhoz, hogy áttekintést adjanak nekünk egy adathalmazról. És a táblázatok egyedül nem teszik lehetővé számunkra, hogy azonnal azonosítsuk az adatokban rejlő mintákat. A leggyakoribb példák itt azok a földrajzi minták, amelyek csak azután csak figyelhetők meg, miután az adatokat egy térképen megjelenítjük. De vannak más típusú minták is, amelyeket ebben a fejezetben később fogunk látni.

Vizualizáció használata az adatok felfedezéséhez

Nem reális elvárni, hogy az adatvizualizációs eszközök és technikák kész történeteket fognak szabadjára engedni az adathalmazokból. Nincsenek olyan szabályok, sem olyan „protokoll”, amely garantálni fog egy történetet számunkra. Ehelyett azt hiszem, több értelme van annak, hogy olyan “felismeréseket” keresünk, amelyek művészien szőtt történetekké válhatnak egy jó újságíró kezében.
Minden új vizualizáció várhatóan ad számunkra némi betekintést az adatainkba. Néhány ilyen betekintést lehet, hogy már ismerünk (de talán még nem bizonyítottunk be), míg más betekintés teljesen új lehet, vagy még meglepő is lehet számunkra. Lehet, hogy néhány új betekintés egy történet kezdetét jelenti, míg mások csak az adatokban lévő hibák eredményei, amelyeket nagy valószínűséggel az adatok megjelenítésével találhatunk meg.

Annak érdekében, hogy hatékonyabbá tegyük az adatokba való betekintés megtalálását, a következő eljárást nagyon hasznosnak találom:

Figure 71. Data insights: a visualization (Gregor Aisch)
71. ábra: adatfelfedezés (Gregor Aisch)

Minden egyes ilyen lépést megtárgyalunk ennek a szakasznak a további részében.

Hogyan vizualizáljuk az adatokat?

A vizualizáció egyedülálló perspektívát nyújt az adathalmazra nézve. Sok különböző módon vizualizálhatod az adatokat.

A táblázatok nagyon hatékonyak, amikor egy viszonylag kisszámú adatponttal foglalkozol. A feliratokat és
a mennyiségeket a legstrukturáltabb és legszervezettebb módon mutatja, és akkor fedi fel a benne rejlő teljes potenciált, mikor kombinálod az adatok rendezésére és szűrésére való képességgel. Továbbá Edward Tufte javasolta, hogy tegyünk kis diagramdarabokat a tábla oszlopain belül, például egy oszlopot soronként, vagy egy kis vonaldiagramot (amelyet azóta értékgörbeként is ismerünk). De mégis, amint a bevezetőben említettük, a tábláknak egyértelműen megvannak a maguk korlátai. Ezek nagyszerűek arra, hogy olyan egydimenziós kiugró értékeket mutasson neked, mint a top 10, de rosszak, amikor arról van szó, hogy egy időben több dimenziót hasonlíts össze (például a népesség időbeli eloszlása országonként).

Figure 72. Tips from Tufte: sparklines (Gregor Aisch)
72. ábra: Tufte nyomán: sparkline-ok, azaz minigrafikonok (Gregor Aisch)

A diagramok általában lehetővé teszik számodra, hogy az adatokban lévő dimenziókat leképezd a geometriai alakzatok vizuális tulajdonságaira. Sokan írtak az egyes vizuális tulajdonságok hatékonyságáról, és a rövid változat: a szín nehéz, a pozíció minden. Egy szórásgörbén például két dimenziót képezünk le az X- és Y-pozícióra. Megjeleníthetsz egy harmadik dimenziót is a megjelenített szimbólumok színéhez és méretéhez. A vonaldiagramok különösen alkalmasak időbeli alakulások bemutatására, míg az oszlopdiagramok tökéletesek kategorikus adatok összehasonlítására. Egymás tetejére ágyazhatod egy diagram elemeit. Ha az adataidban kisméretű csoportokat szeretnél összehasonlítani, ugyanazon grafikon több példányának megjelenítése nagyon hatékony módszer (amelyet kis többszörösöknek is neveznek). Minden grafikonon különböző típusú skálát használhatsz arra, hogy felfedezd az adataidban rejlő különböző aspektusokat (pl lineáris vagy logaritmikus skála).
Valójában a legtöbb adat, amivel foglalkozunk, valahogyan valódi emberekhez kapcsolódik. A térképek ereje abban rejlik, hogy újra összekapcsolják az adatokat a mi nagyon fizikai világunkkal. Képzelj el egy adathalmazt a pontos helymeghatározással ellátott bűnügyi incidensekről. Kulcsfontosságú, hogy azt szeretnéd látni, hogy hol történnek a bűncselekmények. A térképek felfedhetnek földrajzi kapcsolatokat is az adatokon belül, például egy északról délre vezető, illetve a városi területekről a vidéki területek felé vezető trendet).

Figure 73. Cloropeth (Gregor Aisch)
73. ábra: színfokozatos térkép (Gregor Aisch)

Ha már a kapcsolatokról beszélünk, a vizualizáció negyedik legfontosabb típusa egy gráf. A gráfok mind arról szólnak, hogy megmutatják az adatpontjaid (csomópontok) közötti kapcsolatokat (élek). A csomópontok helyzetét ezután többé-kevésbé bonyolult gráf elrendezési algoritmusokkal számítjuk ki, amelyek lehetővé teszik számunkra, hogy azonnal lássuk a hálózaton belül rejlő struktúrát. A gráf megjelenítésében rejlő trükk általában az, hogy megtaláljuk a megfelelő módszert magának a hálózatnak a modellezésére. Nem minden adathalmaz tartalmaz már kapcsolatokat, és ha mégis tartalmaznak, akkor lehet, hogy nem ez a legérdekesebb aspektus arra, hogy megvizsgáld. Néha az újságíró dolga, hogy meghatározza a csomópontok közötti éleket. Egy tökéletes példa erre az Egyesült Államok Szenátusának szociális hálója, amelynek élei összekapcsolják azokat szenátorokat, akik ugyanarra szavaztak a szavazatok több mint 65% -ában.

Figure 74. The Senate Social Network (slate.com)
74. ábra: A szenátus közösségi hálója (slate.com)

Elemezd és értelmezd, amit látsz

Miután vizualizálod az adataidat, a következő lépés az, hogy tanulj valamit arról a képről, amelyet te hoztál létre. Tedd fel a kérdést:

  • Mit láthatok ezen a képen? Ez az, amit vártam?
  • Vannak érdekes minták?
  • Mit jelent ez az adatokkal való összefüggésben?

Néha lehet, hogy befejezed a vizualizációt, amely a szépsége ellenére, úgy tűnhet, hogy semmi érdekeset nem mond neked az adataidról. De szinte mindig van valami, amit bármely vizualizációból megtanulhatsz, bármennyire triviális.

Dokumentáld a felfedezéseidet és lépéseidet

Ha úgy gondolsz erre a folyamatra, mint az adathalmazban tett utazásra, akkor a dokumentáció az útinaplód. Ez meg fogja neked mondani, hogy hová utaztál, mit láttál ott és hogyan hoztad meg a döntéseidet a következő lépéseidhez. Még azelőtt is elkezdheted a dokumentációdat, mielőtt először vetnél pillantást az adatokra.

A legtöbb esetben, amikor elkezdünk dolgozni egy korábban soha nem látott adathalmazzal, már tele vagyunk az adatokkal kapcsolatos elvárásokkal és feltételezésekkel. Általában okunk van rá, hogy miért érdekel minket az az adathalmaz, amelyet vizsgálunk. Jó ötlet, hogy azzal kezdjük el a dokumentációt, hogy leírjuk ezeket a kezdeti gondolatokat. Ez segít nekünk azonosítani az elfogultságunkat, és csökkenti az adatok téves értelmezésének a kockázatát azáltal, hogy csak azt keresi, amit eredetileg is meg szerettünk volna találni.

Tényleg úgy gondolom, hogy a dokumentáció a folyamat legfontosabb lépése a folyamat; és ez az egyetlen is, amelyet a legnagyobb valószínűséggel hajlamosak vagyunk kihagyni. Amint azt majd az alábbi példában láthatod, a leírt folyamat sok rajzot és adatkonvertálást foglal magában. Egy általad létrehozott, 15 diagramból álló készlet átvizsgálása nagyon zavarba ejtő lehet, különösen azután, miután egy bizonyos idő eltelt. Valójában ezek a grafikonok csak akkor értékesek (számodra, vagy bármely más személy számára, akikkel meg akarod beszélni a megállapításaidat), ha abban az összefüggésben jeleníted meg, amelyben létrehozták őket. Ezért időt kellene szánnod arra, hogy néhány megjegyzést fűzz a dolgokhoz, mint például:

  • Miért hoztam létre ezt a diagramot?
  • Mit tettem az adatokkal, hogy ezt létrehozzam?
  • Mit mond nekem ez a diagram?

Az adatok átalakítása

Természetesen azokkal a felfedezésekkel, amelyeket az utolsó vizualizációdból gyűjtöttél, lehet egy ötleted arról, hogy mit szeretnél látni legközelebb. Lehet, hogy találtál néhány érdekes mintát az adathalmazban, amelyet most részletesebben szeretnél megvizsgálni.

A lehetséges átalakítások a következők:

Nagyítás

Hogy egy bizonyos részletet megvizsgáljunk a vizualizációban, használjuk az Aggregálást, hogy a sok adatpontot egy csoportba egyesítsük.

Szűrés

Hogy (Ideiglenesen) eltávolítsuk azokat az adatpontokat, amelyek nem szerepelnek a fő céljaink között.

Kiugró értékek eltávolítása

Hogy megszabaduljunk azoktól az egyes adatpontoktól, amelyek nem reprezentatívak az adathalmaz 99 %-ára.

Lássuk be, hogy megjelenítettél egy gráfot, és ami ebből kijött, az nem volt más, mint több száz éllel összekapcsolt csomópontok kuszasága (egy nagyon gyakori eredmény, amikor úgynevezett sűrűn összekapcsolt hálózatokat jelenítesz meg), egyetlen közös transzformációs lépés lenne az, hogy kiszűrj néhány élt. Ha például az élek az adományozó országoktól a kedvezményezett országoknak küldött pénz áramlásait jelenítik meg, akkor egy bizonyos összeg alatt minden áramlást eltávolíthatnánk.

Milyen eszközöket használhatsz

Az eszközök kérdése nem olyan könnyű. Minden elérhető adatvizualizációs eszköz jó valamiben. A vizualizációnak és az adatkonvertálásnak egyszerűnek és olcsónak kellene lennie. Ha a vizualizációk paramétereinek változtatása órákat igényel tőled, akkor nem fogod sokat próbálgatni. Ez nem feltétlenül jelenti azt, hogy nem kell megtanulnod, hogyan kell használni az eszközt. De ha már egyszer megtanultad, ennek valóban hatékonynak kellene lennie.

Gyakran sok értelme van annak, hogy olyan eszközt válassz, amely lefedi mind az adatkonvertálási, mind az adatvizualizációs kérdéseket.

A különböző eszközökben megoldható feladatok különválasztása azt jelenti, hogy nagyon gyakran kell importálnod és exportálnod az adataidat. Itt van egy rövid lista néhány adatvizualizációs és -konvertálási eszközről:

A táblázatkezelők, mint a LibreOffice, Excel vagy a Google Dokumentumok.

Statisztikai programozási keretekek, mint az R (r-project.org) vagy a Pandas (pandas.pydata.org) Földrajzi információs rendszerek (GIS), mint a Quantum GIS, ArcGIS, GRASS

Vizualizációs könyvtárak, mint a d3.js (mbostock.github.com/d3), a Prefuse (prefuse.org), a Flare (flare.prefuse.org) Adatkonvertálási eszközök: Google Refine, Datawrangler

Nem programozható vizualizációs szoftverek: mint ManyEyes, Tableau Public (tableausoftware.com/products/public)

A következő szakaszban lévő mintavizualizációkat R-ben hozták létre, amely a (tudományos) adatvizualizáció egyfajta svájci bicskája.

Példa: Az Egyesült Államok választási hozzájárulási adatainak értelmezése

Nézzük meg az Egyesült Államok elnökválasztási kampány finanszírozási adatbázisát, amely az Egyesült Államok elnökjelöltjei számára összegyűjtött mintegy 450.000 hozzájárulást tartalmazza. A CSV-fájl 60 MB-os, és így túl nagy ahhoz, hogy könnyen kezelhető legyen egy olyan programban, mint az Excel.

Az első lépésben részletesen leírom a FEC hozzájárulási adathalmazzal kapcsolatos kezdeti feltételezéseimet:

  • Obama kapja a legtöbb hozzájárulást (mivel ő az elnök és az ő népszerűsége a legnagyobb).
  • Az adományok száma növekszik, ahogy az idő közelebb kerül a választás napjához.
  • Obama több kis összegű adományt kap, mint a republikánus jelöltek.

Még akkor is, ha ez a táblázat a minimális és maximális összegeket és a sorrendet tartalmazza, ez nem mond túl sokat az alapjául szolgáló jelöltrangsorban rejlő mintákról. A 75. ábra egy másik nézet az adatokról, egy diagramtípus, amelyet „pontdiagramnak” nevezünk, amelyen mindent láthatunk, amit a táblázatban bemutatunk, valamint a mezőben található mintákat. Például a pontdiagram lehetővé teszi számunkra, hogy azonnal összehasonlítsuk az Obama és Romney, illetve a Romney és Perry közötti távolságot anélkül, hogy értékeket kellene kivonnunk egymásból. (Megjegyzés: A pontdiagramot R-ben hoztuk létre. A forráskódokra mutató linkeket megtalálod ennek a fejezetnek a végén).

Jelölt Összeg ($)

Obama, Barack

72 453 620,39

Romney, Mitt

50 372 334,87

Perry, Rick

18 529 490,47

Paul, Ron

11 844 361,96

Cain, Herman

7 010 445,99

Gingrich, Newt

6 311 193,03

Pawlenty, Timothy

4 202 769,03

Huntsman, Jon

2 955 726,98

Bachmann, Michelle

2 607 916,06

Santorum, Rick

1 413 552,45

Johnson, Gary Earl

413 276,89

Roemer, Charles E. Buddy III

291 218,80

McCotter, Thaddeus G

37 030,00

Még akkor is, ha ez a táblázat a minimális és maximális összegeket és a sorrendet tartalmazza, ez nem mond túl sokat az alapjául szolgáló jelöltrangsorban rejlő mintákról. A 75. ábra egy másik nézet az adatokról, egy diagramtípus, amelyet „pontdiagramnak” nevezünk, amelyen mindent láthatunk, amit a táblázatban bemutatunk, valamint a mezőben található mintákat. Például a pontdiagram lehetővé teszi számunkra, hogy azonnal összehasonlítsuk az Obama és Romney, illetve a Romney és Perry közötti távolságot anélkül, hogy értékeket kellene kivonnunk egymásból. (Megjegyzés: A pontdiagramot R-ben hoztuk létre. A forráskódokra mutató linkeket megtalálod ennek a fejezetnek a végén).

Figure 75. visualizations to spot underlying patterns (Gregor Aisch)
75. ábra: az adatvizualizáció rámutat a mintázatokra (Gregor Aisch)

Nos, folytassuk az adathalmazról készült nagyobb képpel. Első lépésként minden hozzájárulásként befizetett összeg időbeli változását ábrázoltam egy egyszerű ábrán. Láthatjuk, hogy szinte minden adomány nagyon-nagyon kicsi, a három igazán nagy kiugró értékkel összehasonlítva. A további vizsgálat azt eredményezi, hogy ezek a hatalmas hozzájárulások a „2012-es Obama Győzelmi Alaptól” (más néven Super PAC-tól) származnak, és június 29-én (450 ezer $), szeptember 29-én (1,5 millió $) és december 30-án (1,9 millió $) fizették ki őket.

Figure 76. Three clear outliers (Gregor Aisch)
76. ábra: 3 egyértelműen kiugró érték (Gregor Aisch)

Míg a Super PAC-ek egyedüli hozzájárulásai kétségtelenül a legnagyobb sztorit jelentik az adatokon belül, az is érdekes lehet, hogy mögé nézzünk. A lényeg most az, hogy ezek a nagy hozzájárulások zavarják az egyénektől származó kisebb hozzájárulásokról alkotott nézetünket, így el fogjuk távolítani őket az adatok közül. Ezt a transzformációt gyakran úgy ismerjük, mint a kiugró értékek eltávolítása. Miután ismét megjelenítjük, láthatjuk, hogy az adományok többsége a 10 ezer $ és a -5 ezer $ közötti tartományon belül van.

77. ábra: A kiugró értékek eltávolítása (Gregor Aisch)
77. ábra: A kiugró értékek eltávolítása (Gregor Aisch)

A FECA által megállapított hozzájárulási korlátozások szerint az egyének számára nem engedélyezett, hogy 2500 $-nál többet adományozzanak az egyes jelöltek számára. Amint a rajzon is látjuk, sok adomány van, amelyek túllépték ezt a határt. Különösen a két nagy májusi hozzájárulás vonzza a figyelmünket. Úgy tűnik, hogy ezek a júniusi és júliusi negatív összegekben (visszatérítésekben) tükröződnek. Az adatokon belül végzett további vizsgálatok a következő tranzakciókat tárják fel:

  • Május 10-én Stephen James Davis, akit San Franciscóban, a Banneker Partners cégnél (ügyvédként) alkalmaznak, 25,800 $-t adományozott Obamának.
  • Május 25-én Cynthia Murphy, Little Rock-ban, akit a Murphy Group-nál (közönségszolgálat) alkalmaznak, 33,300 $-t adományozott Obamának.
  • Június 15-én 30,800 $-os összegettérítettek visszaCynthia Murphy-nek, amely 2500 $-ra csökkentette az adományozott összeget.
  • Július 8-án 25,800 $-os összeget térítettek vissza Stephen James Davis-nek, amely 0 $-ra csökkentette az adományozott összeget.

Mi az érdekes ezekben a számokban? A Cynthia Murphy-nek visszatérített 30,800 $ egyenlő a maximális összeggel, amelyet az egyének évente adhatnak a nemzeti pártbizottságoknak. Talán csak két adományt szeretett volna egy tranzakcióban kombinálni, amelyet elutasítottak. A Stephen James Davis számára visszatérített 25,800 $ talán egyenlő a 30,800 $ mínusz 5000 $ összeggel (amely a bármely más politikai bizottság számára kitűzött hozzájárulási korlátozás).

Egy másik érdekes megállapítás az utolsó ábrán a republikánus jelöltek számára nyújtott 5000 $ és -2500 $ közötti hozzájárulásokhoz tartozó vízszintes vonalminta. Hogy részletesebben lássuk őket, csak a republikánus adományokat jelenítettem meg. Az eredményül kapott grafikon egyfajta tökéletes példája az adatokban rejlő mintáknak, amelyek láthatatlanok lennének az adatvizualizáció nélkül.

78. ábra A kiugró értékek eltávolítása 2 (Gregor Aisch)
78. ábra A kiugró értékek eltávolítása 2 (Gregor Aisch)

Amit láthatunk, hogy sok 5000 $-os adomány van a republikánus jelöltek számára. Valójában az adatokban való keresés azt eredményezi, hogy ez 1243 adomány, amely csak 0,3 %-a az adományok összes számának, de mivel ezek az adományok egyenletesen oszlanak el az időben, a vonal megjelenik. Az érdekes dolog a vonalban az, hogy az egyének által adható adományokat 2500 $-ra korlátozták. Következésképpen minden, a korlátozott összeg fölé eső dollárt visszatérítettek az adományozóknak, amely a második vonalmintát eredményez -2500 $-nál. Ezzel szemben a Barack Obama számára fizetett hozzájárulások nem mutatnak hasonló mintát.

79. ábra A kiugró értékek eltávolítása 3 (Gregor Aisch)
79. ábra A kiugró értékek eltávolítása 3 (Gregor Aisch)

Tehát érdekes lehet megtudni, hogy a több ezer republikánus adományozó miért nem vette észre az egyénekre vonatkozó adománykorlátozást. Hogy tovább elemezzük ezt a témát, megnézhetjük az 5000 $-os adományok egy jelöltre jutó összes számát.

80. ábra Egy jelöltre jutó adomány (Gregor Aisch)
80. ábra Egy jelöltre jutó adomány (Gregor Aisch)

Persze ez elég torz nézet, mivel nem veszi figyelembe az egyes jelöltek által megkapott adományok teljes összegét. A következő ábra mutatja az 5000 $-os adományok egy jelöltre jutó százalékát.

81. ábra Honnan származik a szenátor pénze?: Egy jelöltre jutó adományok (Gregor Aisch)
81. ábra Honnan származik a szenátor pénze?: Egy jelöltre jutó adományok (Gregor Aisch)

Mit tanulhatunk ebből?

Gyakran egy új adathalmaznak az ilyen vizuális analízise olyan érzés, mint egy izgalmas utazás egy ismeretlen országba. Idegenként kezded, csak az adatokkal és a feltételezéseiddel, de minden általad megtett lépéssel, minden általad rajzolt diagrammal új felismerésekhez jutsz a témáról. Azoknak a felismeréseknek az alapján hozol döntéseket a következő lépéseidről és arról, hogy milyen kérdéseket érdemes tovább vizsgálni. Ahogy ebben a fejezetben láthattad, az adatok megjelenítésnek, elemzésének és transzformációjának ezt a folyamatát szinte végtelenül ismételhetjük.

Töltsd le a forráskódot

Az ebben a fejezetben bemutatott összes grafikont a csodálatos és hatékony R szoftverrel hoztuk létre.

Mivel főleg tudományos vizualizációs eszközként hozták létre, nehéz olyan vizualizációs vagy adatkonvertálási technikát találni, amelyet nem építettek már be az R-be. Azok számára, akiket érdekel, hogy hogyan lehet az R használatával adatokat vizualizálni és konvertálni, íme, az ebben a fejezetben generált diagramok forráskódja. A könyveknek és oktatóanyagoknak is széles választéka van. .

Gregor Aisch, Open Knowledge Foundation