Alapvető lépések az adatokkal való munkában

Legalább három kulcsfontosságú fogalom van, amelyet meg kell értened, amikor elindítasz egy adatprojektet:

  • Az adatigényléseknek azoknak a kérdéseknek a listájával kellene kezdődnie, amelyeket meg szeretnél válaszolni.
  • Az adatok gyakran rendezetlenek, és meg kell tisztítani őket.
  • Az adatoknak lehetnek nem dokumentált tulajdonságai.
Figure 69. Messy Data
69. ábra: zavaros adatok

Ismerd azokat a kérdéseket, amelyeket szeretnél megválaszolni

Az adatokkal való munka sok szempontból hasonlít egy élő adatforrással készített interjúra. Kérdéseket teszel fel az adatokról és azért kapod meg az adatokat, hogy feltárd a válaszokat. De épp úgy, ahogy egy forrás csak arról adhat válaszokat, amiről neki információi vannak, egy adathalmaz is csak olyan kérdésekre képes válaszolni, amelyekhez rendelkezik a megfelelő adatrekordokkal és a megfelelő változókkal. Ez azt jelenti, hogy alaposan meg kellene fontolnod, milyen kérdéseket kell megválaszolnod, még mielőtt megszerzed az adatokat. Alapvetően visszafelé dolgozol. Először felsorolod az adatokat -azokat a bizonyított állításokat, amelyekről nyilatkozni szeretnél a történetedben. Majd eldöntöd, mely változókat és rekordokat kellene megszereznedés elemezned azokhoz a nyilatkozatokhoz.

Fontold meg egy példa említését, amely a helyi bűnügyi jelentéseket tartalmazza. Tegyük fel, hogy olyan sztorit szeretnél írni, amely a városodban megfigyelhető bűnelkövetési mintákat vizsgálja, és a nyilatkozatok, amelyeket tenni szeretnél, tartalmazzák azokat a napszakokat és egy hét olyan napjait, amelyeken a legnagyobb valószínűséggel történnek különböző típusú bűncselekmények, valamint azt, hogy a város mely részei gócpontok a különböző bűncselekmény-kategóriák számára.
Rájönnél, hogy az adatkérésednek tartalmaznia kell azt a dátumot és időpontot, amikor az egyes bűncselekményeket jelentették, a bűncselekmény fajtáját (gyilkosság, lopás, betörés, stb), valamint annak a címét, ahol a bűncselekmény történt. Így a Dátum, az Idő, a Bűncselekmény-kategória és Cím a minimális változók, amelyekre szükséged van ahhoz, hogy megválaszold azokat a kérdéseket.
De légy tudatában annak, hogy számos olyan potenciálisan érdekes kérdés van, amelyet ez a négyváltozós adathalmaz NEM TUD megválaszolni, mint például az áldozat nemzetisége és neme, vagy az ellopott tulajdon teljes értéke, vagy hogy mely tisztek a legeredményesebbek a letartóztatások végrehajtása terén. Valamint lehet, hogy csak egy bizonyos időszakra, például az elmúlt három évre vonatkozóan tudsz adatrekordokat szerezni, ami azt jelentené, hogy nem mondhatnának semmit arról, hogy a bűnelkövetési minták hosszabb időszakon keresztül változtak-e meg. Ezek a kérdések lehet, hogy a történeted tervezett terjedelmén kívül maradnak, és ez így van rendjén. De nem szeretnél belemélyedni az adataid elemzésébe és hirtelen úgy döntesz, hogy meg kell tudnod, hogy a város különböző részein elkövetett bűncselekmények hány százalékát oldották meg letartóztatással.

Az egyik tanulság itt az, hogy gyakran jó ötlet, hogy az adatbázisban lévő ÖSSZES változót és rekordot igényeled, ahelyett, hogy részhalmazát kérnéd, amely az azonnali történet kérdéseire tudna válaszokat adni. (Valójában az összes adat megszerzése olcsóbb lehet, mint a részhalmaz megszerzése, ha fizetned kell az ügynökségnek a programozásért, amelyre szükség van a részhalmaz előállításához). Mindig tudsz önállóan részhalmazt készíteni aadatokból, és a teljes adathalmazhoz való hozzáférés megszerzése lehetővé fogja tenni számodra, hogy olyan új kérdésekre válaszolj, amelyek felmerülhetnek a riportjaid készítésében, sőt még új ötleteket is alkot a következő történetekhez. Lehet, hogy a titoktartási törvények vagy más rendelkezések azt jelentik, hogynéhány olyan változót, mint pl. az áldozatok iszemélyazonossági adatai vagy a bizalmas informátorok nevei nem adhatók ki. De még egyrészleges adatbázis is sokkal jobb a semminél, feltéve, hogy megérted, hogy a kitakart adatbázis mely kérdéseket képes és nem képes megválaszolni.

Rendezetlen adatok tisztítása

Az adatbázisokkal való munkában az az egyik legnagyobb probléma, hogy gyakran fogsz olyan adatokat elemzésre használni, amelyeket bürokratikus okokból gyűjtöttek. A probléma az, hogy a kettőhöz tartozó adatpontossági szabvány egészen más.

Például a bünügyi igazságszolgáltatási rendszer adatbázisának egyik kulcsfontosságú funkciója az, hogy győződjön meg arról, hogy Jones vádlottat elhozták a börtönből, hogy a tárgyalás idején megjelenjen Smith bíró előtt. Erre a célra valójában nem sokat számít, ha Jones születési dátuma téves, vagy hogy az utcacímét elírták, vagy akár akkor is, ha rossz a középső nevének kezdőbetűje. Általában a rendszer még mindig fel tudja használni ezt a hiányos rekordot arra, hogy Jones-t a kijelölt időpontban eljuttassa Smith tárgyalótermébe.

De az ilyen hibák is torzíthatják egy adatújságíró arra irányuló próbálkozásait, hogy felfedezze az adatbázisban rejlő mintákat. Ezért az első nagy munka, amit el kell végezni, amikor megszerzel egy új adathalmazt az, hogy megvizsgáld, mennyire rendezetlen, majd meg kell tisztítani. Egy jó gyors módszer rendezetlenség keresésére az, hogy létrehozod a kategorikus változók gyakorisági táblázatait, azokat, amelyeknek várhatóan viszonylag kevés különböző értéke van. (Excel használatakor például megteheted ezt az egyes kategorikus változókon alkalmazott Szűrő (Filter) vagy Kimutatások (Pivot Tables) használatával.)

Vedd a “Nem” változót, egy egyszerű példát. Azt tapasztalhatod, hogy a Nem meződ az ehhez hasonló értékek bármely keverékét tartalmazza: Férfi (Male), Nő (Female), M, F, 1, 0, FÉRFI, NŐ, stb., beleértve az olyan elírásokat is, mint a “Femal”. Hogy megfelelő nemi elemzést végezz, egységesítened kell – talán dönts az M és F mellett – majd változtasd meg úgy az eltéréseket, hogy megfeleljenek a szabványoknak. Egy másik gyakori, ilyen típusú problémákkal rendelkező adatbázis az amerikai kampány pénzügyi adatrekordjai, ahol a Foglalkozás mező felsorolhat „Jogász (Lawyer)”, „Ügyvéd (Attorney)”, „Ügyvéd (Atty)”, „Jogtanácsos (Counsel)”, „Peres ügyvéd (Trial Lawyer)” értékeket, és a rengeteg variáció bármelyikét, és elírásokat; a trükk itt is az, hogy a lehetőségek rövidebb listájára egységesítsd a foglalkozáscímeket.
Az adattiszítás még problémásabbá válik, amikor nevekkel dolgozol. „Joseph T. Smith”, „Joseph Smith”, „J.T. Smith”,”Jos. Smith” és „Joe Smith” mind ugyanazok a személyek? Ez igényelheti a többi változó, mint például a cím vagy születési dátum megtekintését, vagy akár más rekordokban való mélyebb kutatásokra ahhoz, hogy eldöntsd. De az olyan eszközök, mint például a Google Refine, gyorsabban és kevésbé fárasztóan el tudja végezni a tisztítási és egységesítési feladatot.

Az adatoknak lehetnek nem dokumentált tulajdonságai.

Bármely adatbázis rosette-i köve az úgynevezett adatszótár. Általában ez a fájl (lehet szöveg vagy PDF, vagy akár egy
táblázat) fogja neked megmondani, hogyan formázták meg az adatfájlt (határolóval tagolt szöveg, rögzített szélességű szöveg, Excel, dBase, stb), a változók sorrendjét, az egyes változók neveit és az egyes változók adattípusát (szöveges karakterlánc, egész szám, decimális, stb) Ezeket az információkat arra fogod használni, hogy segítsenek neked abban, hogy az adatfájlt megfelelően importáld az általad használni kívánt elemző szoftverbe (Excel, Access, SPSS, Fusion Tables, az SQL különböző fajtái, stb).

Egy adatszótár másik kulcsfontosságú eleme az adott változók által használt bármely kód magyarázata. Például a Nem kódolható úgy, hogy „1=Férfi” és „0=Nő”. A bűncselekmények kódolhatók a jogrendszeredben az egyes bűncselekményekre vonatkozó jogszabályok számaival. A kórházi kezelés rekordjai 5 számjegyű kódok százainak bármelyikét használhatják azoknak a körülményeknek a diagnosztizálására, amelyek miattegy beteget kezelnek. Az adatszótár nélkül ezeket az adathalmazokat talán nehéz, vagy akár lehetetlen lenne megfelelően elemezni.
De még egy kéznél lévő adatszótárral is lehetnek problémák.

Egy példa arra, ami a Miami Herald-nál dolgozó riporterekkel történtFloridában néhány évvel ezelőtt, amikor a büntetések változó arányainak elemzését végezték, amelyeket a különböző bírók róttak ki azokra az emberekre, akiket ittas vezetésért letartóztattak A riporterek megszerezték az ítéletek rekordjait a bírósági rendszerbőlés elemezték az adatszótárban lévő három különböző büntetési változókban lévő számokatkiszabott letöltendő börtönbüntetés összes ideje, kiszabott letöltendő fegyházbüntetés összes ideje és kiszabott bírság összege. Ezek a számok nagyon különböztek a bírók között, amely a riporterek által szerzett bizonyítékot szolgáltatott egy arról szóló sztorihoz, hogy néhány bíró mennyire szigorú, néhány bíró pedig mennyire engedékeny volt.

De minden bírónál az esetek kb 1-2 százaléka nem jelzett semennyi börtönbüntetést, semennyi fegyházbüntetést és semennyi bírságot. Így a diagram, amely az egyes bírókhoz tartozó ítélethozatali mintákat mutatta, tartalmazott egy kis mennyiségű „Nincs büntetés” esetet, amely szinte utólagos megfontolásra késztet. Amikor kinyomtatták a történetet és a diagramot, a bírók panaszkodva üvöltöttek, mondván, hogy a Herald azzal vádolta meg őket, hogy megszegtek egy olyan állami törvényt, amely előírta, hogy bárkit meg kell büntetni, akit ittas vezetés miatt elítéltek.

Így a riporterek visszamentek a bírósági hivatal titkárához, aki előállította az adatfájlt, és megkérdezték tőle, hogy mi okozta ezt a hibát. Azt mondták nekik, hogy a szóban forgó esetek olyan rászoruló vádlottakat tartalmaztak, akiknek ez volt az első letartóztatásuk. Általában bírságot adnának nekik, de nem volt pénzük. Így a bírók közmunkára ítélték őket, mint például az utak mentén található hulladék takarítása. Mint kiderült azt a törvényt, amely előírja a büntetést, azután fogadták el, miután az adatbázis szerkezetétlétrehozták. Így az összes bírósági titkár tudta, hogy az adatokban a börtön-fegyház-bírság változókban lévő nullák közmunkát jelentettek. Azonban ezt NEM jegyezték fel az adatszótárban, és ezért ez odavezetett, hogy a Herald-nak helyreigazítást kellett írnia.

A tanulság ebben az esetben az, hogy mindig kérdezd meg azt az ügynökséget, amely adatokat ad neked, hogy vannak-e az adatokban nem dokumentált elemek, legyenek azok akár újonnan létrehozott kódok, amelyeket nem tettek bele az adatszótárba, változások a fájl szerkezetében, vagy bármi más. Valamint mindig vizsgáld meg az elemzésed eredményét és kérdezd meg magadtól, hogy „Ennek van értelme?” A Herald riportereihatáridőre készítették a diagramot, és annyira összpontosítottak az egyes bírók átlagos büntetési szintjére, hogy nem fordítottak figyelmet arra az alig néhány esetre, amelyek látszólag nem mutattak büntetést. Meg kellett volna kérdezniük maguktól, hogy volt-e értelme annak, hogy úgy tűnt, mintha minden bíró megsértette volna az állami törvényt, még ha csak kis mértékben is.

—Steve Doig, az Arizónai Állami Egyetem Walter Cronkite Újságírói Iskolája