3 egyszerű lépés, hogy te is érts az adatok nyelvén

Figure 68. Digging into data (JDHancock)
68. ábra: Adatbányászat (JDHancock)

Éppen úgy, mint ahogy az írástudás „magában foglalja az értő és megértésre törekedő olvasást, az összefüggő írott szöveg létrehozását és az előző kettőhöz kapcsolódó, kritikai gondolkodás képességét”, az adatműveltség annak a képessége, hogy az adatokat felhasználjuk, logikusan előállítsuk, és kritikusan gondolkodjunk róluk. Az adatműveltség magában foglalja a statisztikai műveltséget, de annak a megértését is, hogy hogyan lehet nagy adathalmazokkal dolgozni, hogyan állították őket elő, hogyan lehet a különböző adathalmazokat összekötni, és hogyan lehet őket értelmezni.

A Poynter Újságíróegyeteme matematikai kurzusokat kínál újságírók számára, amelyben a riporterek olyan fogalmakkal kapcsolatban kapnak segítséget, mint például a százalékos változások és átlagok. Érdekes módon ezeket a fogalmakat egyidejűleg a Poynterhez közel, a floridai iskolákban ötödik évfolyamon tanuló (10-11 éves) diákoknak is tanítják, ahogyan azt a tanterv is tanúsítja.

Az a tény, hogy az újságíróknak segítségre van szüksége azokban a matematikai témakörökben, amelyeket általában középiskola előtt oktatnak, azt mutatja, hogy milyen messze állnak a szerkesztőségek attól, hogy adatműveltek (adatokat használni tudók) legyenek. Ez gyakran okoz problémákat. Hogyan veheti hasznát egy adatújságíró a klímaváltozásra vonatkozó rengeteg számnak,  ha azt sem tudja, mit jelent egy konfidencia intervallum? Hogyan tud egy adatriporter sztorit írni a jövedelem-eloszlásról, ha nem tudja megkülönböztetni az az átlagot a mediánból?

Egy riporternek biztosan nincs szüksége diplomára statisztikából ahhoz, hogy hatékonyabbá legyen, amikor adatokkal foglalkozik. Amikor számokkal szembesül, néhány egyszerű trükk segíthet neki, hogy sokkal jobb történetet kapjon eredményül. Ahogy a Max Planck Intézet professzora, Gerd Gigerenzer mondja, a jobb eszközök nem fognak jobb újságíráshoz vezetni, ha nem megfelelő rálátással használják őket.

Még ha hiányoznak a matematikai vagy statisztikai ismereteid, akkor is könnyen válhatsz tapasztalt adatújságíróvá, ha felteszel magadnak 3 nagyon egyszerű kérdést.

  1. Hogyan gyűjtötték össze az adatokat?

Bámulatos GDP-növekedés

A legegyszerűbb módja annak, hogy látványos adatokat mutass az, ha te találod ki őket. Ez nyilvánvalónak hangzik, de még az olyan adat is, mint a GDP, amit olyan gyakran emlegetnek, nagyon könnyen hamis lehet. A volt brit nagykövet, Craig Murray arról számol be a könyvében, amelynek címe Gyilkosság  Szamarkandban, hogy az Üzbegisztánban érvényes növekedési ráták a helyi önkormányzat és a nemzetközi szervezetek között zajló intenzív tárgyalások tárgyát képezik. Más szavakkal, a helyi gazdaságnak semmi köze hozzájuk.

A GDP-t használják első számú mutatóként, mert a kormányzatok ez alapján figyelik a fő jövedelemforrásukat, a hozzáadottérték-adót (áfa). Ha egy kormányt nem az áfa finanszíroz, vagy nem hozza nyilvánosságra a költségvetését, akkor nincs oka arra, hogy a GDP-adatait gyűjtse, és jobban jár, ha bemondott adatokkal dolgozik.

A bűnözés mindig egyre jobban nő.

„A spanyolországi bűnözés 3%-kal nőtt” – írja az El Pais. Brüsszel is áldozatul esik az illegálisan bevándorló külföldiektől és a kábítószer-függőktől kiinduló növekedő bűnözésnek, mondja az RTL. Az ilyen, rendőrség által gyűjtött statisztikákon alapuló riport gyakori, de ez igazából nem sokat árul el nekünk az erőszakról.

Bízhatunk abban, hogy az Európai Unión belül az adatokat nem hamisítják meg, de abban is, hogy a rendőrség reagál az értékelésekre. Amikor például a teljesítményt a felderítési mutatóhoz kötik, a rendőröknek az lesz az érdeke, hogy a lehető legtöbb olyan esetről készítsenek jelentést, amelyek nem igényelnek nyomozást. Ilyen bűncselekmény a marihuána elszívása. Ez megmagyarázza azt, hogy a kábítószerrel összefüggő bűncselekmények Franciaországban miért emelkedtek négyszeresen az elmúlt 15 évben, miközben a fogyasztás állandó maradt.

Mit lehet tenni?

Ha kétségeid vannak egy szám hitelességével kapcsolatban, mindig ellenőrizd kétszer épp úgy, ahogy akkor tennéd, ha ez egy politikustól származó közlemény lenne. Az üzbég esetben elegendő egy olyan embert felhívni telefonon, aki egy ideig ott élt („Úgy érzi, hogy az ország 3-szor olyan gazdag, mint 1995-ben volt, ahogyan azt a hivatalos számadatok is mutatják?”).

A rendőrségi adatokhoz a szociológusok gyakran végeznek az áldozattá válással kapcsolatos tanulmányokat, amelyben azt kérdezik az emberektől, hogy ki vannak-e téve bűncselekménynek. Ezek a tanulmányok sokkal kevésbé változékonyak, mint a rendőrségi adatok. Talán ez az oka annak, hogy nem jelennek meg a címlapokon.

Más vizsgálatok is lehetővé teszik számodra, hogy pontosan értékeld az adatok hitelességét, például Benford törvényével, de ezek egyike sem fogja helyettesíteni a saját kritikus gondolkodásodat.

  1. Mit lehet ebből megtanulni?

A Sclerosis Multiplex kockázata megduplázódik, ha éjszaka dolgozunk.

Biztosan bármelyik épeszű német abbahagyná az éjszakai műszakos munkát, miután elolvassa ezt a főcímet. De a cikk nem mondja el nekünk, hogy végül is valójában mi a kockázat.

Vegyünk 1000 németet. Egyetlen egynél fog kialakulni az SM az élete során. Nos, ha az 1000 német közül mindenki éjszakai műszakban dolgozna, akkor az SM-ben szenvedők száma 2-re ugrana. Az SM kialakulásának további kockázata, amikor több műszakban dolgozunk, ez 1 az 1000-hez, nem pedig 100%. Ez az információ biztosan hasznosabb akkor, amikor azon töprengünk, hogy elfogadjuk-e az állást.

Átlagosan minden 15 európai közül 1 teljesen írástudatlan.

A fenti cím ijesztőnek tűnik. És egyben teljesen igaz is. Az 500 millió európai közül 36 millió valószínűleg nem tud olvasni. Mellesleg ez a 36 millió 7 évnél fiatalabb (az Eurostattól származó adatok szerint).

Amikor egy átlagról írsz, mindig gondold át, hogy „Minek az átlaga?” A célsokaság homogén? Az egyenlőtlen eloszlási minták magyarázzák meg például azt, hogy a legtöbb ember miért vezet jobban az átlagnál. Sok embernek nulla vagy csak egyetlenegy balesete van az élete során. Néhány vakmerő vezetőnek nagyon sok balesete van, amely a balesetek átlagos számát magasabbra emeli, mint amennyit a legtöbb ember átélhet. Ugyanez igaz a jövedelem-eloszlásra is: a legtöbb ember kevesebbet keres, mint az átlag.

Mit lehet tenni?

Mindig vedd figyelembe az eloszlást és a feltétel nélküli valószínűséget. Az átlag és a medián, valamint a módusz (az eloszlásban résztvevő leggyakoribb érték) ellenőrzése segít neked abban, hogy betekintést nyerj az adatokba. A nagyságrend ismerete egyszerűbbé teszi a szövegkörnyezetbe helyezést, mint az SM-példában. Végül a cikkek természetes gyakoriságokkal (1 a 100-hoz) való megfogalmazása egyszerűbb módszer az olvasók számára, hogy megértsék azt, mint a százalék (1%) használatával.

  1. Mennyire megbízhatóak az információk?

A mintaméret problémája

„Az emberek 80%-a elégedetlen az igazságszolgáltatási rendszerrel” – mondja a Zaragozában megalapított Diaro de Navarra újságban közölt felmérés. Hogyan lehet 800 válaszadóból 46 millió spanyolra következtetni? Ez nyilvánvalóan üres fecsegés.

Amikor nagyméretű (több mint néhány ezer) célsokaságot kutatsz, ritkán van szükséged ezernél több válaszadóra ahhoz, hogy 3% alatti hibahatárt érj el. Ez azt jelenti, hogy ha egy teljesen különböző mintával meg kellene ismételned a felmérést, 10-ből 9 esetben az általad kapott válaszok azoknak az eredményeknek a 3%-os tartományában lesznek, amelyeket első körben kaptál. A statisztika hatékony dolog, és a minták nagyságát ritkán lehet hibáztatni a rossz minőségű felmérésekért.

A tea fogyasztása csökkenti a szélütés kockázatát

A teaivás előnyeiről szóló cikkek mindennaposak. Ez a rövid Die Welt-cikk, amely azt mondja, hogy a tea csökkenti a szívinfarktus kockázatát, sem kivétel. Bár a tea hatásait néhányan komolyan tanulmányozták, sok kutatás nem veszi figyelembe az olyan életmódbeli tényezőket, mint a diéta, a foglalkozás vagy a sportok.

A legtöbb országban a tea egy ital az egészség-tudatos felsőbb osztályok számára. Ha a kutatók nem ellenőrzik az életmódbeli tényezők a teáról szóló tanulmányokban, akkor semmivel nem mondanak nekünk többet, mint hogy a “gazdag emberek egészségesebbek – és valószínűleg teát isznak”.

Mit lehet tenni?

A teáról szóló tanulmányokban szereplő korrelációk és hibahatárok mögött rejlő matematikai összefüggések minden bizonnyal megfelelőek, legalábbis az idő nagy részében. De haa kutatók nem keresnek olyan egymással való korrelációkat (pl. a teaivás korrelál a sportolással), akkor az eredményeik vajmi keveset fognak érni.

Újságíróként nincs sok értelme annak, hogy megkérdőjelezd egy tanulmány számszerű eredményeit, mint például a mintaméret, hacsak nincsenek komoly kétségeid ezzel kapcsolatban. Viszont könnyen látható, ha kutatóknak nem sikerült figyelembe venni a fontos információkat.

— Nicolas Kayser-Bril, Journalism++