Hogyan használta a Datablog a közösségi adatgyűjtést az olimpia-jegyekről szóló cikkéhez

Figure 66. How many Olympic tickets did you get?: the readers' results (The Guardian)
66. ábra: Hány olimpia-jegyhez jutottál hozzá? Az olvasóink eredménye (Guardian)

Azt hiszem, hogy a legtöbb visszajelzést generáló közösségi adatgyűjtési projektünk az olimpia-jegyek árusításáról szóló cikk volt. Emberek ezrei próbáltak meg jegyeket szerezni az Egyesült Királyságban a 2012-es olimpiára, és nagy volt a felháborodás miután nem kapták meg őket. Voltak, akik több száz fontnyi értékű jegyet rendeltek, és azt mondták nekik, hogy semmit sem kapnak. Azt senki sem tudta valójában, hogy ez csak néhány ember volt-e, akik elég hangosan panaszkodtak, miközben valójában a legtöbb ember boldog volt. Megpróbáltunk kidolgozni egy módszert arra, hogy ezt megtudjuk.

Úgy döntöttünk, hogy a legjobb dolog, amit igazából tehetünk a témában megtalálható jó adatok hiányában az, hogy megkérdezzük az embereket. És azt gondoltuk, hogy mindezt lazán kellene kezelnünk, mert nem kiegyensúlyozott mintáról lesz szó.

Létrehoztunk egy Google űrlapot, és nagyon konkrét kérdéseket tettünk fel. Igazából ez egy elég hosszú űrlap volt, amin olyan kérdések voltak, hogy mekkora értékben rendelt jegyeket, mennyivel terhelték végül a kártyáját, milyen eseményekre mentek el, ilyesmik.

Kitettünk egy kis képet a főoldalra, és nagyon gyorsan megosztották. Azt hiszem, ez az egyik legfontosabb dolog, hogy nem gondolhatsz csak arra, hogy „mit akarok tudni a sztorimhoz”, hanem azt is meg kell gondolnod, hogy „mit akarnak elmondani nekem most az emberek”. És csak akkor lesz sikeres a közösségi adatgyűjtés, ha kihasználod, mit akarnak az emberek mondani neked. A projektben – amely a közösségi adatgyűjtésre tett egyik első kísérletünk volt – a bejött válaszok mennyisége hatalmas volt. Kevesebb mint egy óra alatt ezer, a nap végére pedig hétezer válaszunk volt.

Természetesen innentől  már komolyanvettük az eredmények bemutatását, hiszen eredetileg fogalmunk sem volt arról, mennyire fog működni. Figyelembe vettük például, hogy, lehet, hogy a Guardian olvasók gazdagabbak, mint mások, vagy, hogy azok az emberek, akik a vártnál kevesebbet kaptak, inkább akarnak majd beszélni hozzánk, stb.

Nem tudtuk, hogy mennyire lesznek használhatók az eredmények. Végül lett jó hétezer rekordunk, amelyre a cikkünket alapozhattuk, és azt találtuk, hogy azoknak akik jegyet kértek, nagyjából a fele semmit sem kapott. Ezeket mind lehoztuk, és mivel olyan sok ember vett részt előző nap, sokan érdeklődtek az eredmények iránt.

Pár héttel később megjelent a hivatalos összefoglaló jelentés, és a számaink megdöbbentően közeliek voltak. Szinte pontosan eltaláltuk őket. Azt hiszem, részben szerencse révén, de azért is, csak mert olyan sok embert kérdeztünk meg.

Ha arra kéred az olvasókat, hogy hozzászólásokat írjanak, az korlátozni fog abban, hogy mit tudsz tenni az eredményekkel. Tehát előbb gondolkodással kell kezdened: „mi a legjobb eszköz ahhoz, amit tudni szeretnék?” A hozzászólás szekció, vagy külön alkalmazást készítsek? És ha alkalmazás kell, végig kell gondolni, hogy megéri-e a várakozást és megéri-e az erőforrásokat, amelyekre szükség van az elkészítéséhez.

Ebben az esetben a Google űrlapokra esett a választás. Ha valaki kitölti az űrlapot, az eredmények egy táblázat soraiként láthatók. Ez azt jelentette, hogy még akkor is, mikor folyamatosan frissült és az eredmények még mindig érkeztek, meg tudtam nyitni a táblázatot és azonnal láthattam az összes eredményt.

Megpróbálhattam volna a Google-ban elvégezni a munkát, de letöltöttem a Microsoft Excel programba, azután pedig olyan dolgokat tettem, mint például rendeztem a legkisebbtől a legnagyobbig, és megtaláltam azokat az embereket, akik úgy döntöttek, hogy beírnak valamit ahelyett, hogy számjegyeket írtak volna be arról, hogy mennyit költöttek, és javítottam az összes ilyen adatot. Úgy döntöttem, hogy a lehető legkevesebbet hagyom ki. Tehát ahelyett, hogy csak az érvényes válaszokat fogadtam volna el, megpróbáltam kijavítani a többit. Az emberek külföldi pénznemeket használtak, így átváltottam őket angol fontra, ez elég fáradságos volt.

De a teljes elemzés néhány óra múlva elkészült, és kiiktattam a nyilvánvalóan buta bejegyzéseket. Sokan csak azért töltötték ki az űrlapot, hogy megmutassák, hogy semmit sem költöttek jegyekre. Ez egy kicsit idegesítő volt, de elment. Kevesebb mint száz ilyen válasz volt a több mint hétezer bejegyzés közül.

Azután pár tucatnyian voltak olyanok, akik nyilvánvalóan hamis, magas összegeket adtak meg, hogy megpróbálják torzítani az eredményeket. Olyan dolgokat, mint például tízmillió fontot. Tehát maradt egy olyan halmaz, amelyet felhasználhattam azoknak a normális adatkezelési elveknek az alkalmazásával, amelyeket mindennap használunk. Készítettem egy ún. pivot táblát, végeztem néhány átlagolást. Ilyen dolgokat.

Elképzelésünk sem volt, mekkora jelentősége lesz a projektnek, így csak én és a sport blogunk szerkesztője dolgozott ezen. Összedugtuk a fejünket, és kitaláltuk, hogy ez milyen klassz projekt lenne. Megcsináltuk elejétől a végéig, 24 órán belül. Megvolt az ötletünk, kiterveltünk valamit ebédidőben, feltettük a főoldalra, láttuk, hogy nagyon népszerűnek, kinntartottuk a főoldalon a nap fennmaradó részére, és másnap reggel online bemutattuk az eredményeket.

A Google Dokumentumok használata mellett döntöttünk, mert ez teljes ellenőrzést ad az eredmények felett. Nem kellett senki más elemzési eszközeit használnom. Egyszerűen betehetem egy adatbázis-kezelő szoftverbe vagy egy táblázatkezelőbe. Amikor elkezdesz használni egy hivatalos lekérdező szoftvert, akkor gyakran arra korlátoznak, hogy az ő eszközeiket használd [elemzésre]. Ha az információk, amelyeket kértünk, különösen szenzitívek lettek volna, akkor haboztunk volna, mielőtt a Google-t használjuk, és megfontoltuk volna, hogy valami „házon belüli” megoldást válasszunk inkább. De általában véve viszont nagyon könnyű rátenni egy Google Űrlapot a Guardian egyik oldalára, és szinte észrevehetetlen a felhasználó számára, hogy ilyet használunk. Tehát ez így nagyon kényelmes volt.

Tanács az adatújságíróknak, akik a közösségi adatgyűjtést szeretnék alkalmazni: nagyon konkrét dolgokra kell rákérdezni. Amennyire csak lehetséges, kérdezz olyan dolgokat, amelyek feleletválasztós válaszokkal járnak. Próbálj meg néhány alapvető demográfiai adatot is megszerezni azokról, akikkel beszélsz, így láthatod, ha a mintád esetleg torzított. Ha összegeket és ehhez hasonló dolgokat kérdezel, próbáld meg meghatározni az útmutatóban, hogy ezek számok, és hogy egy adott pénznemet kell használniuk, és hasonló dolgokat. A túlzás nem jó, de azért minél többet fogod a kezüket, annál jobb. És mindig, mindig adj hozzá egy megjegyzés rovatot, mert sok ember kitölti az összes többi mezőt, de amit igazából szeretne az, hogy elmondhassa neked a véleményét a sztoriról. Különösen igaz ez egy fogyasztói történet vagy egy felháborító dolog esetében.

— az interjút Marianne Bouchart, a Data Journalism Blog szerzője készítette Simon Rogersszel, a Guardiantől