Adatújságírók beszélnek a kedvenc eszközeikről

Pssssszt! Ez az adataid hangja, amikor kicsomagolod őket a légmentes csomagolásukból. Most mi lesz? Mit keresel? És milyen eszközöket használsz arra, hogy lelkesen belefogj? Adatújságírókat kértünk meg arra, hogy beszéljenek nekünk egy kicsit arról, hogy hogyan dolgoznak az adatokkal. Itt van, amit mondtak.

Lisa Evans, Guardian

A Guardian Datablognál valóban szeretünk kapcsolatba lépni az olvasóinkkal és az, hogy lehetővé tesszük számukra, hogy gyorsan megismételjék az adatújságírási tevékenységünket, azt jelenti, hogy építhetnek az általunk végzett munkára, és néha észrevesznek olyan dolgokat, amelyeket mi nem. Tehát minél intuitívabbak az adateszközök, annál jobbak. Megpróbálunk olyan eszközöket kiválasztani, amelyeket bárki elsajátíthatna anélkül, hogy megtanulna egy programozási nyelvet, vagy különleges képzést kapna, hozzákapcsolt súlyos díj nélkül.
Emiatt jelenleg elég komolyan használjuk a Google-termékeket. Az összes adathalmaz elfogadható, az eredmények pedig Google Táblázatként érhetők el, ami azt jelenti, hogy a Google-fiókkal rendelkező emberek letölthetik az adatokat, importálhatják azokat a saját fiókjukba és elkészíthetik a saját diagramjaikat, rendezhetik az adatokat és létrehozhatnak kimutatásokat, vagy beimportálhatják az adatokat egy általuk választott eszközbe.

Az adatok térképpel való megjelenítésére a Google Fusion táblázatokat használjuk. Amikor hőtérképeket készítünk a Fusion-ban, megosztjuk a KML shape fájljainkat, hogy az olvasók letölthessék és felépíthessék a saját hőtérképeiket, miközben esetleg extra adatrétegeket adnak hozzá a Datablog eredeti térképéhez. Ezeknek a Google-eszközöknek a másik szép vonása az, hogy számos olyan platformon működnek, amelyeket az olvasóink arra használnak, hogy elérjék a blogot, mint például az asztali számítógépükön, a mobilltelefonjaikon és táblagépeiken.
A Google Táblázatokon és a Fusionon kívül két másik eszközt használunk a mindennapi munkánkban. Az első a Tableau, amely többdimenziós adathalmazokat jelenít meg, a második pedig az adatok gyors elemzésére való ManyEyes. Ezek közül egyik eszköz sem tökéletes, így továbbra is keresünk olyan jobb vizualizációs eszközöket, amelyeket az olvasóink élvezni fognak.

Cynthia O’Murchu, Financial Times

Programozó leszek én valaha? Nagyon valószínűtlen! Én természetesen nem gondolom, hogy minden riporternek tudnia kell, hogy hogyan kell programozni. De én azt hiszem, hogy nagyon értékes számukra az, hogy legyen általánosabb fogalmuk arról, hogy mi lehetséges, és tudják, hogy hogyan kell beszélni a programozókkal.
Ha éppen most indulsz, sétálj, ne fuss! Meg kell győznöd a kollégáidat és szerkesztőidet arról, hogy az adatokkal végzett munka olyan sztorikat kaphat eredményül, amelyeket egyébként nem kapnál meg, és ez és szerkesztők, hogy az adatok neked történetek, ellenkező esetben nem kap, és ezt érdemes csinálni. Ha már látják ennek a megközelítésnek az értékét, továbbléphetsz a bonyolultabb történetek és projektek megvalósítására.
Az én tanácsom az, hogy tanuld meg az Excelt, és először néhány egyszerű sztorit készíts. Indulj el kicsiben, és dolgozd ki a módszeredet az adatbázis elemzésére és feltérképezésére. Olyan sok mindent tudsz megtenni Excelben – ez egy rendkívül hatékony eszköz, és a legtöbb ember a funkcióinak a töredékét sem használja. Ha megteheted, menj el egy újságíróknak szóló Excel kurzusra, mint például az egyikre, amelyet a Tényfeltáró Újságírók Központja kínált fel.
Az adatok értelmezésére vonatkozóan: ne vedd ezt félvállról. Lelkiismeretesnek kell lennie. Figyelj a részletekre, és a kérdezz ráaz eredményeidre. Tartsd meg a jegyzeteket arról, hogy hogyan dolgozod fel az adatokat, és tarts meg az eredeti adatok egyik példányát. Könnyű hibát elkövetni. Két vagy három alkalommal gyakorlatilag mindig a semmiből végzem el az elemzést. Még jobb lenne, ha megkérnéd a szerkesztődet, vagyvalaki mást, hogy külön-külön elemezze az adatokat, és hasonlítsa össze az eredményeket.

Scott Klein, ProPublica

Az a képesség, hogy olyan gyorsan tudunk összetett szoftvereket írni és telepíteni, mint ahogy egy riporter tud sztorit írni, egészen új dolog. Régen ez sokkal hosszabb ideig tartott. A dolgok megváltoztak, köszönhetően a két szabad/nyílt forráskódú gyors fejlesztési keretrendszer fejlesztésének: A Django és a Ruby on Rails, amelyek mindegyikét először a 2000-es évek közepén adták ki.

A Django-t, amelyet a Python programozási nyelv fölé építettek, Adrian Holovaty és egy szerkesztőségben – a Kansas állambeli Lawrence-ben lévő Lawrence Journal-World-nél – dolgozó csapat fejlesztette. A Ruby on Rails-t Chicagóban fejlesztette DavidHeinemeier Hansson és a 37Signals, egy webalkalmazás-fejlesztő cég.
Bár a két keretrendszer különböző megközelítési módokat igényel az „MNV (Modell-Nézet-Vezérlő)-mintához”, mindketten kiválóak, és lehetővé teszik, hogy még nagyon összetett webes alkalmazásokat is nagyon gyorsan elkészítsünk. Átveszik egy alkalmazás fejlesztésének néhány alapvető munkafázisát. Az olyan dolgokat, mint például egy elem létrehozása és adatbázisból való lekérdezése, és az URL-címek alkalmazásban lévő egyedi kóddal való összeegyeztetése, beépítették a keretrendszerekbe, így a fejlesztőknek nem kell kódot írniuk az ilyen alapvető dolgok megtételére.
Bár nem volt hivatalos felmérés az Egyesült Államokban dolgozó híralkalmazás-fejlesztő csapatokról, magától értetődik, hogy a legtöbb csapat e két keretrendszer egyikét használja az adatbázissal támogatott híralkalmazásokhoz. A ProPublica szerkesztőségében a Ruby on Rails-t használjuk.
A gyors webszerver „szeleten” működő olyan hálózatlétesítési szolgáltatások fejlesztése, mint például az Amazon Webszolgáltatások (Amazon Web Services) is átvettek néhányat azokból a feladatokból, amelyekrégebben lassú folyamatokká változtatták egy webalkalmazás telepítését.
Ezenkívül teljesen szabványos eszközöket használtunk az adatokkal való munkához: Google Refine-t és Microsoft Excelt az adatok tisztításához; SPSS-t és R-t statisztikák készítéséhez; ArcGIS-t és QGIS-t a GIS térképek készítéséhez; Git-et a forráskód kezeléséhez; TextMate-et, Vimet és Sublime Textet a kód írásához, illetve a MySQL, PostgreSQL és SQL Server keverékét az adatbázisokhoz. Saját „Glass” nevű JavaScript-keretrendszert készítettünk, amely segít nekünk abban, hogy nagyon gyorsan fejlesszünk bonyolult felülettel rendelkező alkalmazásokat JavaScript-ben.

Cheryl Phillips, Seattle Times

Néha a legjobb eszköz lehet a legegyszerűbb eszköz – egy táblázat erejét könnyű alábecsülni. De egy táblázat használata régen, amikor minden DOS-ban működött, lehetővé tette számomra, hogy megértsem a Texas Rangers tulajdonosai számára készült partnerségi megállapodáshoz készült összetett képletet – régen, amikor George W. Bush az egyik fő tulajdonosa volt. Egy táblázat segíthet nekem megjelölni a számításokban található kiugró értékeket vagy hibákat. Írhatok tisztítási szkripteket és mást. Ez egy alapvető elem egy adatújságíró számára elérhető eszköztárban. Ettől függetlenül az én kedvenc eszközeimben még több erő van – a statisztikai elemzésre való SPSS és a térképprogramok, amelyek lehetővé teszik a számomra, hogy földrajzilag lássam a mintákat.

Gregor Aisch, Open Knowledge Foundation

Én a Python egyik nagy rajongója vagyok. A Python egy csodálatos nyílt forráskódú programozási nyelv, amely könnyen olvasható és írható (például nem kell minden egyes sor után pontosvesszőt írnod). Ami még ennél is fontosabb, hogy a Python-nak hatalmas felhasználói bázisa van, és ezért szó szerint mindenhez van (csomagoknak nevezett) bővítménye, amire szükséged van.
A Django-t olyasminek tekinteném, amire az adatújságíróknak ritkán van szüksége. Ez egy Python-alapú webalkalmazási keretrendszer, más néven nagy, adatbázis-vezérelt webalkalmazások készítésére való eszköz. Ez minden bizonnyal nehézsúlyú a kis interaktív infografikákhoz.

A QGis-t is használtam, amely olyan nyílt forrású eszköztár, amely az adatújságírók számára szükséges széleskörű GIS-funkciókat nyújtja, akik hébe-hóba foglalkoznak földrajzi adatokkal. Ha térinformatikai adatokat kell átalakítanod egyik formátumból a másikba, akkor a QGis az, amelyre szükséged van. Szinte minden ott található geodata formátumot (SHP-fájlok, KML, GeoJSON,…) képes kezelni. Ha ki kell vágnod néhány régiót, a QGis ezt is meg tudja tenni. Plusz van egy hatalmas közösség a QGis körül, így rengeteg olyan erőforrást találsz, mint az útmutatókkint a weben.

Az R-t elsősorban tudományos vizualizációs eszközként hozták létre. Nehéz bármely olyan vizualizációs módszert vagy adatkonvertálási technikát találni, amelyet nem építettek már be az R-be. Az R egy saját univerzum, a vizuális adatelemzés Mekkája. Egyetlen hátránya az, hogy meg kell tanulnod (még egy) programozási nyelvet, mivel az R-nek saját nyelve van. De ha megtetted a kezdeti emelkedést a tanulási görbén, akkor nincs olyan eszköz, amely hatékonyabb, mint az R. A képzett adatújságírók az R-t használhatják arra, hogy elemezzék azt a hatalmas adathalmazt, amely kiterjeszti az Excel határait (például, ha egymillió soros táblázatod van).
Ami igazán szép az R-ben az, hogy képes vagy betartani annak a pontos „protokollját”, hogy mit csinálsz az adatokkal az egész folyamat során, egy CSV-fájl beolvasásától a diagramok létrehozásáig. Ha az adatok megváltoznak, egyetlen kattintással újragenerálhatod a diagramot. Ha valaki kíváncsi a diagramod integritására, akkor megmutathatod a pontos forrást, amely lehetővé teszi mindenki számára, hogy magának újra létrehozza apontos diagramot (vagy megtalálja az általad elkövetett tévedéseket).

A NumPy + MatPlotLib egyfajta módszere annak, hogy ugyanezt megtegyük a Python-ban. Ez egy lehetőség, ha te már jól képzett vagy a Python-ban. Valójában a NumPy és MatPlotLib két példa a Python csomagokra. Adatelemzésre és adatvizualizációra használhatók, és mindketten statikus képi megjelenítésekre korlátozódik. Nem használhatók tippekkel ellátott interaktív diagramok létrehozására ésfejlettebb dolgokra.

Nem használok MapBox-ot, de hallottam, hogy ez egy nagyszerű eszköz, ha az OpenStreetMap-en alapuló kifinomultabb térképeket szeretnél nyújtani. Ez lehetővé teszi a számodra például, hogy testreszabd a térképstílusokat (színek, címkék, stb). Van egy társa a MapBox-nak, amelynek neve Leaflet. A Leaflet alapvetően egy magasabb szintű JavaScript könyvtár térképek készítéséhez, amely lehetővé teszi számodra, hogy könnyen válts a térképszolgáltatók (OSM, MapBox, Google Térképek, Bing, …) között.
A RaphaelJS egy meglehetősen alacsony szintű vizualizációs könyvtár, amely lehetővé teszi számodra, hogy alapvető elemekkel (mint például körökkel, vonalakkal, szövegekkel) dolgozz, és hogy animáld őket, adj hozzájuk kölcsönhatásokat, stb. Nincs olyan dolog benne, mint egy használatra kész oszlopdiagram, így magadnak kell megrajzolnod egy téglalapkészletet.
Azonban az a jó dolog a Raphaelben, hogy minden, amit létrehozol, az Internet Explorerben is működni fog. Nem ez a helyzetsok más (csodálatos) megjelenítő könyvtárral, mint például a d3. Sajnos oly sok felhasználó használ még mindig IE-t, és egyik szerkesztőség sem engedheti meg magának, hogy figyelmen kívül hagyja a felhasználók 30 %-át.
A RaphaelJS mellett lehetőség van egy IE-hez tartozó Flash-tartalék (Flash Fallback) létrehozására is. Ez az, amit alapvetően a New York Times csinál. Ez azt jelenti, hogy minden alkalmazást kétszer kell fejlesztened.

Én még mindig nem vagyok meggyőződve annak a “legjobb” eljárásáról, hogyan biztosítsuk a vizualizációt az IE és a modern böngészők számára. Gyakran úgy vélem, hogy A RaphaelJS alkalmazások rettenetesen lassan futhatnak az IE-n, valószínűleg tízszer lassabban, mint a Flash-t használó modern böngészőkben. Tehát a Flash fallback-ek jobb választások lehetnek, ha az összes felhasználó számára kiváló minőségű animált képi megjelenítéseket szeretnél nyújtani.

Steve Doig, az Arizónai Állami Egyetem Walter Cronkite Újságírói Iskolája

A kedvenc eszközöm az Excel, amely képes kezelni az autóproblémák többségét, és megvan az az előnye, hogy könnyen megtanulható és a legtöbb riporter számára rendelkezésre áll. Amikor táblázatokat kell egyesítenem, általában az Access-t használom, de azután visszaexportálom az egyesített táblát az Excelbe a további munkához. Az ESRI ArcMap-jét használom földrajzi elemzésekre; hatékony, és ezt használják azok az ügynökségek, amelyek geokódolt adatokat gyűjtenek. A TextWrangler nagyszerű a furcsa elrendezésű és határolókkal rendelkező szöveges adatok vizsgálatához, és kifinomult keresést-és-cserét végezhetünk a reguláris kifejezésekkel. Amikor olyan statisztikai technikákra van szükség, mint a lineáris regresszió, SPSS-t használok; ennek barátságos mutass rá-és-kattints (point-and-click) menüje van. Az olyan igazán nehéz feladatokhoz, mint azokkal az adatállományokkal végzett munka, amelyekben több millió olyan rekord van, amely komoly szűrést és programozott változótranszformációkat igényelhetnek, a SAS szoftvert használom.

Brian Boyer, Chicago Tribune

A mi választott eszközeink közé tartozik a Python és Django. A hackeléshez, kinyeréshez és az adatokkal való játszadozáshoz, valamint a PostGIS, QGIS és a MapBox eszközkészlet az elképesztő webes térképek készítéséhez. Az R és NumPy + MatPlotLib jelenleg küzdenek a kutatási adatok elemzésére választott eszközkészletünkként vívott hatalomért, bár a kedvenc eszközünket újabban házilag készítjük: CSVKit. Többé-kevésbé mindent, amit teszünk, a felhőben telepítjük.

Angélica Peralta Ramos, La Nacion (Argentína)

A La Nacionnál mi ezt használjuk:

  • Excelt az adatok tisztításához, szervezéséhez és elemzéséhez;
  • Google Táblázatokat a kiadáshoz és olyan szolgáltatásokhoz való kapcsolódáshoz, mint például a Google Fusion Tables és a Junar Nyílt Adat Platform;
  • Junart az adataink megosztásához és cikkeinkbe való beágyazásához, és blogokba való posztoláshoz;
  • Tableau Public-ot az interaktív adatvizualizációinkhoz;
  • a Qlikview-t egy nagyon gyors üzleti intelligencia eszközt, amelyet arra használunk, hogy nagy adathalmazokat elemezzünk és szűrjünk; a NitroPDF-et a PDF-fájlok szöveggé és Excel fájlokká való konvertálásához;
  • A Google Fusion Tables-t a térképi megjelenítésekhez;

Pedro Markun, Transparęncia Hacker

Mint minden műszaki elfogultságot nélkülöző, alulról szerveződő közösség, mi a Transparency Hackers szerkesztőségben sok különböző eszközt és programozási nyelvet használunk. Minden tagnak megvannak a saját preferenciái, és ez a sokféleség jelenti mind az erősségünket, mind a gyengeségünket. Néhányan közülünk valójában egy „Transparency Hacker Linux Distribution” nevű disztribúciót fejlesztenek, amelyről bárhol indíthatnánk Live-módban a rendszert, és elkezdhetnénk adatokat hackelni. Ez az eszköztár tartalmaz néhány olyan érdekes eszközt és könyvtárat az adatok kezelésére, mint például a Refine, RStudio és OpenOffice Calc (általában a hozzáértő emberek által figyelmen kívül hagyott eszköz, de igazán hasznos a gyors/kis anyagokhoz). Elég sokat használtuk a Scraperwikit is, hogy gyorsan hozzunk létre prototípust, és online elmentsük az adateredményeket.
Az adatvizualizációhoz és grafikonokhoz sok olyan eszköz van, amelyet szeretünk. A Python és a NumPy elég hatékonyak. Néhány ember a közösségben játszadozott az R-rel, de a nap végén még mindig azt hiszem, hogy a Javascript grafikonrajzoló könyvtárai, mint a d3, a Flot és a RaphaelJS lesznek végül azok, amelyeket a projektek többségében használunk. Végül sokat kísérleteztünk a térképezéssel és a Tilemill egy nagyon érdekes eszköz volt arra, hogy dolgozzunk vele.