Ötperces szakterületi útmutató

54. ábra. datacatalogs.org (Open Knowledge Foundation)
54. ábra. datacatalogs.org (Open Knowledge Foundation)

Egy adott témával vagy kérdéssel kapcsolatban keresel adatokat? Nem vagy biztos abban, hogy milyen adat van, vagy hol elérhető? Nem tudod, hol kezdd? Ebben a részben megnézzük, hogyan fogjunk neki a weben a nyilvános adatforrások keresésének.

A keresés egyszerűsítése

Bár nem mindig könnyű őket megtalálni, sok weben lévő adatbázist indexelnek a keresőmotorok, akár akarta ezt a közzétevő, akár nem. Itt van néhány tipp ezeknek a megtalálásához:

  • Amikor adatokat keresel, győződj meg arról, hogy a keresett adatok tartalmával kapcsolatos minden keresési kifejezést beleveszel a keresésbe, valamint néhány információt arról a formátumról vagy forrásról, amelyről azt várnád, hogy közöttük lesz. A Google és más keresőmotorok lehetővé teszik számodra, hogy fájltípus szerint keress.  Például kereshetsz csak táblázatokat (ha a keresésedhez hozzáfűzöd: „filetype:XLS filetype:CSV”), földrajzi adatokat („filetype:shp”) vagy adatbázis-kivonatokat („filetype:MDB, filetype:SQL, filetype:DB”). Ha olyan kedved van, még PDF-eket is kereshetsz („filetype:pdf”).
  • Egy URL (link) részletével is kereshetsz. Ha Google-lal rákeresel az „inurl:downloads filetype:xls” kifejezésre, ez megpróbál megtalálni minden olyan Excel fájlt, amelyek webcímében benne van a „downloads” (ha egyetlen download találatot találsz, gyakran érdemes pontosan ellenőrizni, hogy milyen más eredmények léteznek ugyanabban a mappában a kiszolgálón). Korlátozhatod a keresésedet csak azokra az eredményekre is, amelyek egyetlen domain névre vonatkoznak, azáltal, hogy pl. a „site:agency.gov”-ra keresel.
  • Egy másik ismert trükk, ha nem közvetlenül tartalomra keresel, hanem olyan helyekre, ahol valószínűleg nagy mennyiségű adat elérhető.  Például  lehet, hogy a „site:agency.gov Directory Listing” kiad neked néhány olyan listát, amelyeket olyan webszerver generál, amelyen könnyen hozzáférhető nyers adatok vannak, míg a „site:agency.gov Database Download” szándékosan létrehozott listákat keres.

Adatokat tartalmazó oldalak és szolgáltatások böngészése

Az elmúlt néhány évben számos erre a célra létrehozott adatportál, adatközpont és más adatokat tartalmazó oldal jelent meg a weben.
Ezek jó helyek arra, hogy megismerkedjünk olyan típusú adatokkal, amelyek rendelkezésünkre állnak. Kezdetnek vess egy pillantást erre a listára:

  • Hivatalos adatportálok. A kormány azon szándéka, hogy adott adathalmazokat kiadjon, országról országra változik. Egyre több ország indít adatportálokat (amelyeket az USA data.gov és az Egyesült Királyság data.gov.uk portálja ihletett), hogy előmozdítsa a kormányzati adatok polgári és kereskedelmi újrafelhasználását. Az ilyen webhelyek naprakész, globális indexét itt lehet megtalálni datacatalogs.org. Egy másik hasznos webhely a Guardian World Government Data (Guardian Világkormányzati Adatok), egy olyan metaadat-keresőgép, amely sok nemzetközi kormányzati adatkatalógust tartalmaz.
  • Az adatközpont (data hub). Egy közösség által működtetett erőforrást irányít az Open Knowledge Foundation (Nyílt Tudás Alapítvány), amely egyszerűvé teszi a szabadon elérhető adatforrások keresését, megosztását és újrafelhasználását, különösen olyan módszerekkel, amelyeket géppel automatizálnak.
  • A ScraperWiki, egy online eszköz arra, hogy egyszerűbbé tegye „a hasznos adatbitek kinyerésének folyamatát azért, hogy újrahasznosíthatók legyenek más alkalmazásokban, vagy azért, hogy az újságírók és kutatók keresgélhessenek bennük.” A legtöbb scraper és az adatbázisaik nyilvánosak és újrafelhasználhatók.
  • A Világbank és az Egyesült Nemzetek adatportáljai minden országrólmagasszintű mutatókat tesz elérhetővé, gyakran sok évre visszamenőleg.
  • Számos startup (kezdő vállalkozás) jelenik meg, amelyek célja, hogy közösségeket építsenek az adatmegosztás és újraértékesítés köré. Ilyen például a Buzzdata, egy hely a privát és publikus adathalmazok megosztására és a velük végzett közös munkára – vannak az olyan adatáruházak is, mint pl. az Infochimps és a DataMarket.
  • A DataCouch – egy hely az adataid feltöltésére, pontosítására és képi megjelenítésére.
  • A Google egyik érdekes leányvállalata. a Freebase, „egy ábrán mutatja az embereket, helyeket és dolgokat, amelyet olyan közösség készített, amely imádja a nyílt adatokat.”
  • Kutatási adatok. A kutatási adatoknak számos nemzeti és tudományági tartalomszolgáltatói vannak, mint pl. az Egyesült Királyság adatainak archívuma. Sok olyan adat van, amely szabadon elérhető a hozzáférési ponton, és sok olyan adat is van, amely előfizetést igényel, vagy amely nem újrafelhasználható vagy újraterjeszthető anélkül, hogy először engedélyt kérnénk rá.

Kérdezz fórumokon

Keress már megírt válaszokat vagy tégy fel egy kérdést a  Get The Data vagy a Quora fórumokon. A GetTheData egy kérdéseket és válaszokat gyűjtő webhely, ahol felteheted az adatokkal kapcsolatos kérdéseidet, beleértve azt, hogy hol találhatsz adatokat egy adott kérdéssel kapcsolatban, hogyan kérdezhetsz vagy tölthetsz le egy bizonyos adatforrást, milyen eszközöket használhatsz arra, hogy vizuális módon feltérképezz egy adathalmazt, hogyan tisztíthatod meg az adatokat vagy alakíthatod át azokat olyan formátumra, amellyel dolgozni tudsz.

Kérdezz levelező listán

A levelező listák kombinálják egy bizonyos témában működő teljes közösség tudását. Az adatújságírók számára a Data Driven Journalism List (Adatvezérelt újságírás lista) és a NICAR-L listák kiváló kiindulópontok. Ezek közül mindkét lista tele van adatújságírókkal és a  számítógéppel támogatott újságírás (CAR) geekjeivel, akik mindenféle projekteken dolgoznak. Jó esély van arra, hogy valaki már dolgozott olyan sztorin, mint a tied, és van ötlete, hol lehet elindulni, vagy akár ismeri pont magára az adatra mutató linket. Kipróbálhatod a Projekt Wombat listát („egy nehéz referenciakérdések számára létrehozott vitalista”), az Open Knowledge Foundation (Nyílt Tudás Alapítvány) számos levelező listáját, a theInfo címen található levlistákat, vagy olyan listák keresését, amelyek a számodra érdekes témában vagy területen működnek.

Csatlakozz egy Hacks/Hackers eseményhez

A Hacks/Hackers egy gyorsan bővülő nemzetközi közösségi újságírói szervezet tucatnyi helyi csoporttal és tagok ezreivel négy kontinensről. Az a küldetése, hogy létrehozza az újságírók („hackek”) és informatikusok („hackerek”) hálózatát, akik újragondolják a hír és az információ jövőjét.  Egy ilyen széles hálózattal – komoly esély van arra, hogy valaki tudja, hol kell keresni azokat a dolgokat, amelyeket te keresel.

Kérdezz meg egy szakértőt

A professzorok, köztisztviselők és ipari szakemberek gyakran tudják, hol kell keresni. Hívd fel őket. Küldj nekik e-mailt. Szólítsd meg őket a rendezvényeken. Jelenj meg az irodájukban. Kérd szépen. „Egy sztorin dolgozom X-ről. Hol találok hozzá adatokat? Tudja, kinél vannak meg?”

Ismerd meg a kormányzati informatikát

A technikai és adminisztratív háttér megértése, amelyben a kormányok karbantartják az információikat, gyakran hasznos, amikor megpróbálsz adatokhoz hozzáférni. Függetlenül attól, hogy ez a CORDIS, a CONS vagy THOMAS – a nagybetűs rövidítésekből álló nevű adatbázisok gyakran a leghasznosabbá válnak, ha egyszer egy kicsit megérted a rendeltetési céljukat.

Találj kormányzati szervezeti diagramokat és keress több területet átfogó funkcióval rendelkező osztályokat/egységeket (pl. Beszámolók, IT szolgáltatások), böngészd át a weboldalaikat. Sok adatot több osztályon is tárolnak, és míg az egyik úgy vigyáz egy adatbázisra, mintha a legféltettebb kincse lenne, egy másik lehet, hogy szabadon átadja neked ugyanazt.

Keress dinamikus infografikát a kormányzati honlapokon. Ezeket gyakran strukturált adatforrások/API-k (alkalmazásprogramozási interfész) működtetik, amelyek önállóan is használhatók (pl. légijárat-követő kisalkalmazások, időjárás előrejelző Java alkalmazások).

Végezz újabb keresést azoknak a kifejezéseknek és valószínűtlen szócsoportoknak a használatával, amelyeket a kutatás során felfedeztél

Ha többet tudsz arról, amit keresel, talán kicsivel több szerencséd lesz a keresőmotorokkal!

Küldj közérdekűadat-igénylést

Ha úgy gondolod, hogy egy kormányzati szerv rendelkezik azokkal az adatokkal, amelyekre szükséged van, egy közérdekűadat-igénylés lehet a legjobb eszközöd. A továbbiakban olvashatsz arról, hogyan készíts ilyen igénylést.

Brian Boyer (Chicago Tribune), John Sándor (WNYC), Friedrich Lindenberg (Open Knowledge Foundation), Jane Park (Creative Commons), Chrys Wu (Hacks/Hackers)