Luureagentuurid on aastakümneid ühe oma peamise töömeetodina kasutanud avalike allikate analüüsi. Eesti päritolu teadlane Kalev Leetaru on võtnud luureagentuuride vana meetodi ja ühendanud selle moodsa tehnoloogiaga, mis kogub väga suure hulga infot peaaegu kõigil teemadel peaaegu kõigist maailma riikidest.

Tagantjärele analüüsides saab suuri andmemasse (Big Data't) kasutades näidata, et araabia kevade mässudele eelnes ajakirjanduse tooni muutumine järjest negatiivsemaks.

Tegelikult on viise, kuidas mõnd huvipakkuvat teemat uurida, kasutades ära internetiajastu üht omalt poolt murettekitavamat (privaatsusküsimus), kuid samas enneolematuid võimalusi pakkuvat (hoomamatu kogus informatsiooni meie kõigi kohta) Big Data't, ehk suuri andmemasse.

Google'i otsing

Google'i tööpõhimõte on otsida märksõnu avalikult kättesaadavatest tekstidest, dokumentidest. Otsingutulemuste järjestust mõjutab lihtsustatult öeldes see, mis järjekorras kasutajad otsingutulemustele klikivad. Kõige populaarsemad vasted liiguvad järjekorras ette. Google'i algoritm kohandab otsingutulemustele vastavalt kasutajate eelistustele.

Kuna aja jooksul on teatud teemade kohta kogunenud tohutult palju informatsiooni ja Google'i otsing on kõige rohkem kasutatud otsingumootor maailmas, võib Google'i otsingutulemuste põhjal teha teatud sotsiaalseid ja majanduslikke järeldusi. Näiteks võib gripiepideemiat ennustada selle põhjal, kui palju tehakse gripisümptomite päringuid teatud piirkonnas.

Kitsama teema huvilise jaoks annab Google aga praktiliselt lõpmatu koguse materjale, mille jaoks peab vaid otsingutulemuste lehekülgi edasi klikkima. (Kui paljud on ausalt liikunud otsingutulemustes näiteks kaugemale kui 10. leheküljele?)

Twitteri #-tag

Twitter on samuti sotsiaalmeediakanal, mille andmemaht on hoomamatu. Suuremate sündmuste, tähtpäevade, nähtuste puhul kasutatakse tihti hashtag'e, ehk #-tage ehk #mingisõna tähistust. Twitteri keskkonnast otsides võib sama teema kohta käivad säutsud kokku koondada. Keskmiselt säutsutakse Twitteris päevas rohkem kui 500 miljonit korda, 5700 säutsu sekundis, mis on väga suur infokogus ja võib osutuda väga kasulikuks, kui seda teadlikult filtreerida (#-tagide või otsingusõnade kaudu) ja analüüsida.

Näited: #snkt (populaarne telesaade Eestis, mille teine hooaeg just lõppes). #-tage on ka araabia kevade ja Londoni metroo pommitamiste ajal kasutatud. Twitteri #-tage on kasutatud ka kriisipiirkondades päästemeeskondade poolt, et edastada kõige operatiivsemat infot, kusjuures sündmuste keskel olevad inimesed on tihtipeale palju rohkem kursis kui päästjad.

Kuid teemad võivad olla ka palju meelelahutuslikumad ja/või poliitilisemad. Twitteris on ka rubriik "Trending", kus tuuakse välja Twitteri keskkonna kõige populaarsemad #teemad.

Google Alerts

Google pakub oma otsingumootori põhjal teenust, kus kasutajale saadetakse huvipakkuva märksõna kohta ise määratud intervalliga uudiseid, blogipostitusi ja muud sisu, mille automaatotsing leiab.

Loo autor on näiteks seadnud üles Google Alerti, ehk Google'i märguande otsingusõnale "Estonia". Nädalase intervalliga laekub emailile ingliskeelseid artikleid ja blogipostitusi, kus on Eesti ära märgitud. See ei ole küll täiuslik süsteem, sest eksisteerib viise, mis võivad automaatselt tehtud otsingud nö segadusse ajada, kuid üldisema pildi võib Eestist rääkivatest uudistest siiski saada.

Sotsiaalmeedia

Nagu eelpool selgitatud Google'i otsingutes ja Twitteri #-tagidega, saab tegelikult ükskõik mis teemade kohta otsida informatsiooni ka teistest sotsiaalmeediakanalitest. Praeguseks on #-tagid kasutusele võtnud ka Facebook ja enne seda populaarne fotode jagamise rakendus Instagram.

Facebookist info otsimine on praeguse seisuga sotsiaalmeediakanalitest kõige "suletum" - väljastpoolt pääseb ligi vaid avalikele profiilidele. Sisse logituna näeb enda tutvusringkonda ja neid, kelle privaatsusseaded lubavad ligipääsu. Lihtsat otsingut saab sealgi teostada ning laiendada Facebookist kaugemalegi (Bing otsingumootori põhjal). Facebookil on aga töös ka beta-versioon uuest "sotsiaalsest otsingumootorist" Graph (hetkel olemas vaid inglise keeles), mis võtab arvesse kasutajaga jagatud informatsiooni - kõikide otsingutulemused on unikaalsed.

Ülalpool toodud näited on vaid väga väike killuke jäämäe veepealsest osast. Asjahuvilistele on loodud spetsiaalseid internetitööriistu, millest paljud põhinevadki otsingumootorite tulemustele või automeeritud päringute tegemisele ja informatsiooni filtreerimisele. 

Big Data, millest suur osa informatsiooni käib lihtkasutajate kohta, on kahe teraga mõõk. Gripiepideemia ette ennustamine on positiivne kasutus, rahvarahutuste ehk ka. Akadeemilisel maailmal on enneolematu andmetemassiiv käepärast, kuid samas võib halbade kavatsuste korral teenida inimeste privaatse informatsiooni ja eelistuste põhjal kellegi ärihuvisid ning luurata nende järel.