Szűts Zoltán – Yoo Jinil: Big Data, az információs társadalom új paradigmája Hivatkozás/reference: A jelenben rendkívül népszerű Big Data kifejezés a strukturált és strukturálatlan adatok mennyiségének ex- Szűts Zoltán és Yoo Jinil, „Big Data, az információs ponenciális növekedését, elérhetőségét és elemezhetősé- társadalom új paradigmája”, Információs gét jelöli. A Big Data megjelenése egyszerre ruházza fel Társadalom, XVI. évf. (2016) 1. szám, 8-28. old. lehetőségekkel és állítja új kihívások elé a közigazgatás, http://dx.doi.org/10.22503/inftars.XVI.2016.1.1 tudományos és üzleti élet szereplőit. A lehetőségek közé sorolhatjuk az így kapott eredményekkel alátámasztott üzleti döntéseket, a hatékonyabbá tett logisztikát és mar- ketinget, vagy éppen a társadalmat foglalkoztató problé- mák politikai döntéshozók elé tárását. Tanulmányunk az információs társadalom szempontrendszeréből kiindul- va, összegző képet ad a Big Data jelenségről, bemutatja annak definíciós kísérleteit és megközelítési módjait, illetve ismerteti a feltételrendszert, melynek teljesülése esetén ma erről az új informatikai, társadalmi, kereske- delmi, kormányzati paradigmáról beszélhetünk. A Big Data-hoz vezető út leírása mellett kitér az adatokhoz való hozzáférés és feldolgozás problémáira, a privacy, az adatbiztonság, a kimaradó információs források kér- déskörére, illetve a módszer lehetséges torzításaira, hi- báira is. Kulcsszavak: Big Data, privacy, digitális lábnyom, szen- zorok, közösségi média Big Data, the new Paradigm of the Information Society These days Big Data is a popular term used to describe the boom, availability and analysis of structured and un- structured information. Big data is a key phenomenon of today’s information society. Everyday a huge amount of data is collected from online commerce, web-browsing, social media, and health-related activities. Big Data sets challenges and provides opportunities for government, science and business. This paper attempts to paint a global picture about Big Data, and to present its defi- nitions and the road so far. It also address myriad chal- A folyóiratban közölt művek a Creative Commons lenges in the handling of Big Data sets, such as privacy, Nevezd meg! - Ne add el! - Így add tovább! 4.0 accuracy, and security. Nemzetközi Licenc feltételeinek megfelelően Keywords: Big Data, privacy, digital footprint, sensors, használhatók. social media inftars.novjavitott_Layout 1 12/1/16 9:03 AM Page 8 TANULMÁNYOK Szűts Zoltán – Yoo Jinil Big Data, az információs társadalom új paradigmája Bevezetés Az információ a 21. század olaja, annak elemzése pedig a robbanómotor. (Sondergaard 2011) A tanulmány célja, hogy az információs társadalom szempontrendszeréből kiindulva ösz- szegző képet fessen a napjainkban rendkívüli tudományos és üzleti érdeklődés fókuszába került Big Data jelenségről, bemutassa annak definíciós kísérleteit és megközelítési mód- jait, valamint a feltételrendszert, melynek teljesülése esetén ma erről az új informatikai, társadalmi, kereskedelmi, kormányzati paradigmáról beszélhetünk. Reményeink szerint a tanulmánynak szerepe lehet abban, hogy párbeszéd indulhasson az általunk fontosnak és aktuálisnak ítélt témák mentén úgy, mint: a lehetséges alkalmazási területek, a hozzá- férés és feldolgozás (hatalmi) problémái, vagy éppen a privacy és adatbiztonság kérdésköre.1 A Big Data a mai információs társadalom gravitációs magja, mivel a társadalmi, po- litikai és gazdasági folyamatok feltérképezését segíti elő (McNeely és Hahm 2014: 304). A Big Data egyszerre adhat magyarázatot a felhasználók fogyasztói és információs visel- kedésére, nyújthat segítséget a piacok felméréséhez, javíthatja a marketing- és értékesítési kampányokat, adhat irányjelzést az árképzésnél és optimalizálhatja a logisztikai folyama- tokat és az árufolyamot, menthet életeket a gyógyászatban. Hasonlóképpen elengedhe- tetlen az okosvárosok közlekedésében: segít optimalizálni a forgalmat és az okosautókat kiszolgálva elkerülni a baleseteket. Hatékonyabbá teheti a tanítási, tanulási folyamatokat és felgyorsíthatja a tudományos felfedezéseket (Benedek és Molnár 2013). A Big Data jelensége azonban rendkívül megosztó. Egyszerre bír utópikus és disz- tópikus olvasatokkal. Egyrészt hatékony eszköz a társadalmi és a jól-léti problémák fel- térképezésére és a lehetséges mintázatok és válaszok megtalálására. Segítséget nyújthat az eddig gyógyíthatatlan betegségek kutatásában, a terrorizmus elleni harcban vagy a glo- bális felmelegedés elleni küzdelemben. Ugyanakkor számos kutató – mint azt a Big Data kritikájával foglalkozó fejezetben majd részletesen is bemutatjuk – felhívja a figyelmet a személyi adatokkal való visszaélés és a privacy megsértésének lehetőségére és az államok növekvő megfigyelési és ellenőrzési erejére (Boyd és Crawford 2012: 663–664). A Big Data egyszerre jelent szemantikai, analitikai, adattárolási és hozzáférési kihí- vást, hiszen napjainkban eddig nem látott nagyságrendű adatok tárolását, feldolgozását, a rejtett és váratlan összefüggések megtalálását feltételezi. Bár a fogalomnak nem létezik 1Amikor a Big Data jelenségével kezdtünk el foglalkozni, a szakirodalmat az EBSCOés Google Scholar rendszerében böngészve és szelektálva rá kellett jönnünk, hogy olyan nagy mennyiségű in- formációt publikáltak a témában, hogy jó lett volna egy szelektáló gépi algoritmust használni. Ez természetesen lehetetlen, hiszen a szelekciót magának a kutatónak kell végeznie, mivel ő jelöli ki az általa vizsgálandó problémákat és veszi észre az összefüggéseket. Egy alapszintű algoritmus azon- ban a jövő tanulmányírói számára szemantikus elemzés alapján – a Big Datára támaszkodva – feltár- hatná akár éppen a Big Data aktuális kérdésköreit vagy a legvitatottabb kérdéseit. 8 inftars.novjavitott_Layout 1 12/1/16 9:03 AM Page 8 inftars.novjavitott_Layout 1 12/1/16 9:03 AM Page 9 TANULMÁNYOK BIG DATA, AZ INFORMÁCIÓS TÁRSADALOM ÚJ PARADIGMÁJA egységes definíciója, tanulmányunkban a Big Data alatt a strukturált és strukturálatlan in- Szűts Zoltán – Yoo Jinil formáció mennyiségének exponenciális növekedését, annak elérését és felhasználását ért- jük. Rögtön az elején ki kell emelnünk, hogy a fogalom leginkább az adatok Big Data, az információs társadalom új paradigmája feldolgozásának módjára fekteti a hangsúlyt, és a big (óriási, megszámolhatóan sok) jelzővel együtt érthető meg. Big Datáról csak feldolgozható adatok esetén beszélhetünk (Bodnár Bevezetés 2014). A Big Data egyik alapja az a meggyőződés, miszerint az óriási mennyiségű és kü- Az információ a 21. század olaja, annak elemzése pedig a robbanómotor. lönböző tartalmú adatból olyan következtetéseket lehet levonni, melyek kisebb mennyi- (Sondergaard 2011) ségű adat feldolgozása során nem tűnnének fel. Az internet demokratikus környezete, a világháló szabadon írható felülete, a hálózatra A tanulmány célja, hogy az információs társadalom szempontrendszeréből kiindulva ösz- kötött eszközök számának exponenciális növekedése a digitálisan rögzített adat mennyiség szegző képet fessen a napjainkban rendkívüli tudományos és üzleti érdeklődés fókuszába robbanásszerű növekedéséhez vezetett. Minden ugyanis, ami hálózat kontextusában szü- került Big Data jelenségről, bemutassa annak definíciós kísérleteit és megközelítési mód- letik, történik, megmarad, és ezzel együtt visszakereshetővé, elemezhetővé válik. Az in- jait, valamint a feltételrendszert, melynek teljesülése esetén ma erről az új informatikai, formációs társadalom korában az internet behatol a társadalom alrendszeribe is. Hálózatra társadalmi, kereskedelmi, kormányzati paradigmáról beszélhetünk. Reményeink szerint költözik többek között az üzleti élet, a politika, a kormányzás, az oktatás, a gyógyítás. Ami a tanulmánynak szerepe lehet abban, hogy párbeszéd indulhasson az általunk fontosnak korábban a magánélet kitüntetetten intim, zárt köre volt, az most már az interneten kinyílik és aktuálisnak ítélt témák mentén úgy, mint: a lehetséges alkalmazási területek, a hozzá- a végtelenbe a minősítésekre éhes én új terepeként (Csepeli 2015: 172-173). Az internet férés és feldolgozás (hatalmi) problémái, vagy éppen a privacy és adatbiztonság nem felejt, erős túlzással élve környezetében nem törlődik ki semmi. „A hálózati térben kérdésköre.1 minden kapcsolat, cselekvés, érdeklődés nyomot hagy, kutathatóvá válik” (Dessewffy és Láng A Big Data a mai információs társadalom gravitációs magja, mivel a társadalmi, po- 2015: 160). Ahogy életünk mind nagyobb részét online töltjük, úgy növekszik a digitális litikai és gazdasági folyamatok feltérképezését segíti elő (McNeely és Hahm 2014: 304). lábnyomunk is. Annak ellenére, hogy életünk számos mozzanatában digitális rendszerek- A Big Data egyszerre adhat magyarázatot a felhasználók fogyasztói és információs visel- kel lépünk interaktivitásba, nem gondolunk bele, milyen sok (gyakran triviális) információt kedésére, nyújthat segítséget a piacok felméréséhez, javíthatja a marketing- és értékesítési hagyunk magunk után (Zadrozny és Kodali 2013). kampányokat, adhat irányjelzést az árképzésnél és optimalizálhatja a logisztikai folyama- A témát a tudomány területéről megközelítve elmondhatjuk, hogy a Big Data lehet tokat és az árufolyamot, menthet életeket a gyógyászatban. Hasonlóképpen elengedhe- az elmélet, kísérlet és szimuláció központú kutatás mellett a negyedik tudományos para- tetlen az okosvárosok közlekedésében: segít optimalizálni a forgalmat és az okosautókat digmarendszer. Ezt a trendet két tendencia támogatja. Az elsőről, az adatok generálásának kiszolgálva elkerülni a baleseteket. Hatékonyabbá teheti a tanítási, tanulási folyamatokat exponenciálisan növekvő sebességéről már értekeztünk. A másik tendencia a tárolási és és felgyorsíthatja a tudományos felfedezéseket (Benedek és Molnár 2013). számítási kapacitás növekedése, és ezzel együtt annak költségeinek csökkenése. A Big Data jelensége azonban rendkívül megosztó. Egyszerre bír utópikus és disz- A Big Data számadatai is beszédesek: míg 2000-ben a világban tárolt információ csu- tópikus olvasatokkal. Egyrészt hatékony eszköz a társadalmi és a jól-léti problémák fel- pán negyede volt digitális formában rögzítve, addig 2013-ra ez az arány már 98%-ra nőtt térképezésére és a lehetséges mintázatok és válaszok megtalálására. Segítséget nyújthat (Mayer-Schönberger és Cukier 2013). A világunkban létrehozott információ 90%-a az el- az eddig gyógyíthatatlan betegségek kutatásában, a terrorizmus elleni harcban vagy a glo- múlt 2 évben jött létre, mivel naponta 2.5 trillió (1018) byte információ keletkezik. Jelenleg bális felmelegedés elleni küzdelemben. Ugyanakkor számos kutató – mint azt a Big Data több mint 75 millió szerver generál – és tárol – adatokat. A Google keresőóriás több millió kritikájával foglalkozó fejezetben majd részletesen is bemutatjuk – felhívja a figyelmet a szervere folyamatosan indexel 50 milliárd weblapot. És a publikus web alatt elhelyezkedő személyi adatokkal való visszaélés és a privacy megsértésének lehetőségére és az államok Deep Web adatait megbecsülni is alig tudjuk (Shroff 2014). növekvő megfigyelési és ellenőrzési erejére (Boyd és Crawford 2012: 663–664). Ezen óriási adatmennyiség elemzése összefüggések felismerését teszi lehetővé, ami A Big Data egyszerre jelent szemantikai, analitikai, adattárolási és hozzáférési kihí- segítséget nyújthat a politikai és gazdasági döntéshozóknak is. Nem meglepő tehát, ha a Big vást, hiszen napjainkban eddig nem látott nagyságrendű adatok tárolását, feldolgozását, a Data nem csupán a tudományos kutatások terén (Nagy Hadronütköztető – LHC), de az üz- rejtett és váratlan összefüggések megtalálását feltételezi. Bár a fogalomnak nem létezik leti világban is komoly felfedezésekhez, változásokhoz vezethet (Bessis és Dobre 2014). Ha egyes szektorokat tekintjük át, akkor elmondhatjuk, hogy a nagy- és a kiskereske- 1Amikor a Big Data jelenségével kezdtünk el foglalkozni, a szakirodalmat az EBSCOés Google delmi, a logisztikai, a pénzügyi vállalatok és az egészségügyi intézmények mind nagyobb Scholar rendszerében böngészve és szelektálva rá kellett jönnünk, hogy olyan nagy mennyiségű in- mennyiségű adatot generálnak és tárolnak. A Big Data adatai különféle forrásból származ- formációt publikáltak a témában, hogy jó lett volna egy szelektáló gépi algoritmust használni. Ez nak: weblapokról; az Internet of Things (IoT) szenzoraitól; közösségi média posztokból, természetesen lehetetlen, hiszen a szelekciót magának a kutatónak kell végeznie, mivel ő jelöli ki videómegosztókból, banki vagy vásárlási tranzakciókból, kórházi adatbázisokból, okosesz- az általa vizsgálandó problémákat és veszi észre az összefüggéseket. Egy alapszintű algoritmus azon- ban a jövő tanulmányírói számára szemantikus elemzés alapján – a Big Datára támaszkodva – feltár- közöktől, okostelefonok vagy navigációs eszközök GPS jeleiből – hogy csak egy párat em- hatná akár éppen a Big Data aktuális kérdésköreit vagy a legvitatottabb kérdéseit. lítsünk. 8 9 inftars.novjavitott_Layout 1 12/1/16 9:03 AM Page 10 TANULMÁNYOK Mint az a fentiekből kiderül, a Big Data két fő kategóriába sorolható aszerint, hogy adatai (1) konkrét emberi aktivitásból vagy (2) kizárólag gépi forrásból származnak. Kultúra, illetve korfüggő, hogy egy átlagfelhasználó a közösségi médiában, a Face- bookon, Twitteren, Instagramon, hány bejegyzést, képet oszt meg magáról, hányszor fejezi ki véleményét hozzászólások, like-ok vagy megosztások formájában, vagy éppen hány e-mailt küld, de egyszerű megfigyeléssel is megállapíthatjuk, hogy sokat. A YouTube-ra a felhasz- nálók percenként 300 órányi videót töltenek fel2. Emlékeztetésképpen: ha egy átlagember 75 éven keresztül napi 8 órán át csak videókat néz, akkor 220 ezer órányi műsort tud meg- nézni. Ennyi új videóanyagot töltenek fel ma a videómegosztóra fél nap alatt. Az NFC és GPS eszközök, a hálózaba kötött szenzorok folyamatosan adatokat gene- rálnak. Az Internet of Things (IoT) forradalmának küszöbén állunk. Különböző becslések szerint 2020-ra akár 50 milliárd eszköz lehet a hálózatba kötve. Definíciós kísérletek „Though this be madness, yet there is method in’t.” (William Shakespeare, The Tragedy of Hamlet, Prince of Denmark)3 A Big Data kifejezés olyan óriási mennyiségű, folyamatosan érkező, különböző formátumú adatot és az azokkal való munkát jelzi, amit jellemzően a különféle hálózatokon lévő gépek és az emberek közösen állítanak elő, és amelyeket a korábbi módszerekkel nem lehetett feldolgozni. A Gartner kutatóintézet 2001-ben közölt definíciója szerint a Big Data nagy mennyi- ségű, sebességű és eltérő formátumú információt jelöl, melynek feldolgozása új típusú megközelítést kíván annak érdekében, hogy az így született eredmények segítsenek a ha- tékony döntéshozatalban, összefüggések felfedezésében és folyamatok optimalizálásában4. Fontos azonban megjegyezni, hogy maga a Big Data kifejezés már korábban is fel- bukkant az akadémiai környezetben, és máig folyik a vita, hogy ki használta először a ki- fejezést. John R. Mashey Big Data ... and the Next Wave of Infra Stress című, több helyen is elmondott, de alapvetően egyetemi előadásában a Stanfordon már 1998-ban említi a Big Datát5az általunk leírt jelenség megnevezésére, egyik korai prezentációja pedig még min- dig elérhető.6Ugyanebben az évben, Weiss és Indurkhya (1988) is használják már a Big Data kifejezést az informatikában, illetve Diebold a statisztikában (2000). A Big Data együttese magába foglalja a korábban soha nem látott mértékű és válto- zatos forrásból érkező adatok rögzítését, feldolgozását, elemzését, megosztását, illetve az eredmények vizualizálását. A gravitációs mezőjébe tartozó adatok mennyisége meghaladja az általában használt adatrögzítő és feldolgozó szoftverek képességeit. A legelterjedtebb definíció szerint (Laney 2012) a Big Datát három V jellemzi: meny- nyiség (Volume), sebesség (Velocity) és változatosság (Variety). 2 https://www.youtube.com/yt/press/statistics.html 3Őrült beszéd, őrült beszéd: de van benne rendszer. (William Shakespeare, Hamlet, Dán Királyfi) 4 http://www.gartner.com/it-glossary/big-data/ 5 http://web.stanford.edu/class/ee380/9798sum/lect06.html 6 http://static.usenix.org/event/usenix99/invited_talks/mashey.pdf 10 inftars.novjavitott_Layout 1 12/1/16 9:03 AM Page 10 inftars.novjavitott_Layout 1 12/1/16 9:03 AM Page 11 TANULMÁNYOK BIG DATA, AZ INFORMÁCIÓS TÁRSADALOM ÚJ PARADIGMÁJA Mint az a fentiekből kiderül, a Big Data két fő kategóriába sorolható aszerint, hogy Volume: A mennyiség a másodpercenként előállított hatalmas adatözönre vonatkozik. adatai (1) konkrét emberi aktivitásból vagy (2) kizárólag gépi forrásból származnak. Amúltban a nagymennyiségű adat tárolási problémákat okozott. A jelenben a tárhely mérete Kultúra, illetve korfüggő, hogy egy átlagfelhasználó a közösségi médiában, a Face- és a tárolási sebesség növekedett, illetve ezzel együtt azok költsége csökkent. A Big Data ese- bookon, Twitteren, Instagramon, hány bejegyzést, képet oszt meg magáról, hányszor fejezi tében azonban új kihívásokkal kell szembenéznünk: hogyan lehet osztályozni, fontossági sor- ki véleményét hozzászólások, like-ok vagy megosztások formájában, vagy éppen hány e-mailt rendbe állítani az adatokat, hogyan lehet összefüggéseket észrevenni – értéket létrehozni. küld, de egyszerű megfigyeléssel is megállapíthatjuk, hogy sokat. A YouTube-ra a felhasz- Velocity: A sebesség azért fontos kérdés, mert az adatok nem nagy blokkokban jönnek, nálók percenként 300 órányi videót töltenek fel2. Emlékeztetésképpen: ha egy átlagember hanem folyamatosan áramolnak. Mind gyorsabban és gyorsabban kell őket feldolgozni, és 75 éven keresztül napi 8 órán át csak videókat néz, akkor 220 ezer órányi műsort tud meg- lehetőleg valós időben, hogy releváns tudáshoz juthassunk. nézni. Ennyi új videóanyagot töltenek fel ma a videómegosztóra fél nap alatt. Variety: Mégis talán a legnagyobb kihívást a változatosság jelenti, mert az egyes ada- Az NFC és GPS eszközök, a hálózaba kötött szenzorok folyamatosan adatokat gene- tokat strukturálni kell és egymással összefüggésbe hozni, a forrásra való tekintet nélkül. rálnak. Az Internet of Things (IoT) forradalmának küszöbén állunk. Különböző becslések A cél a kontrollálatlan adatfolyamok formázása az értékes információk kinyeréséhez7. szerint 2020-ra akár 50 milliárd eszköz lehet a hálózatba kötve. A változatosságra jellemző, hogy egyszerre érkeznek adatok hagyományos adatbázisokból, szöveges dokumentumokból, videómegfigyelő rendszerekből, e-mailekből, tömegközle- kedési járművekből, repülőgépek motorjaiból, telefonhívásokból, és az elemző rendsze- Definíciós kísérletek reknek összefüggéseket kell felismerniük (Majkić2014). Az alliteráló 3 V mellé számos szerző további V-ket helyez. Ezek lehetnek, a Variability „Though this be madness, yet there is method in’t.” (az adatok variálhatóságát jelöli), a Virtual (az adatok virtuális voltát jelzi), a Veracity (az ada- (William Shakespeare, The Tragedy of Hamlet, Prince of Denmark)3 tok integritását jelöli) vagy a Value (az adatokban rejlő hasznosságot jelöli) (Zikopoulos et al. 2011) ahol az utóbbi kettő gyakran felcserélhető. A Big Data kifejezés olyan óriási mennyiségű, folyamatosan érkező, különböző formátumú A több szempontra való figyelemfelhívás miatt fontosnak találunk két további defi- adatot és az azokkal való munkát jelzi, amit jellemzően a különféle hálózatokon lévő gépek níciót is röviden ismertetni: és az emberek közösen állítanak elő, és amelyeket a korábbi módszerekkel nem lehetett A Big Data olyan technikákat és technológiákat jelöl, melyek az extrém skálán mozgó feldolgozni. adatok kezelését gazdaságossá teszik (Hopkins és Evelson 2011). Egyszerűbb definíciót kí- A Gartner kutatóintézet 2001-ben közölt definíciója szerint a Big Data nagy mennyi- nálnak a McKinsey Global Institute kutatói: A Big Data olyan adattömeget jelöl, mely mérete ségű, sebességű és eltérő formátumú információt jelöl, melynek feldolgozása új típusú túlmutat a hagyományos adatbázis szofverek tároló, kezelő és elemző képességein.8 megközelítést kíván annak érdekében, hogy az így született eredmények segítsenek a ha- tékony döntéshozatalban, összefüggések felfedezésében és folyamatok optimalizálásában4. Fontos azonban megjegyezni, hogy maga a Big Data kifejezés már korábban is fel- Történeti előzmények bukkant az akadémiai környezetben, és máig folyik a vita, hogy ki használta először a ki- fejezést. John R. Mashey Big Data ... and the Next Wave of Infra Stress című, több helyen is A személyi számítógép megjelenése végérvényesen megváltoztatta az adatokkal való bá- elmondott, de alapvetően egyetemi előadásában a Stanfordon már 1998-ban említi a Big násmódot (többek között a statisztikát is – hogy példát említsünk). Minden nehézség nél- Datát5az általunk leírt jelenség megnevezésére, egyik korai prezentációja pedig még min- kül térképezhetők fel segítségével társadalmi folyamatok – csupán a megfelelő kérdéseket dig elérhető.6Ugyanebben az évben, Weiss és Indurkhya (1988) is használják már a Big kell feltenni (Ratner 2004: 1). A Big Data előtti digitális paradigmára jellemző adatbányá- Data kifejezést az informatikában, illetve Diebold a statisztikában (2000). szat kifejezés az 1970-es évek végén, az 1980-as évek elején született. Talán ez lehet az A Big Data együttese magába foglalja a korábban soha nem látott mértékű és válto- oka, hogy az adatbázisok elemzésével foglalkozó marketingesek számára például az álta- zatos forrásból érkező adatok rögzítését, feldolgozását, elemzését, megosztását, illetve az lunk tárgyalt Big Datra jellemző minták és összefüggések felfedezése nem hat teljesen az eredmények vizualizálását. A gravitációs mezőjébe tartozó adatok mennyisége meghaladja újdonság erejével (és varázsával) (Ratner 2004: 9–10). az általában használt adatrögzítő és feldolgozó szoftverek képességeit. De mi változott? A magányos gép helyébe a hálózatba kötött lépett, és ma már egy A legelterjedtebb definíció szerint (Laney 2012) a Big Datát három V jellemzi: meny- rendszerbe tudjuk integrálni, használható formátumba konvertálni és a számítási teljesít- nyiség (Volume), sebesség (Velocity) és változatosság (Variety). mény segítségével kielemezni a digitálisan rögzített az adatokat (számadatot, szöveget, 2 https://www.youtube.com/yt/press/statistics.html 3Őrült beszéd, őrült beszéd: de van benne rendszer. (William Shakespeare, Hamlet, Dán Királyfi) 7 https://www.it-services.hu/hirek/mi-az-a-big-data/ 4 http://www.gartner.com/it-glossary/big-data/ 8http://www.mckinsey.com/~/media/McKinsey/Business%20Functions/Business%20Technology/O 5 http://web.stanford.edu/class/ee380/9798sum/lect06.html ur%20Insights/Big%20data%20The%20next%20frontier%20for%20innovation/MGI_big_data_ful 6 http://static.usenix.org/event/usenix99/invited_talks/mashey.pdf l_report.ashx 10 11 inftars.novjavitott_Layout 1 12/1/16 9:03 AM Page 12 TANULMÁNYOK képet, hangot, videót), és végeredményben eddig ismeretlen összefüggések tucatjaira is fel tudjuk hívni a figyelmet, mint azt az egyes ágazatok tárgyalása során majd látni fogjuk. Új szintre lépett a kereshetőség. „A digitális jel korlátlanul időtálló – évekkel ezelőtti ol- vasási szokásaink éppúgy kereshetőek, mint a jelenlegeik. A digitális adatbázisok össze- kapcsolhatóak és kereshetőek, az újságolvasási szokásokat kombinálhatjuk vásárlási adatokkal” (Dessewffy és Láng 2015: 158). A Big Data megjelenéséhez vezető út és feltételek A Big Data nem előzmények nélküli. Annak ellenére, hogy a jelenben az IT az üzleti és az tudományos diskurzusok egyik kulcsszava, látens formában már egy ideje jelen van. A különbség csupán annyi, hogy míg korábban egy-egy szuperszámítógép volt képes nagy- mennyiségű adatok elemzésére, ma ugyanez a lehetőség biztosított számos felhasználónak és vállalatnak is (Joshi 2015). Ha történeti előzményeit keressük, akkor elmondhatjuk, hogy Vannevar Bush 1945-ben publikálta az Atlantic Monthlyban a mai hálózatba kötött számítógép elődjével, a Memex elvével foglalkozó értekezését (Bush 1945). A Memexnek az lett volna a szerepe, hogy se- gítse az addig felhalmozódó (nyomtatott) információmennyiségben történő eligazodást és egyes fogalmak közti kapcsolatok feltérképezését. Az igazi újdonság az adatok tárolása volt, mely a hierarchikus rendszerekkel szemben az emberi asszociációkhoz hasonlóan tör- tént volna – címkézéssel. Bush elképzelése a kornak megfelelően még mechanikus volt, a Memexet egyfajta gépiesített, analóg magánkönyvtárként képzelte el (Szűts 2013: 49- 50), elmélete azonban a Big Data eljövetelét vetítette elő, egy rendszerét, mely hatalmas mennyiségű adatot nagy sebességgel képes kezelni és – emberi segítséggel – összefüggé- seket észrevenni. Ezt követően az internet megjelenése, Tim-Berners Lee hiperlinkekkel át- szőtt világhálója, majd a rendszert indexelő keresőprogram, a Google mind újabb lépést jelentett a Big Data felé. Míg az internet és világháló esetében a tudományos megismerés utáni vágy volt a fejlesztés motorja, addig a keresőprogramok fejlődésében már döntő szerepet ját- szottak az üzleti célok is, a hatékony hirdetési rendszer kidolgozása (Shroff 2014). A Big Data építménye A Big Data összeségében több elemből épül fel, áll össze. Egyaránt hívta életre a felhasz- nálók Web 2.0-ás környezetben kifejtett online aktivitása, mely digitális lábnyomot hagy, de folyamatosan szolgáltatnak adatokat a környezetünkbe mind nagyobb számba beépülő szenzorok is. Ezen adotokat hálózatok továbbítják és adatbázisok rögzítik. A digitális rög- zítés azonban nem a jelen folyamataira érvényes, a múltat is folyamatosan digitalizáljuk. Ahhoz azonban, hogy mindezen adatmennyiség sikeres feldolgozására és mintázatok fel- ismerésére vállalkozhassunk, szükség van olyan speciális szoftverekre, melyek a fejlett gépi tanulás rendszerére támaszkodnak. Végezetül, a Big Data már nem csupán a pro- fesszionális felhasználók kiváltsága, a tárhely és számítási teljesítmény növekedésével és ezek árának csökkenésével a mindennapi felhasználók is részeseivé válhatnak a Big Data paradigmájának (1. ábra). 12 inftars.novjavitott_Layout 1 12/1/16 9:03 AM Page 12 inftars.novjavitott_Layout 1 12/1/16 9:03 AM Page 13 TANULMÁNYOK BIG DATA, AZ INFORMÁCIÓS TÁRSADALOM ÚJ PARADIGMÁJA képet, hangot, videót), és végeredményben eddig ismeretlen összefüggések tucatjaira is Digitális lábnyom fel tudjuk hívni a figyelmet, mint azt az egyes ágazatok tárgyalása során majd látni fogjuk. Az információs társadalom jelenlegi fejlettségi szintjén a felhasználók életének számos Új szintre lépett a kereshetőség. „A digitális jel korlátlanul időtálló – évekkel ezelőtti ol- mozzanata (keresés, böngészés, levelezés, csevegés, megosztás, értékelés, hozzászólás stb.) vasási szokásaink éppúgy kereshetőek, mint a jelenlegeik. A digitális adatbázisok össze- már online, a hálózat figyelő és mindent rögzítő szemei előtt zajlik. kapcsolhatóak és kereshetőek, az újságolvasási szokásokat kombinálhatjuk vásárlási adatokkal” (Dessewffy és Láng 2015: 158). Számítógépes, hálózatba kötött adatbázisok A magányos gép mítosza már a múlté. A mai rendszerek különböző formátumban rögzített adatokat tárolnak és dolgoznak fel, és ami a legfontosabb, hálózatba vannak kötve, tudásuk A Big Data megjelenéséhez vezető út és feltételek egységes tárházat alkot. A Big Data nem előzmények nélküli. Annak ellenére, hogy a jelenben az IT az üzleti és Múltat átmentő digitalizálás az tudományos diskurzusok egyik kulcsszava, látens formában már egy ideje jelen van. Talán meglepő, hogy a múltba tekintés és digitalizálás a jövő problémáit oldhatja meg, Akülönbség csupán annyi, hogy míg korábban egy-egy szuperszámítógép volt képes nagy- például az Old Weather9 crowdsourcing projekt keretében az Egyesült Államok haditen- mennyiségű adatok elemzésére, ma ugyanez a lehetőség biztosított számos felhasználónak gerészetének fedélzeti naplóit rögzítik digitális formában, így a meteorológusok Big Data és vállalatnak is (Joshi 2015). környezetben vizsgálhatják a múlt időjárását és következtetéseket vonhatnak le a jövővel Ha történeti előzményeit keressük, akkor elmondhatjuk, hogy Vannevar Bush 1945-ben kapcsolatban. publikálta az Atlantic Monthlyban a mai hálózatba kötött számítógép elődjével, a Memex elvével foglalkozó értekezését (Bush 1945). A Memexnek az lett volna a szerepe, hogy se- A mindenhol jelenlévő számítástechnika és szenzorok gítse az addig felhalmozódó (nyomtatott) információmennyiségben történő eligazodást és Mára elterjedt az ubiquitous computing, vagyis a mindenütt jelenlévő számítástechnika egyes fogalmak közti kapcsolatok feltérképezését. Az igazi újdonság az adatok tárolása jelensége. Ezt az új paradigmát Weiser (1991) szerint az jellemzi, hogy a számítástechnika volt, mely a hierarchikus rendszerekkel szemben az emberi asszociációkhoz hasonlóan tör- és a digitális eszközök oly módon beépültek a hétköznapi folyamatainkba, hogy már észrevét- tént volna – címkézéssel. Bush elképzelése a kornak megfelelően még mechanikus volt, lenek maradnak, és úgy használjuk őket, hogy nem tanúsítunk ennek a ténynek jelentőségét, a Memexet egyfajta gépiesített, analóg magánkönyvtárként képzelte el (Szűts 2013: 49- mivel egy automatizált folyamat részévé váltak. Hasonlóképpen, a jelen okosvárosaiban 50), elmélete azonban a Big Data eljövetelét vetítette elő, egy rendszerét, mely hatalmas szenzorok milliói gyűjtenek adatokat az energia hálózatokkal, közlekedéssel kapcsolatban mennyiségű adatot nagy sebességgel képes kezelni és – emberi segítséggel – összefüggé- (Yoo 2014). seket észrevenni. Ezt követően az internet megjelenése, Tim-Berners Lee hiperlinkekkel át- szőtt világhálója, majd a rendszert indexelő keresőprogram, a Google mind újabb lépést Gépi felismerés és machine learning jelentett a Big Data felé. Míg az internet és világháló esetében a tudományos megismerés utáni A gépi tanulás (machine learning – ML) (Samuel 1959) fontos feltétele a Big Datának, hi- vágy volt a fejlesztés motorja, addig a keresőprogramok fejlődésében már döntő szerepet ját- szen lehetővé teszi, hogy a számítógépek tanuljanak – mintákat vegyenek észre – anélkül, szottak az üzleti célok is, a hatékony hirdetési rendszer kidolgozása (Shroff 2014). hogy konkrétan erre programozták volna őket. A gépi tanulásnak köszönve az elemzés során a számítógépek közvetlenül az adatokból jutnak ismeretekhez és oldanak meg prob- lémákat. Ezen esetek többségében természetesen a számítógépeket embereknek kell ta- A Big Data építménye nítaniuk, az adatokat kezdetben nekünk kell megcímkéznünk és osztályoznunk, hogy később, e minta alapján, a gépek önállóan is képesek legyenek tanulni és elemezni az in- A Big Data összeségében több elemből épül fel, áll össze. Egyaránt hívta életre a felhasz- formációkat. Abban az esetben például, amikor a gépek a közösségi médiában éppen a nálók Web 2.0-ás környezetben kifejtett online aktivitása, mely digitális lábnyomot hagy, legvitatottabb témákat ismerik fel, ilyen emberi felügyeletet igénylő tanulásra már nincs de folyamatosan szolgáltatnak adatokat a környezetünkbe mind nagyobb számba beépülő szükség. A rendszerek ebben az esetben már maguktól tanulnak, képi elemek felismeré- szenzorok is. Ezen adotokat hálózatok továbbítják és adatbázisok rögzítik. A digitális rög- sére azonban alkalmatlanok (Condliffe, AI Is Learning… 2016). zítés azonban nem a jelen folyamataira érvényes, a múltat is folyamatosan digitalizáljuk. Ahhoz azonban, hogy mindezen adatmennyiség sikeres feldolgozására és mintázatok fel- A számítási teljesítmény növekedése, és a tárolási kapacitás árának csökkenése ismerésére vállalkozhassunk, szükség van olyan speciális szoftverekre, melyek a fejlett gépi tanulás rendszerére támaszkodnak. Végezetül, a Big Data már nem csupán a pro- Moore még 1965-ben gyakorlati tapasztalataira alapozva mondta ki a törvényt, mely szerint fesszionális felhasználók kiváltsága, a tárhely és számítási teljesítmény növekedésével és az integrált áramkörökben lévő tranzisztorok száma (és ezzel együtt a számítási teljesít- ezek árának csökkenésével a mindennapi felhasználók is részeseivé válhatnak a Big Data paradigmájának (1. ábra). 9 www.oldweather.org 12 13 inftars.novjavitott_Layout 1 12/1/16 9:03 AM Page 14 TANULMÁNYOK mény) másfél évente megduplázódik (Moore 1965). A kevésbé ismert, de hasonlóan fontos Kryder-törvény szerint (idézi Walter 2005) a tárolási költségek árának csökkenése még a számítási teljesítmény növekedésénél is nagyobb mértékű. A történelem során először vált elérhetővé megfizethető formában a mindennapi felhasználók számára a nagy számítási teljesítmény és az olcsó, alapvetően felhő alapú tárhely. A Big Data céljainak megfelelően kifejlesztett rendszerek A Big Data a korábbiaktól eltérő szoftveres megközelítést kívánt, így születtek meg az ilyen nagymennyiségű adat tárolását, feldolgozását, elosztását biztosító programok, prog- ramnyelvek és futtatókörnyezetek. A teljesség igénye nélkül kiemeljük a legismertebbet: A Big Data környezetében használt Hadoop egy nyílt forráskódú keretrendszer, amely adat-intenzív elosztott alkalmazásokat támogat. Legfőbb jellemzője, hogy nagy mennyiségű és ezzel együtt alacsony költségű, a mindennapi életben használt hardverből épített szerverfürtök létrehozását teszi lehetővé. A Hadoophoz hasonlóan a MapReduce szintén nagy adathalmazok feldolgozására képes párhuzamosan és szerverfürtön elosztottan. A MapReduce egyszerre végez szűrést és rendezést, és végül összegzi az eredményt. A Google ezt az algoritmust használta a vi- lágháló indexelésére. A Pig programnyelvet és futtatókörnyezetet eredetileg a Yahoo! fejlesztette ki, hogy könnyebbé tegye a Hadoopot használóknak a nagy adatmennyiség elemzését azzal, hogy kevesebb időt kellett tölteniük programozással. A Pig elnevezés metonimikus, hiszen, mint a valódi disznó, mely gyakorlatilag mindenevő, a Pig programnyelv is szinte minden típusú adattal megbirkózik (vagyis ez a 3. V). És végül a Zookeeper a Hadoop klaszterek koordinációját végzi, dokumentálja, meg- nevezi és szinkronizálja szolgáltatásait. 1.ábra: A Big Data építménye (saját szerkesztés) 14 inftars.novjavitott_Layout 1 12/1/16 9:03 AM Page 14 inftars.novjavitott_Layout 1 12/1/16 9:03 AM Page 15 TANULMÁNYOK BIG DATA, AZ INFORMÁCIÓS TÁRSADALOM ÚJ PARADIGMÁJA mény) másfél évente megduplázódik (Moore 1965). A kevésbé ismert, de hasonlóan fontos Az információs társadalomra jellemző szektorok, melyek profitálhatnak Kryder-törvény szerint (idézi Walter 2005) a tárolási költségek árának csökkenése még a a Big Datából számítási teljesítmény növekedésénél is nagyobb mértékű. A történelem során először vált elérhetővé megfizethető formában a mindennapi felhasználók számára a nagy számítási Már a Big Data megjelenése előtt is a meteorológia, biológia, fizika, kémia és csillagászat ku- teljesítmény és az olcsó, alapvetően felhő alapú tárhely. tatási módszerei közé tartozott a nagy mennyiségű adatok elemzése. Ez a megközelítés azonban a felsorolt szektorokon kívül nem volt jellemző. A Big Data megjelenésével a digitálisan be- A Big Data céljainak megfelelően kifejlesztett rendszerek hálózott világ lakói mindennapi életének számos területén paradigmaváltás indult meg. A Big Data a korábbiaktól eltérő szoftveres megközelítést kívánt, így születtek meg az Kereskedelem, média ilyen nagymennyiségű adat tárolását, feldolgozását, elosztását biztosító programok, prog- ramnyelvekésfuttatókörnyezetek.Ateljességigényenélkülkiemeljükalegismertebbet: Az Amazon online áruház vagy a Netflix videotéka ajánló rendszere Big Data analitikán A Big Data környezetében használt Hadoop egy nyílt forráskódú keretrendszer, alapul, hasonlóan, ahogy a Walmart is ezzel a módszerrel azonosítja egyes felhasználók amely adat-intenzív elosztott alkalmazásokat támogat. Legfőbb jellemzője, hogy nagy kedvenc termékeit,és ennek megfelelően tölti fel raktárait. A Social Genome Big Data mennyiségű és ezzel együtt alacsony költségű, a mindennapi életben használt hardverből program lehetővé teszi az áruház számára, hogy elérje vevőit, vagy azok ismerőseit, akik épített szerverfürtök létrehozását teszi lehetővé. érdeklődtek bizonyos termékek után online. A Walmart ugyanis ilyenkor a rendszere által A Hadoophoz hasonlóan a MapReduce szintén nagy adathalmazok feldolgozására relevánsnak ítélt információval, és személyre szabott kedvezménnyel keresi meg őket. képes párhuzamosan és szerverfürtön elosztottan. A MapReduce egyszerre végez szűrést Hogy képes legyen erre, a Social Genome összekapcsolja a világhálón található publikus és rendezést, és végül összegzi az eredményt. A Google ezt az algoritmust használta a vi- és a közösségi médiában megjelentett információkat a vevői vásárlási adataival, illetve kon- lágháló indexelésére. takt információval. Emellett azt is felismeri a szövegkörnyezetből, ha valaki csupa kisbetűt A Pig programnyelvet és futtatókörnyezetet eredetileg a Yahoo! fejlesztette ki, hogy használva Ice Cube-ot, az énekest, vagy a jégkockát (ice cube) említi. Az eredmény végül könnyebbé tegye a Hadoopot használóknak a nagy adatmennyiség elemzését azzal, hogy egy folyamatosan frissülő tudásbázis, mely több millió kapcsolatot és tételt tartalmaz. Ha- kevesebb időt kellett tölteniük programozással. A Pig elnevezés metonimikus, hiszen, sonlóképpen, az ugyancsak Walmart által kifejlesztett Shoppycat képes a Facebook fel- mint a valódi disznó, mely gyakorlatilag mindenevő, a Pig programnyelv is szinte minden használók számára termékeket ajánlani az ismerőseik érdeklődési köre és hobbija alapján, típusú adattal megbirkózik (vagyis ez a 3. V). hogy megtalálja a számukra legjobb ajándékot. Majd ezután a felhasználók geolokációja És végül a Zookeeper a Hadoop klaszterek koordinációját végzi, dokumentálja, meg- segítségével a legközelebbi áruházba irányítja őket, ahol a termék éppen kapható, ugyanis nevezi és szinkronizálja szolgáltatásait. a raktárkészlet is része a vállalat Big Data rendszerének (Walmart Is Making Big Data Part Of Its DNA).10 Dél-Koreában a kereskedelmi láncok Big Data rendszerei a női vásárlókra fókuszál- nak, ugyanis a Shinsegae áruház, a Shinhan Card és a Lotte Tour utazási iroda az adatok gyűjtése és elemzése során növelni a vásárlási hajlandóságot (Kim 2015). Koreánál maradva elmondhatjuk, hogy a rendkívül behálózott társadalmú és haté- kony e-közigazgatással bíró ország élen jár a Big Datában rejlő potenciál kiaknázásában. Az államilag indított és támogatott projektek részeként például a Bagoly éjszakai busz- rendszer keretében Szöul közlekedési vállalata az adatok elemzésével egy csupán 8 vo- nalból álló rendszerrel az utazni vágyok 49%-át képes szállítani a 13 milliós metropoliszban. Ezen kívül folyamatban van a taxirendszer hatékonyabbá tétele a Big Data segítségével, illetve a gyalogos biztonságának, vagy éppen a kerületi hírdetési rendszerek sikeresebbé alakítása is cél. Végül pedig egy példa a médiából, a Global Data on Event, Location and Tone (GDELT11) adatbázisban 1979-től gyűjtik médiában megjelenő, a világot érintő geokódolt események adatait. A GDELT így ma már arra használható, hogy a globális társadalmak rendszereit és viselkedését feltérképezzük. 10 https://datafloq.com/read/walmart-making-big-data-part-dna/509 1. ábra: A Big Data építménye (saját szerkesztés) 11 www.gdeltproject.org 14 15 inftars.novjavitott_Layout 1 12/1/16 9:03 AM Page 16 TANULMÁNYOK Okosvárosok, környezetvédelem, biztonság Az okosvárosok a Big Datát a közbiztonság növelésére, a víz és energiaellátás, a kormány- zás, a közlekedés és az egészségügyi ellátás hatékonyabbá tételére használják (Yoo 2014: 28). Már több évszázada fennálló városaink is mesterséges ökoszisztémákká alakulnak, be- hálózott, intelligens és digitális rendszerekké válnak. E rendszerek tervezői csupán a vá- rosok digitális ütőerére kell hogy helyezzék az ujjukat annak érdekében, hogy az adatok elemzésével élhetőbbé tegyék a települést és jobbá annak lakóinak életét. A jelenben az ipari felszerelések többségében már szenzorok vannak, melyek óriási mennyiségű adatot rögzítenek és továbbítanak. Egy gázerőmű turbinájának lapátjai egyen- ként napi 520 gigabyte adatot generálnak, és egy turbinában 20 lapát van. Az interkonti- nentális repülőjáratok több terabyte-nyi adatot továbbítanak. Mindezen információ feldolgozása segít biztonságosabbá és költséghatékonyabbá tenni a rendszereket (Zadrozny és Kodali 2013: 4). A Global Forest Watch12több millió műholdképet dolgoz fel annak érdekében, hogy valós időben készítsen becsléseket az erdőirtásokról, és ez a megközelítés minden koráb- binál pontosabbnak bizonyult. A legizgalmasabb példa mégis talán New Yorkból származik. 2012-ben a város kör- nyezetvédelmi hivatala a Big Data segítségével találta meg a csatornarendszer eltömítésé- ért felelős éttermeket. A New York-iak már évek óta szenvedtek ugyanis a sütőolajjal bedugított lefolyók környezetkárosító hatásaitól. A hagyományos módszerek szerint az el- lenőrök szúrópróba szerű ellenőrzést végeztek. A Big Data környezetében a város infor- matikusai összekapcsolták a szemétszállító magánvállalkozások adatbázisait az éttermek számláival és földrajzi adataival. Az így kapott eredmények alapján a felderítési ráta 95%-ra nőtt (Feuer 2013, idézi Krishnamurthya és Desouzab 2014: 166). Orvostudomány, egészséges életmód Az elmúlt évtizedben az egészségügyben felértékelődött az adatbázisok szerepe. A digitális képalkotás, a digitálisan tárolt egészségügyi adatok, majd az utóbbi időben a szenzorok által küldött információk forradalmának lehetünk tanúi. A hagyományos módszereket fel- váltja a személyre szabott, prediktív és participatív Big Data paradigma. A jövő klinikai kí- sérletei már nem kis mintára korlátozódnak majd, hanem a mintában gyakorlatilag mindenki, aki a rendszerben szerepel, benne lehet. Az egyik legnagyobb forradalom a jelenben tehát az egészségügyi állapot, az élet- funkciók valós idejű monitorozásáról szól. A következő generációs egészségügyi rendszerek a nap minden percében monitorozzák majd a betegek (és egészségesek) állapotát és ke- zeléseket, beavatkozásokat javasolnak (Timur és Son 2014: 315). Ennek előfutárai az oko- sórák és fitnesz karkötők. A jelenben ezen eszközök és okostelefonjaink számolják a megtett lépéseinket, mérik a pulzusunkat, figyelik az alvásciklusunkat, segítik számon tartani a folyadékbevitelünket. A jövőben arra keresik majd a választ, hogyan érezzük ma- gunkat a kemoterápia után, vagy hogyan halad előre valamely betegségünk. A Big Data rendszerek már most is a szenzorok adatait elemezve segítenek a koraszülöttek védelmében, 12 www.globalforestwatch.org 16
Description: