Kanári az adatbányában

2022. május 8.

A big data segítségével minden korábbinál gyorsabban végezhető statisztikai elemzés. Csakhogy a nagy adatbányák a sarlatánságot is megkönnyítik, ami tovább erodálhatja a tudomány megbízhatóságát és tekintélyét.

Hisz a tudományban? Hát a big data kutatások majd elbizonytalanítják” – olvassuk a Bloombergen Gary Smith közgazdász cikkét.

A tudósok számára évszázadokon át az adat- és információhiány jelentette a legnagyobb akadályt. Smith példaként II. Gusztáv svéd király kísérletét említi, amely a kávéfogyasztás egészségi hatását igyekezett kimutatni. A 17. században a kávéfogyasztást károsnak tartották, sőt, több országban, így Svédországban is, törvényben tiltották. II. Gusztáv utána akart járni a dolognak, ezért egy ikerpár egyik tagját minden nap kávéval, testvérét teával itatta. Mivel az utóbbi előbb hunyt el, a király azt a következtetést vonta le, hogy a kávé mégsem káros.

Nyilvánvaló, hogy Gusztáv komolytalan kísérlettel próbálkozott, hiszen egyetlen példából semmire sem lehet következtetni. A statisztikai valószínűség megállapításához nagy és reprezentatív mintára van szükség, amelyen a statisztikailag szignifikáns összefüggések kimutathatók. Igen ám, csakhogy ha megfelelően nagy és kellőképpen strukturált adathalmazzal rendelkezünk, akkor abban a számítógépes adatbányászat segítségével nagyon könnyen találhatunk olyan statisztikailag szignifikáns összefüggéseket, amelyek csak a nagy számok törvénye miatt kialakuló véletlenek. Az ilyen adatelemzés célja nem az, hogy alátámasszon vagy cáfoljon valamilyen hipotézist, hanem pusztán, hogy véletlen egybeeséseket leljen fel.

Smith tucatnyi olyan, tudományos folyóiratban publikált tanulmányt sorol fel, amelyek így születhettek. Az egyik statisztikai alapon kimutatja, hogy azok a diákok értek el jobb eredményt a vizsgán, akik a vizsga után még tanultak. Egy ismert orvosi szaklapban publikált kutatás megállapítja, hogy a japán származású amerikaiak esélye az infarktusra a hónap negyedik napján a legnagyobb. Egy másik, statisztikai módszerekkel készült tanulmány szerint a gabonapehelyt reggeliző nők nagyobb valószínűséggel hoznak világra fiúgyermeket. Tekintélyes folyóiratban jelent meg az a kutatás is, amely rávilágít, hogy a női névvel jelölt hurrikánok több áldozatot szednek.

Smith arra figyelmeztet, hogy az efféle, minden bizonnyal a publikációs kényszer hatására és a támogatásvadászat jegyében született statisztikai sarlatánságok tovább rontják a tudomány már amúgy is igencsak megtépázott tekintélyét. Smith utal rá, hogy a módszertani szempontból makulátlan, ám valójában a szándékos megtévesztés céljával írt áltanulmányokkal vetekedő publikációknak is szerepe lehet benne, hogy számos tudományterületen az elfogadott kutatásoknak csak csekély része ismételhető meg, és az érdemi felfedezések helyét az obskúrus és abszurd ostobaság veszi át, ami persze a stagnálásra ítéli a tudományt.

Az adatbányászati módszerekkel kapcsolatos kritikáját alátámasztandó, Smith is fabrikált egy elemzést, amelyben bebizonyította, hogy összefüggés mutatható egyebek között Trump bizonyos tweetjei és négy nappal későbbi moszkvai hőmérséklet, illetve a tea kínai tőzsdei ára között. Smith tréfának szánta felfedezését, de a kéziratot minden további nélkül elfogadták és közlésre ajánlották, külön méltatva az újszerű megfigyelésekre lehetőséget adó módszertant. Hogy melyik tudományos folyóirat munkatársai ültek fel a beugratásnak, azt Smith tapintatosan titokban tartja.