Az elmúlt közel három évtized digitalizálási projektjeinek köszönhetően mára jelentős mennyiségű adat áll rendelkezésre a bölcsészettudományok területén is. Míg néhány évtizede csak álomképként vagy igen távlati célként lebeghetett a humán tudományok kutatói előtt nagyobb szövegkorpuszok, adathalmazok elemzése, jelenleg (sokak munkájának jóvoltából) ezek megléte szinte magától értetődő. A kísérleti projektet, amelynek kiinduló elképzelése az volt, hogy az elérhető adatokból ismerjük meg a 20. század elejének folyóirat-kultúráját Maróthy Szilvia, a BTK Irodalomtudományi Intézetének fiatal kutatója és Minkó Mihály adatvizualizációs szakértő mutatja be.


A projekt több izgalmas, apróbb eredményt hozott, a téma és a digitalizálási tendenciák megismerése szempontjából egyaránt. Részint annak felismerését, hogy a rendelkezésre álló jelentős adatmennyiség nem is annyira jelentős, az adatok elemzéséhez pedig minőségük sem megfelelő. Ez nem egyedi tapasztalat, hasonló megállapításokra jutottak például a nemrégiben megrendezett Az adatbőség zavarai: Sajtótörténeti kutatások és a digitalizáció című műhelykonferencia kutató és könyvtáros résztvevői is.

Munkánk előzménye a Nyugathon című, kutatók és laikusok számára nyitott workshop volt, amelynek során különféle adatforrásokat dolgoztunk fel a résztvevőkkel. Ezek az adatforrások igen eltérőek voltak. A legnagyobb mennyiségű adatot az Arcanum Digitális Tudománytártól kaptuk, a legrészletesebbeket A magyar irodalomtörténet bibliográfiája adatbázisból, melyet a Bölcsészettudományi Kutatóközpont Irodalomtudományi Intézete készít, a legsokszínűbb adatkollekciót pedig a Petőfi Irodalmi Múzeum Gyűjtemények és Névtér adatbázisaiból. Számos problémával találkoztunk a munka során. Az adatbázisok különféle adatsorai gyakran egymástól függetlenül épülnek, így sok bennük a párhuzamosság (például ugyanazon folyóiratokat dolgoznak fel, de más struktúrában). Nem ritka a strukturáltság hiánya, illetve következetlensége adatbázison belül is, valamint igen eltérőek a metaadatolási gyakorlatok. Az egyes szolgáltatások nem feltétlenül tartalmazzák az adott folyóiratok teljes cikkanyagát és szerzői névsorát, és nem mindig találunk információt a hiányokra vonatkozóan.

Az összegyűjtött adatokból első próbálkozásra olyan hálózatvizualizáció keletkezett, amely nem a korszak folyóiratkultúráját jellemzi, hanem inkább azt mutatja be, hogy milyen adatok állnak jelenleg rendelkezésünkre. A Pesti Hírlap például elenyésző pontocskának tűnik a Protestáns Szemle mellett.

jour2 cimlap1. ábra: Az összevont adatforrás teljes folyóirat-szerző hálózatának részlete. A teljes hálózat képe letölthető innen.

A három adatsort összehasonlítva arra jutottunk, hogy amíg nem tekinthetjük át a rendelkezésre álló adatállományt, nincs pontos képünk annak teljességéről. Ezért elemzésünk számára egy kisebb, ám sokkal jobban feldolgozott adatsort használtunk, amely két folyóirat metaadatait foglalta magába. Az egyik a Nyugat folyóirat Elektronikus Periodika Archívumon (EPA) hozzáférhető kiadása – pontosabban annak tartalomjegyzéke – volt. A másik a Napkelet folyóirat teljes anyagából a folyóiratszámra, szerzőre, illetve cikkcímre vonatkozó adatok, melyeket az Arcanum bocsátott rendelkezésünkre.

Ezekből az adatforrásokból készítettük azt a CSV (comma separated values) fájlt, amely az adatvizualizációk alapját képezte. A hálózatvizualizáció a folyóiratszámok és a szerzők képezte csomópontok kapcsolódásait mutatja meg. Az elemzéshez szükség volt az adatok félautomatikus tisztítására is, melyet zömmel reguláris kifejezések segítségével végeztünk. Az adattisztítás eredménye az az adatsor, mely a Gephi adatvizualizációs szoftverrel való elemzésre használható.

A hálózatvizualizációk kiválóan alkalmasak csoport(ok) elemei közötti relációk megjelenítésére, ezért értelemszerűen esett a választás erre a vizualizációtípusra. Ahhoz azonban, hogy következtetéseket tudjunk levonni az elkészült vizualizációkból, néhány alapfogalommal érdemes megismerkednünk. A hálózatok strukturális szempontból két fő elemmel rendelkeznek: a csúcsokkal (node) és az azokat összekötő élekkel (edge). Ha egy hálózatban a csúcsok különböző típusúak, azaz más kategóriába tartoznak (például szerzők és folyóiratok, ahol az említett szerzők publikálnak), akkor azt a hálózatot bipartitnak nevezzük. Adatbázisunkban mi is ilyen adatokat rögzítettünk, azonban ahhoz, hogy kiderítsük, mely szerzők publikáltak együtt ugyanabban a folyóiratban, szükség volt a bipartit hálózat átalakítására, amelyet a Gephi kiegészítő moduljával tettünk meg. Így olyan gráfokat kaptunk, amelyekben kizárólag szerzők (node) és a közöttük lévő viszonyok (edge) szerepeltek.

Hasonlóan fontos hálózatelméleti fogalom a fokszám, amely egy adott csúcs éleinek (kapcsolatainak) számát adja meg. Ez a mutató a csúcsok alapvető sajátossága. Megkülönböztethetünk bemenő és kimenő fokszámot, aszerint, hogy a csúcsba bemenő vagy kimenő élekről van-e szó. A fokszám a szerzői hálózat esetében az azonos folyóiratba írt publikációt jelentette, tehát minél gyakrabban publikált egy szerző ugyanabban a folyóiratban, mint egy másik szerző, a közöttük lévő kapcsolat annál erősebb lett, a fokszám pedig (egyik esetben a kimenő, másik esetben a bemenő) egyre magasabb értéket vett fel.

A továbbiakban az elkészült hálózatvizualizációk egy-egy részletét mutatjuk be. Az adatvizualizációkon a csúcsok színei minden esetben a Gephi által klaszterezett csoportokat jelentik. Ezt a Gephi „Modularity Class” algoritmusával készítettük el, és olyan rejtett alhálózatokat segít felfedezni, amelyek valamilyen ok miatt egy közösséget alkotnak.

Az első három ábrán a Nyugat (2. ábra), a Napkelet (3. ábra), valamint a két folyóirat közös (4. ábra) szerző–folyóiratszám-hálózata látható. A 2. és 3. ábra a folyóiratok szerzői hálózatát mutatja be azon szerzők nélkül, akik legfeljebb egy számban publikáltak (fokszámuk 1). A teljes hálózatokról készített ábrák is elérhetők a GitHubon, ám jelen cikkhez az áttekinthetőbb „egy fokszám nélküli” ábrákat illesztettük be, és csak az összevonás esetében mutatjuk a teljes hálózatot. A vizualizációkon a csúcsok nagysága azt jelenti, hogy az adott szerző milyen gyakran írt a folyóirat különböző számaiba.

2abra2. ábra: A Nyugat „egy fokszám nélküli” hálózata

3abra3. ábra: A Napkelet „egy fokszám nélküli” hálózata

4abra4. ábra: A Nyugat és a Napkelet közös teljes hálózata

Az alábbi három ábrán a Nyugat (5. ábra), a Napkelet (6. ábra), valamint a két folyóirat közös (7. ábra) szerzőségi hálózata szerepel. A vizualizációk azt mutatják meg, hogy a folyóiratok számaiban mely szerzők publikáltak közösen. A vizualizációk ebben a formában leginkább áttekinthetetlen gombolyagnak tűnnek, de látható, hogy egyes szerzők között a kapcsolat kiemelkedően erős, azaz gyakrabban publikáltak közösen. A Nyugat és a Napkelet folyóiratok közös hálózata mutatja a szerzők azon csoportját, amely mindkét folyóiratban publikált. Ezek a keresztpublikációk kapcsolják össze tulajdonképpen a két folyóiratot egymással, azokon a szerzőkön keresztül, akik mindkét lapban publikáltak.

5abra5. ábra: A Nyugat szerzőségi hálózata

6abra6. ábra: A Napkelet szerzőségi hálózata

7abra szerk7. ábra: A Nyugat és a Napkelet közös szerzőségi hálózata

Végül az alábbi három ábra a Nyugat (8. ábra), a Napkelet (9. ábra), valamint a két folyóirat közös (10. ábra) top 20-as listáját mutatja be, tehát azt a húsz szerzőt, akik a leggyakrabban publikáltak közösen, ugyanazon folyóiratszámban. Őket nevezhetnénk a folyóiratok magjának, a közöttük létrejött kapcsolati háló pedig a kor meghatározó szerzői közösségét mutatja meg. A Nyugat és a Napkelet hálózatainak összevonása után készítettük azt a vizualizációt, amely a 20 legfontosabb szerzőt mutatja a két folyóiratban. Ebben az esetben azonban a két folyóirat közötti kapcsolat erősítése szempontjából legfontosabb szerzőkről van szó: azokról, akik a legtöbbet publikáltak mindkét folyóiratban, és így magas közöttiségértékükkel az összekapcsolt folyóirat-hálózat legfontosabb csúcsai.

8abra8. ábra: A Nyugat top 20 szerzőjének hálózata

9abra9. ábra: A Napkelet top 20 szerzőjének hálózata

10abra10. ábra: A Nyugat és a Napkelet közös top 20 szerzőjének hálózata

Sok ismerős és néhány kevéssé ismert szerző szerepel a vizualizáción, ami azt mutatja, hogy hálózatelméleti szempontból nem feltétlenül azok a legfontosabb szerzők, akiket az eddigi kutatások középpontba állítottak, vagy akiket iskolai tanulmányaink alapján azoknak vélünk. Ennél bátrabb következtetésekre azonban csak a kutatás előrehaladottabb szakaszában juthatunk – jelen cikkünkkel csupán betekintést kívántunk nyújtani egy új kutatás első lépéseibe.

Maróthy Szilvia és Minkó Mihály


A cikk előzménye: Maróthy Szilvia, Minkó Mihály, Parádi Andrea: A Nyugat és korszakának teljes hálózata helyett (Kapcsolati hálók felrajzolásának nehézségei). Hálózatok és komparatisztika: a világirodalom hálózatai, Kolozsvár, Babeș-Bolyai Tudományegyetem, 2019. október 4–5. Az előadás prezentációja és a kutatáshoz kapcsolódó anyagok elérhetők a GitHubon


marothyMaróthy Szilvia a BTK Irodalomtudományi Intézetének fiatal kutatója. Kutatási területe a reneszánsz és barokk irodalom, valamint a számítógépes filológia. A folyóirat felelős szerkesztője.

Legfontosabb publikációi:

„A nyílt és a zárt tudományról”. In Kulturális iparágak, kánonok és filterbuborékok, szerkesztette Bárány Tibor, Hermann Veronika és Hamp Gábor. Budapest: Typotex, 2020.

„Tudományos szövegkiadások a hálózaton: Áttekintés”. Irodalomtörténeti Közlemények 122, 5 (2018): 617–633.

„Börtönben koholt versek, versekben koholt börtön: Koháry István költészetéről”. In Tévhit, szerkesztette Markó Anita, Virág Csilla és Vrabély Márk, 9–27. Fiatalok Konferenciája 2017. Budapest: Reciti, 2018.

További publikációi szabadon hozzáférhetők az MTMT-ben.


minkoMinkó Mihály adatvizualizációs szakértő, aki több mint tíz éve foglalkozik adatvizualizációk tervezésével és kivitelezésével. Elsősorban üzleti dashboardokat készít, de emellett gyakran ad elő vendégelőadóként különböző egyetemeken (Corvinus, BME, ELTE, BGE, SZTE, PTE) az adatvizualizációk készítéséről.

Közösségszervezőként a Databánya adatvizualizáció hazai adatvizualizációs közösség meetupjainak szervezője, emellett gyakran szervez workshopokat is különböző témákban (hálózatvizualizáció, adatvizualizáció).

Fontosabb publikációja: Minkó Mihály. „Vizuális tervgazdálkodás – Egy úttörő grafikonkészítő összefoglaló munkája és rejtélyes munkássága”. Információs Társadalom, 1 (2012): 119–123.