Oktatás –történet –szociológia - keresésoptimalizáló

Az "Oktatás –történet –szociológia keresésoptimalizáló" egy fokozatosan kibontakozó, immár két évtizedes digitalizációs projekt része. A projekt lényege, hogy hagyományos könyvként, tanulmányként készült szövegeket olyanná alakítsunk, hogy az internetes keresőmotorok akkor is könnyen rájuk találjanak, ha valaki a konkrét könyv vagy tanulmány ismerete nélkül néhány szót üt a keresőbe, s akkor is, ha már tudja, hogy a konkrét könyvet, tanulmányt szeretné használni, s azon belül keres valamit. A megoldandó kihívás az, hogy egy keresett szó a net egészén talán sok milliószor, a forrásként kijelölt szövegben is sok százszor fordul elő - de egy másik szóval történő szűkítésre a keresőmotorok csak akkor képesek, ha nem tanulmány- vagy kötetméretű, hanem jóval kisebb szövegdarabokkal dolgozhatnak.

A projektünk során létrehozott szöveggyűjtemények / szövegtárak némelyikénél adott volt, mi legyen az a szövegegység, amit a keresőmotorok számára felkínálunk: a Zsidó Lexikonnál https://mek.oszk.hu/04000/04093/html/ és a Magyar Színházművészeti Lexikonnál https://mek.oszk.hu/08700/08756/html/ a szócikk képezte a természetes keresési egységet. Braham Holokauszt köteténél https://mek.oszk.hu/11800/11857/11857.htm (mivel az eredeti kötethez jól használható tárgy- és névmutató tartozott) az oldal tűnt természetes egységnek. Karády Viktor és Nagy Péter Tibor tanulmánykötete https://mek.oszk.hu/10900/10983/html/  esetében alkalmaztunk először a jelenlegihez hasonló megoldást, azt, hogy olyan öt-öt bekezdésből álló szövegdarabokat hozunk létre, melyek lehetővé teszik, hogy a felhasználó az általa keresett szavak egyidejű előfordulására keressen egy-egy konkrét könyvrészletben, vagy éppen megadja, hogy csak azokra a találatokra kíváncsi, ahol bizonyos szavak nem fordulnak elő - azaz használja a keresőmotor Boolean-operátor funkcióját. E kiadvány annyival lép tovább, hogy az 5-5 bekezdéses kereső mellett 10-10 bekezdéses kereső is van.

E keresőoptimalizálóban a könyv feldarabolása mechanikus.  Elkerülendő, hogy logikailag összetartozó bekezdések külön file-ba kerüljenek, s ezért elkerüljék a keresést, átfedő technikát alkalmazunk, így minden bekezdés kétszer kerül az ötbekezdéses adattárba és kétszer kerül a tízbekezdéses adattárba is. Természetesen találatot követően a kontextust érdemes ellenőrizni a https://mek.oszk.hu/10900/10982/html/10982.htm oldalon, ismeretlen nevek ill számok esetében pedig a https://mek.oszk.hu/10900/10982/10982.pdf használandó!

Keresés a szövegdarabok között



Találatokra akkor lehet számítani, ha majd a Google keresőmotorja – valamikor 2021 nyarán – feldolgozza a file-okat.

 

Budapest, 2021. június 14.

Nagy Péter Tibor