Back to Search View Original Cite This Article

Abstract

<jats:p>A tömeges webarchiválás egyik visszatérő problémája, hogy miként lehet rögzíteni a célzott tartalmat és a kapcsolódó URL-ek időbeli változásait. Ez a kérdés összefügg a seedlisták karbantartásával is, mivel ki kell zárni azokat a webhelyeket, amelyek korábban mentésre kerültek, de már nem működnek, vagyis egy adott URL mögött már nincs tartalom, vagy az már nem tartozik az adott webhelyhez. A cikk egy rugalmas koncepciót mutat be, amely felhasználható a különböző struktúrájú URL-ek (http vagy https protokollal vagy anélkül, www-vel vagy anélkül) közötti kapcsolatok, azok időbeli változásai és a webhelyhez mint entitáshoz való kapcsolódásuk kezelésére. A megoldás lényege egy entitásalapú SQL-adatbázis, amely képes az időbeli változásokat redundancia nélkül rögzíteni a 3. normálforma biztosításával. Az adatbázisban tárolt fő entitások, mint például az archiválásra kijelölt webhely és az URL, összekapcsolódnak egymással, önmagukkal és az őket tartalmazó táblákkal kapcsolótáblák segítségével. Ez a megoldás biztosítja a skálázhatóságot, azaz az egyes entitásokról tárolt információk tetszőlegesen bővíthetők, és a kapcsolótáblák „date_ from” és „date_to” mezői felhasználhatók az adott kapcsolatok érvényességi idejének rögzítésére. Az entitástáblák egymáshoz való kapcsolásával például alternatív URL-eket kapcsolhatunk össze időben. Az egyes entitásokról tárolt információk komplex lekérdezéseket tesznek lehetővé. Például az archiválandó tartalom esetében a típus (webhely, weboldal, fájl stb.), vagy az URL-ek esetében a státuszkód külön táblában van tárolva. A kapcsolótáblák biztosítják azt is, hogy az időbeli változások rögzítésre kerüljenek, így például lehetséges lekérdezni, hogy egy adott időszakban melyik URL tartozott egy adott entitáshoz (pl. egy weboldalon található fájlhoz). Mindez nagyban hozzájárul a fenntarthatósághoz, mivel sokkal gazdaságosabb, könnyebben használható és rugalmasabb lekérdezési megoldást kínál, mint a korábbi adattárolási módszerek, például a Google-táblázatok.</jats:p>

Show More

Keywords

adott vagy például időbeli hogy

Related Articles

PORE

About

Connect