Olemme saaneet palautelomakkeen kautta jonkin verran linkkejä verkkosivuihin jotka puuttuvat verkkoarkistosta. Olemme kiitollisia kaikista ehdotuksista verkkoarkiston kartuttamiseksi.
Kaikki linkit käsitellään ja lain piiriin kuuluvat (siis karkeasti ottaen kaikki suomalaiset ja suomalaiselle yleisölle tarkoitetut aineistot) lisätään kerättävien aineistojen listalle. Sieltä ne haravoidaan talteen satunnaisin aikavälein, korkeitaan puolen vuoden viiveellä. Kiireellisemmin reagoimme vain jos aineisto on erikseen ilmoitettu lähiaikoina katoavaksi.
Se, että sivu lopulta näkyy verkkoarkiston hakemistossa voi kuitenkin viedä vielä huomattavasti kauemmin sillä hakemistossa näkyvät ainoastaan käyttöön asetetut sivut.
Nykyisellä laitteistollamme kerätyt aineistot indeksoidaan noin vuoden sisällä keräyksen tekemisestä, jonka jälkeen ne pian näkyvät arkistossakin. Suuri vuosittainen Suomi-keräys on indeksoinnisssa etusijalla joten lisäkeräykset joutuvat odottamaan vuoroaan vaikka ne ovat periaatteessa nopeita prosessoida.





Lukuja verkkoarkistosta
Yksinkertaisinta on kuvata arkistoa kerättyjen tiedostojen ja datan määrällä. Näistä jälkimmäinen annetaan pakkaamattoman datan määränä, joka on haravoitu Internetistä. Kirjaston levypalvelimilla aineisto säilytetään eri tavoin pakattuna tilan säästämiseksi.
Verkkoarkistoon haravoitu ‘tiedosto’ tarkoittaa todella vain tätä eikä muuta yksikköä kuten Internetistä kerättyä sivua tai sivustoa. Tilastossa on siis jokainen kuva-, musiikki- tai muuten linkitetty tiedosto laskettu mukaan itsenäisenä.
Näin suuresta määrästä dataa voisi esittää useita kuvailevia lukuja, mutta mainitaan tässä vain tiedostoformaattien osuus. Lukumääräisesti neljä yleisintä tiedostotyyppiä ovat html-, jpeg-, gif- ja pdf-tiedostot. Tästä huolimatta arkistossa on runsaasti myös ääni-, video- ja animaatiotiedostoja sekä useita satoja erilaisia formatteja, joista osa vaikuttaa melko harvinaisilta.
Suomi-keräykset
Suurin osa verkkoarkiston sisällöstä tulee vuosittaisista Suomi-keräyksistä, joilla tavoitellaan suurempaa tai pienempää osaa suomalaisiksi määriteltävistä Internet-sivustoista.
Keräystoiminnan alkuaikoina kirjastolla oli käytössä nykyistä paljon vähemmän levytilaa arkistointiin. Tavoitteena oli silloin hankkia edustava näyte suomalaisista .fi-päätteisistä sivuista, ihan kaikkea ei edes uskottu saatavan. Vuosittain on kerätty melko edustavia, noin 50 miljoonan tiedoston otoksia .fi-domainista.
Viime vapun jälkeisiin lukuihin kannattaa lisätä vuoden 2009 Suomi-keräys, joka on vielä kesken monimutkaisten levyjärjestelyjen takia. Siinä on kaikesta huolimatta haravoitu jo noin 1,5 TB eli 24 miljoonaa tiedostoa.
Tämänvuotinen Suomi-keräys on luonteeltaan erilainen kuin edelliset, joissa tavoiteltiin .fi-päätteisiä sivustoja. Tämänvuotisella ponnistuksella halutaan tallettaa niiden lisäksi muutkin kotimaiset sivustot, joiden osoitteet päättyvät esimerkiksi .com-, .net- ja .org-tunnuksiin. Se, miten nämä kaikki sivut etsitään ja toisaalta rajataan suomalaisiksi tai Suomeen liittyviksi, on toisen kirjoituksen aihe.
Arkiston kaksi indeksiä
Datamassojen järjestely, sijoittelu ja indeksointi vievät jonkin verran aikaa keräyksien jälkeen, mutta suuri osa arkistosta on jo käytettävissä
Arkistosta voi etsiä vapaakappalekirjastojen päätteillä sivuja kahdesta indeksistä.