Arkiston tilastot aloitetaan nykyään vuodesta 2006, koska lainsäädännön vuoksi se on ensimmäinen vuosikerta, jonka Kansalliskirjasto voi asettaa yleisön käytettäväksi.
Yksinkertaisinta on kuvata arkistoa kerättyjen tiedostojen ja datan määrällä. Näistä jälkimmäinen annetaan pakkaamattoman datan määränä, joka on haravoitu Internetistä. Kirjaston levypalvelimilla aineisto säilytetään eri tavoin pakattuna tilan säästämiseksi.
Verkkoarkistoon haravoitu ‘tiedosto’ tarkoittaa todella vain tätä eikä muuta yksikköä kuten Internetistä kerättyä sivua tai sivustoa. Tilastossa on siis jokainen kuva-, musiikki- tai muuten linkitetty tiedosto laskettu mukaan itsenäisenä.
- Vuosina 2006-2008 kerättiin noin 146 miljoonaa tiedostoa ja 8,4 TB dataa (pakkaamatonta)
- Vuonna 2009 on kerätty 1.5.2009 mennessä noin 9 miljoonaa tiedostoa ja 500 GB dataa (pakkaamatonta)
Näin suuresta määrästä dataa voisi esittää useita kuvailevia lukuja, mutta mainitaan tässä vain tiedostoformaattien osuus. Lukumääräisesti neljä yleisintä tiedostotyyppiä ovat html-, jpeg-, gif- ja pdf-tiedostot. Tästä huolimatta arkistossa on runsaasti myös ääni-, video- ja animaatiotiedostoja sekä useita satoja erilaisia formatteja, joista osa vaikuttaa melko harvinaisilta.
Suomi-keräykset
Suurin osa verkkoarkiston sisällöstä tulee vuosittaisista Suomi-keräyksistä, joilla tavoitellaan suurempaa tai pienempää osaa suomalaisiksi määriteltävistä Internet-sivustoista.
Keräystoiminnan alkuaikoina kirjastolla oli käytössä nykyistä paljon vähemmän levytilaa arkistointiin. Tavoitteena oli silloin hankkia edustava näyte suomalaisista .fi-päätteisistä sivuista, ihan kaikkea ei edes uskottu saatavan. Vuosittain on kerätty melko edustavia, noin 50 miljoonan tiedoston otoksia .fi-domainista.
Viime vapun jälkeisiin lukuihin kannattaa lisätä vuoden 2009 Suomi-keräys, joka on vielä kesken monimutkaisten levyjärjestelyjen takia. Siinä on kaikesta huolimatta haravoitu jo noin 1,5 TB eli 24 miljoonaa tiedostoa.
Tämänvuotinen Suomi-keräys on luonteeltaan erilainen kuin edelliset, joissa tavoiteltiin .fi-päätteisiä sivustoja. Tämänvuotisella ponnistuksella halutaan tallettaa niiden lisäksi muutkin kotimaiset sivustot, joiden osoitteet päättyvät esimerkiksi .com-, .net- ja .org-tunnuksiin. Se, miten nämä kaikki sivut etsitään ja toisaalta rajataan suomalaisiksi tai Suomeen liittyviksi, on toisen kirjoituksen aihe.
Arkiston kaksi indeksiä
Datamassojen järjestely, sijoittelu ja indeksointi vievät jonkin verran aikaa keräyksien jälkeen, mutta suuri osa arkistosta on jo käytettävissä
Arkistosta voi etsiä vapaakappalekirjastojen päätteillä sivuja kahdesta indeksistä.
- URL-osoitteella ajalta tammikuu 2006-toukokuu 2009.
- Vapaita sanahakuja voi tehdä vuosilta 2006 ja 2007. Myös vuoden 2008 indeksit on laskettu mutta ne täytyy vielä loppusijoittaa sopivalle levylle.
Olemme saaneet 




Verkkotunnustietoja osaksi arkistoa
Olemme liittäneet osaksi Verkkoarkistoa pienen lisäpalvelun: Viestintäviraston Fi-verkkotunnuspalvelun tiedot ovat nyt käytettävissä varsinaisen verkkoarkiston yhteydessä Vapaakappalekirjastoissa. Tavoitteena on tallentaa rekisteri noin kerran vuodessa joten tulevaisuudessa voivat tutkijat sitten tarkastella kuka jonkin tietyn fi-päätteisen verkkotunnuksen on minäkin vuonna omistanut.