Tämä kirjoitus käsittelee ATK:ta. Uskon että automaattisella tietojen käsittelyllä olisi kirjastoille annettavaa. Olen kaavaillut jotain menetelmää visualisoida kirjastokokoelmia. Olen onnistunut keräämään aiheesta muutaman datasetin, mutta varsinainen työ on jäänyt tekemättä, uloslukien analyysi Helsingin kaupunginkirjaston aihepakettien ajallisesta kattavuudesta. Sitäpaitsi en tiedä tilastoanalyysistä yhtikäs mitään. Mutta pyrkimyksenäni on ollut todistaa, että sitä voidaan tehdä heti kun haluamme.
Minusta tällainen on tärkeää.
Tänään jostain syystä innostuin, ja laadin kuvatukset kahden suunnilleen saman kokoisen Varsinais-Suomalaisen yleisen kirjaston kokoelmien luokkien jakautumisesta.
Kirjasto #1

Erään kirjaston kokoelman luokkajakauma
Suurimmat luokat ovat
- 84.2 (suomenkielinen kaunokirjallisuus)
- 85.3 (sarjakuvat)
- 85 (sadut. kuvakirjat. sarjakuvat)
- 85.1 (sadut)
- 82.2 (suomenkieliset runot)
- 99.1 (elämäkerrat. muistelmat)
Kirjasto #2

Erään toisen kirjaston kokoelman luokkajakauma
Toisen kirjaston kokoelma näyttää tältä, ja suurimmat luokat ovat
- 84.2 (suomenkielinen kaunokirjallisuus)
- 85.22 (suomenkieliset kuvakirjat)
- 78.8911 (rock)
- 85.32 (suomenkieliset sarjakuvat)
- 78.891 (popmusiikki)
- 85.12 (suomenkieliset sadut)
Näistä on leikattu pois kaikki luokat, joissa on alle 100 tietuetta. Voisi olla hyödyllisempää rajoittaa esim. luokan syvyyden perusteella vaikkapa pääluokkiin tai yhteen desimaaliin. Huomaa, että tässä olevien kuvajaisten värit eivät korreloi toistensa kanssa, vaikka vertailua ajatellen se olisi erittäin mukavaa. Lisäksi pikaisesti laatimani kuvajaiset ovat karseita lukea (voit kuitenkin avata kuvat isompina niitä klikkaamalla) ja ohjelmakoodissakin olisi paljon kehitettävää… itse asiassa laatimani ohjelma on erittäin karu, eikä edes piirrä noita kaavioita automaattisesti vaan tein ne itse taulukkolaskentaohjelmassa. Mutta kaavioiden tekeminen ohjelmallisesti ei todellakaan ole mikään ongelma. Niitä voisi laatia esim. GC-ohjelmointikirjastoa (ilmainen ja avointa lähdekoodia) tai gnuplotia (ilmainen ja avointa lähdekoodia) käyttäen. Molempiin löytyy tietenkin Perl-rajapinta (ilmaisia ja avointa lähdekoodia).
Käyttäjäystävällisyyden vuoksi nuo yleisen kymmenluokituksen (YKL) numeeriset kentät voisi suoraan automaattisesti muuntaa luokkien nimiksi; se onnistuisi ykl.kirjastot.fi -palvelua käyttäen. Kuvioiden tuijottelu olisi hauskempaa.
Käytin tähän MARC-siirtomuodossa olevia tietokantadumppeja, ensimmäisessä on noin 200 000 tietuetta ja toisessa 280 000. Molemmat sisältävät osakohteet. Poimin kummastakin dataläjästä 054‡a -kentät ja laskin eri arvojen määrät. Tuon datan käsittelyyn menee pieneltä, kohta pari vuotta vanhalta miniläppäriltäni noin 15 minuuttia yhteensä.
Mitä näistä voidaan päätellä? Ei ehkä mitään. Mutta ehkä jotain. Ainakin voidaan päätellä se (no tämänhän kaikki jo varmasti tietävätkin), että kokoelmanhallinnan työkaluja voi kehittää itse helposti ja ilmaiseksi. Ideoita ja työkaluja riittää niin paljon kuin haluaa. Lisäksi voidaan päätellä, että luetteloinnin on oltava hyvää, jotta tässä — tai tiedonhaussa yleensäkään on mitään järkeä. Mutta senkin me tiedämme jo erittäin hyvin.
Tuollaiset kuvajaiset voitaisi hyvin helposti (=automaattisesti ja halvalla) tehdä viikottain jokaiselle suomalaiselle kirjastolle. Ajan oloon nähtäisi miten kokoelmat ovat eläneet. Todella hyödyllistä olisi tehdä rinnalle vastaava analyysi asiakkaiden tekemistä lainoista ja katsoa miten ne korreloivat kirjaston kokoelmien kanssa.
Meillä on ollut kaikki tähän tarvittavat työkalut ilmaiseksi saatavilla vuosikausia. Vuosikymmeniä jopa! Itse käytin tällä kertaa Perliä (ilmainen ja avointa lähdekoodia), MARC::Record -moduulia (ilmainen ja avointa lähdekoodia), OpenOffice Calcia (ilmainen ja avointa lähdekoodia), Gimpiä (ilmainen ja avointa lähdekoodia), geditiä (ilmainen ja avointa lähdekoodia) sekä GNU/Linuxiin (ilmainen ja avointa lähdekoodia) perustuvaa Ubuntua (ilmainen ja avointa lähdekoodia). Koneelliseen käsittelyyn kehitetty MARC-luettelointiformaatti meillä on ollut olemassa 1960-luvulta.
Tätä ominaisutta et muuten löydä Axiell Aurora tai Innovative Millenium -järjestelmistä.
[edit 02.01.2011 katso myös Anna-Liisan Kirjasto-kaapelilla aloittama Tilastot kokoelmien hoidon tukena (credit: mace)]