Analyysi Helsingin kaupunginkirjaston aihepakettien ajallisesta kattavuudesta

Kirjasto on kertomus. Nimenomaiseen kertomukseen sisältyy väite, että kirjasto tuo esille kirjallisuuden (ym. julkaisujen) niin kutsuttua pitkää häntää. Siis pitämällä käytössä ja nostamalla esiin aineistoa, johon ei yksittäisinä julkaisuna kohdistu suurtakaan mielenkiintoa, mutta joka on määrällisesti laajaa.

Viime viikolla tuli mieleen, että Helsingin kaupunginkirjaston aihepakettien tonkiminen toisi tähän ehkä jotain valoa. Aihepaketit ovat sikäli mielenkiintoinen tutkimuskohde, että niiden laatimista ei ole keskitetysti juuri ohjattu; päin vastoin laatijoilla on vapaat kädet vinkata haluamaansa aineistoa, ja koko henkilökunta on pakettien kokoamiseen tervetullut. Näin voitaisi ajatella, että aihepaketit heijastavat kirjastoammattilaisten omaa näkemystä tällaisesta vinkkaamisesta ja aineiston esiin tuonnista, eikä organisaation näkemystä.

Koodasin ihmeellisillä bash-taidoillani pari loitsua, jotka käyvät hakemassa aihepakettien web-sivut kaupunginkirjaston julkaisujärjestelmässä asustavasta aihepakettiarkistosta, tonkivat niistä linkit pääkaupunkiseudun näyttöluetteloon HelMetiin ja käy vielä poimimassa sieltä ns. xrecord-tiedostot, jotka ovat XML-muotoisia MARC 21 -tietueita. Sieltä löytyy kenttä 260‡c, eli Julkaisu-, jakelu- jne. aika. Työkalusettinä minulla on perinteinen unix-varustus tyyliin sed, wget ja libxml:ään nojaava xpath. Logiikka on toteutettu bashillä. Oikeasti minun pitäisi opetella Perl-ohjelmointia juuri tällaista toimintaa varten.

Toivoin tällä tutkimuksella osoittavani, että toisin kuin yleensä tykätään toisella, kirjastolaiset oikeasti nostaisivat näissä paketeissa esille lähinnä uutta materiaalia. Ajattelin etukäteen, että ehkä 80% kohdistuisi viiden edellisen vuoden aikana julkaistuun aineistoon. Valitettavasti (tai siis onneksi) jouduin pettymään, sillä läpikäymäni aihepaketit todellakin nostivat esiin suuren määrän vanhempaa aineistoa!!

Kävin läpi vain vuosien 2010 ja 2009 aihepaketit. Tältä vuodelta on 16 aihepakettia, viime vuodelta 43. Tekemäni työkalu löysi näistä suoria viitteitä teoksiin 186 ja 747 kappaletta.

Alla tulos:

Vaikka painoa kertyykin huomattavasti viiden edellisen vuoden julkaistulle aineistolle vuonna 2009, ei käyrä ole ollenkaan niin jyrkkä kuin olin kuvitellut. Paljonkos se kirjan keskimääräinen aika kirjakaupan hyllyllä onkaan? Jotain 6 kuukautta tai jotain?

X-akselin otsikot ovat tässä aika pientä tihrua, mutta akselilla on sata vuotta julkaisuja vuodesta 1910 alkaen. Suurempi, paremmin luettava versio kuvasta löytyy Flickristä. Nyt nappaamani datat sekä työkalun saa minulta jos haluaa. Tai voin jatkaa työtä jos se jotakuta kovasti kiinnostaa ja siitä olisi kirjastoaatteen ja maailman hyvyyden kannalta iloa.

Mistään käyttämistäni työkaluista ei kiitos kuulu järjestelmätoimittajillemme (Innovative Interfacesin Millenium, Sinisen Meteoriitin Meteor). Ne eivät tarjoa mitään työkaluja tällaiseen tietojen ynnäilyyn eri lähteistä. Kiitos kuuluu sen sijaan avoimen lähdekoodin kansainväliselle yhteisölle, joka on kymmeniä vuosia herkeämättä tuottanut joustavia, tehokkaita, ilmaisia ja vapaita työkaluja, joita ilman maailma olisi erittäin erilainen kuin on. Kiitos.

Samalla menetelmällä ja tekemieni työkalujen avulla voi piirrellä erilaisia graafeja. Esim. käppyrän voisi rajoittaa vain tieto- tai kaunokirjallisuuteen tai vaikka musiikkiin. Myös aiempien vuosien käppyrät voisi piirtää. Aihepaketteja on nyt yhteensä 209, vuodesta 2006 lähtien. Tekemäni työkalusetti ei ole todellakaan täysautomaattinen (tosin tämä proof-of-concept todistaa, että työkalun voisi kehittää sellaiseksi), mutta pointti on, että meillä kirjastoilla on kaikenlaista dataa, jota voimme tutkia jos haluamme. Tämän tekemiseen meni noin yksi työpäivä, mukaan lukien tämä blogikirjoitus.

Ajallinen näkemys pitkään häntään on yksi tapa katsoa asiaa. Jos myös kirjastojen lainaustilastot olisivat saatavilla (kuten niiden pitäisi olla), voitaisi vastaavalla tavalla selvittää vaikkapa kuinka paljon kirjastolaiset nostavat esiin aineistoa jota ei lainata paljoakaan.