Analyysi Helsingin kaupunginkirjaston aihepakettien ajallisesta kattavuudesta

Kirjasto on kertomus. Nimenomaiseen kertomukseen sisältyy väite, että kirjasto tuo esille kirjallisuuden (ym. julkaisujen) niin kutsuttua pitkää häntää. Siis pitämällä käytössä ja nostamalla esiin aineistoa, johon ei yksittäisinä julkaisuna kohdistu suurtakaan mielenkiintoa, mutta joka on määrällisesti laajaa.

Viime viikolla tuli mieleen, että Helsingin kaupunginkirjaston aihepakettien tonkiminen toisi tähän ehkä jotain valoa. Aihepaketit ovat sikäli mielenkiintoinen tutkimuskohde, että niiden laatimista ei ole keskitetysti juuri ohjattu; päin vastoin laatijoilla on vapaat kädet vinkata haluamaansa aineistoa, ja koko henkilökunta on pakettien kokoamiseen tervetullut. Näin voitaisi ajatella, että aihepaketit heijastavat kirjastoammattilaisten omaa näkemystä tällaisesta vinkkaamisesta ja aineiston esiin tuonnista, eikä organisaation näkemystä.

Koodasin ihmeellisillä bash-taidoillani pari loitsua, jotka käyvät hakemassa aihepakettien web-sivut kaupunginkirjaston julkaisujärjestelmässä asustavasta aihepakettiarkistosta, tonkivat niistä linkit pääkaupunkiseudun näyttöluetteloon HelMetiin ja käy vielä poimimassa sieltä ns. xrecord-tiedostot, jotka ovat XML-muotoisia MARC 21 -tietueita. Sieltä löytyy kenttä 260‡c, eli Julkaisu-, jakelu- jne. aika. Työkalusettinä minulla on perinteinen unix-varustus tyyliin sed, wget ja libxml:ään nojaava xpath. Logiikka on toteutettu bashillä. Oikeasti minun pitäisi opetella Perl-ohjelmointia juuri tällaista toimintaa varten.

Toivoin tällä tutkimuksella osoittavani, että toisin kuin yleensä tykätään toisella, kirjastolaiset oikeasti nostaisivat näissä paketeissa esille lähinnä uutta materiaalia. Ajattelin etukäteen, että ehkä 80% kohdistuisi viiden edellisen vuoden aikana julkaistuun aineistoon. Valitettavasti (tai siis onneksi) jouduin pettymään, sillä läpikäymäni aihepaketit todellakin nostivat esiin suuren määrän vanhempaa aineistoa!!

Kävin läpi vain vuosien 2010 ja 2009 aihepaketit. Tältä vuodelta on 16 aihepakettia, viime vuodelta 43. Tekemäni työkalu löysi näistä suoria viitteitä teoksiin 186 ja 747 kappaletta.

Alla tulos:

Vaikka painoa kertyykin huomattavasti viiden edellisen vuoden julkaistulle aineistolle vuonna 2009, ei käyrä ole ollenkaan niin jyrkkä kuin olin kuvitellut. Paljonkos se kirjan keskimääräinen aika kirjakaupan hyllyllä onkaan? Jotain 6 kuukautta tai jotain?

X-akselin otsikot ovat tässä aika pientä tihrua, mutta akselilla on sata vuotta julkaisuja vuodesta 1910 alkaen. Suurempi, paremmin luettava versio kuvasta löytyy Flickristä. Nyt nappaamani datat sekä työkalun saa minulta jos haluaa. Tai voin jatkaa työtä jos se jotakuta kovasti kiinnostaa ja siitä olisi kirjastoaatteen ja maailman hyvyyden kannalta iloa.

Mistään käyttämistäni työkaluista ei kiitos kuulu järjestelmätoimittajillemme (Innovative Interfacesin Millenium, Sinisen Meteoriitin Meteor). Ne eivät tarjoa mitään työkaluja tällaiseen tietojen ynnäilyyn eri lähteistä. Kiitos kuuluu sen sijaan avoimen lähdekoodin kansainväliselle yhteisölle, joka on kymmeniä vuosia herkeämättä tuottanut joustavia, tehokkaita, ilmaisia ja vapaita työkaluja, joita ilman maailma olisi erittäin erilainen kuin on. Kiitos.

Samalla menetelmällä ja tekemieni työkalujen avulla voi piirrellä erilaisia graafeja. Esim. käppyrän voisi rajoittaa vain tieto- tai kaunokirjallisuuteen tai vaikka musiikkiin. Myös aiempien vuosien käppyrät voisi piirtää. Aihepaketteja on nyt yhteensä 209, vuodesta 2006 lähtien. Tekemäni työkalusetti ei ole todellakaan täysautomaattinen (tosin tämä proof-of-concept todistaa, että työkalun voisi kehittää sellaiseksi), mutta pointti on, että meillä kirjastoilla on kaikenlaista dataa, jota voimme tutkia jos haluamme. Tämän tekemiseen meni noin yksi työpäivä, mukaan lukien tämä blogikirjoitus.

Ajallinen näkemys pitkään häntään on yksi tapa katsoa asiaa. Jos myös kirjastojen lainaustilastot olisivat saatavilla (kuten niiden pitäisi olla), voitaisi vastaavalla tavalla selvittää vaikkapa kuinka paljon kirjastolaiset nostavat esiin aineistoa jota ei lainata paljoakaan.

Kohan suomennos on nyt jossain vaiheessa

Tässä talven mittaan on ollut meneillään epämuodollinen ja aika impulsiivinen Kohan suomennos. Vielä keskeneräinen käännös on nyt jonkin aikaa ollut näkyvillä Labs.kirjastot.fi:n tarjoamassa Koha-asennuksessa , eli osoitteessa http://koha.kirjastot.fi. Se on toiminnalliselta puolelta melkolailla suomenkielinen. Kommentteja vastaanotetaan.

Aineistona tuossa Koha-asennuksessa on Project Gutenbergin sisältö. Auktorisoitua asiasanastoa ei tässä vaiheessa tosin ole, sellainen tarvittaisi kyllä sekä suomennoksen testaamiseksi että muutenkin. Onko kellään ideoita miten sellaisen saisi haltuunsa ja miten sen kikkailisi Kohaan? Periaatteessa yksi hailee mikä asiasanasto, mutta YSA olisi varmaan käytännönläheisin Kohan testailuun. Pitäisi varmaan fiilailla tuota testi-Kohaa parempaan esittely- ja demoilukuntoon.

Aloitin myös KirjastoWikiin sivun Kohan suomentamisesta.

Ja kysytäämpä vielä täälläkin: mikä sinusta on ”tag” suomeksi? ”Tagi”, ”tägi” ja ”avainsana” ovat ne ilmeiset ehdokkaat. Merkkasin nuo KirjastoWikissä olevaan termitaulukkoon, käykääpä äänestämässä tuon termin suomennosta laittamalla plus- (+) tai miinus (-) -merkkejä tuohon taulukkoon. Samalla voi kurkistaa ko. wikisivun rinnalla käytävää keskustelua.

Jos ei vielä ole selvää, niin Koha on avoimen lähdekoodin kirjastojärjestelmä. Siis vähän niin kuin PallasPro, Origo, Voyager, Aleph, Innovative Millenium ja tuleva Axiell Aurora, mutta ohjelman toiminta ei ole salaisuus. Esim täältä voi katsoa ja muokata miten haku ihan oikeasti toimii ja mitä relevanssialgoritmi tekee.

Aarg, tarvin poistokoulutusta!

Tänään kokoelmanhallinnallista aineiston poistamista tehdessäni turhauduin siinä määrin, että laadin tämän kirjelmän Helsingin kaupunginkirjaston kehittämisyksikölle:

Kaipailen jotain hyvää, mieluusti HelMetin laajuista koulutusta aineiston poistamisesta. Näkökulman soisi olevan ensin teoreettisempi, sitten katsottaisi hieman talon periaatteita ja strategioita ja lopulta katsottaisi Milleniumia ja muita järjestelmiä että mitä tietoa voi poistamisen tueksi saada.

Miltsissähän on (ainakin minun mielestäni) todella ankeasti saatavilla poistamispäätöstä tukevaa tietoa esimerkiksi niteen historiasta tai siitä ovatko niteet liikkuneet esim. varausten kautta vai onko asiakas poiminut ne hyllystä.

Googlen avulla voi yrittää arvailla että mitkä kirjoittajat ja teokset ovat alansa tai genrensä merkkiteoksia. Toisten teosten viiteluetteloita voi lueskella myös, mutta se on työlästä.

Minusta tuntuu, että erityisesti poistaminen on toiminto jota kirjastolaiset ainakin täällä Miltsin alueella (Millenium -järjestelmä on Suomessa käytässä vain HelMetissä, eli pääkaupunkiseudun kaupunginkirjastoissa) oikeastaan eivät voi suorittaa muuten kuin mutu -fiiliksen pohjalta. Jossain tätä kutsutaan ”hiljaiseksi tiedoksi”, ”ammattitaidoksi” tai ”harkinnaksi” mutta varaan itselleni oikeuden suhtautua moisiin nimityksiin kriittisesti.

Minusta julkishallinnon alaisen ammattilaisen pitää pystyä selvästi osoittamaan mihin tietolähteisiin hänen tekemänsä päätökset perustuvat, etenkin kun on kyse aineiston poistamisen kaltaisesta toimenpiteestä. Etenkin kun ollaan sentään kirjastolaisia!

HelMetin oma kirjavarasto toimii Pasilassa ja erillinen, koko kansallista kirjastoverkkoa palveleva ja tukeva Varastokirjasto sijaitsee Kuopiossa. Sinne voi lähettää jotain. Sitten on niinkutsutut nollalistat, eli listat niteistä jotka eivät ole liikkuneet edellisen vuoden aikana. Järjestelmästä selviää myös koska nide on viimeksi palautettu, koska sen tietue on luotu. Niteiden lainaus- ja uusintakertojen määrä näkyy myös mutta siinäpä ne tiedot sitten oikeastaan ovatkin. Ei esimerkiksi tietoa siitä miten jonkun kirjailijan tai johonkin asiasanoihin liittyvät teokset ovat liikkuneet viimeaikoina. Lainausmääräkin ilmoitetaan vain yhtenä lukuna tietueen luonnista nykyhetkeen asti, ei ole käytettävissä mitään tietoa siitä miten lainauskerrat ovat kertyneet esimerkiksi ajan funktiona tai minkätyyppiset käyttäjät ovat sitä lainanneet.

Olisi hienoa tietää miten poistamista oikeasti tehdään muissa kirjastoissa ja miten siihen liittyvää tietoa hallinnoidaan.