Analyysi Helsingin kaupunginkirjaston aihepakettien ajallisesta kattavuudesta

Kirjasto on kertomus. Nimenomaiseen kertomukseen sisältyy väite, että kirjasto tuo esille kirjallisuuden (ym. julkaisujen) niin kutsuttua pitkää häntää. Siis pitämällä käytössä ja nostamalla esiin aineistoa, johon ei yksittäisinä julkaisuna kohdistu suurtakaan mielenkiintoa, mutta joka on määrällisesti laajaa.

Viime viikolla tuli mieleen, että Helsingin kaupunginkirjaston aihepakettien tonkiminen toisi tähän ehkä jotain valoa. Aihepaketit ovat sikäli mielenkiintoinen tutkimuskohde, että niiden laatimista ei ole keskitetysti juuri ohjattu; päin vastoin laatijoilla on vapaat kädet vinkata haluamaansa aineistoa, ja koko henkilökunta on pakettien kokoamiseen tervetullut. Näin voitaisi ajatella, että aihepaketit heijastavat kirjastoammattilaisten omaa näkemystä tällaisesta vinkkaamisesta ja aineiston esiin tuonnista, eikä organisaation näkemystä.

Koodasin ihmeellisillä bash-taidoillani pari loitsua, jotka käyvät hakemassa aihepakettien web-sivut kaupunginkirjaston julkaisujärjestelmässä asustavasta aihepakettiarkistosta, tonkivat niistä linkit pääkaupunkiseudun näyttöluetteloon HelMetiin ja käy vielä poimimassa sieltä ns. xrecord-tiedostot, jotka ovat XML-muotoisia MARC 21 -tietueita. Sieltä löytyy kenttä 260‡c, eli Julkaisu-, jakelu- jne. aika. Työkalusettinä minulla on perinteinen unix-varustus tyyliin sed, wget ja libxml:ään nojaava xpath. Logiikka on toteutettu bashillä. Oikeasti minun pitäisi opetella Perl-ohjelmointia juuri tällaista toimintaa varten.

Toivoin tällä tutkimuksella osoittavani, että toisin kuin yleensä tykätään toisella, kirjastolaiset oikeasti nostaisivat näissä paketeissa esille lähinnä uutta materiaalia. Ajattelin etukäteen, että ehkä 80% kohdistuisi viiden edellisen vuoden aikana julkaistuun aineistoon. Valitettavasti (tai siis onneksi) jouduin pettymään, sillä läpikäymäni aihepaketit todellakin nostivat esiin suuren määrän vanhempaa aineistoa!!

Kävin läpi vain vuosien 2010 ja 2009 aihepaketit. Tältä vuodelta on 16 aihepakettia, viime vuodelta 43. Tekemäni työkalu löysi näistä suoria viitteitä teoksiin 186 ja 747 kappaletta.

Alla tulos:

Vaikka painoa kertyykin huomattavasti viiden edellisen vuoden julkaistulle aineistolle vuonna 2009, ei käyrä ole ollenkaan niin jyrkkä kuin olin kuvitellut. Paljonkos se kirjan keskimääräinen aika kirjakaupan hyllyllä onkaan? Jotain 6 kuukautta tai jotain?

X-akselin otsikot ovat tässä aika pientä tihrua, mutta akselilla on sata vuotta julkaisuja vuodesta 1910 alkaen. Suurempi, paremmin luettava versio kuvasta löytyy Flickristä. Nyt nappaamani datat sekä työkalun saa minulta jos haluaa. Tai voin jatkaa työtä jos se jotakuta kovasti kiinnostaa ja siitä olisi kirjastoaatteen ja maailman hyvyyden kannalta iloa.

Mistään käyttämistäni työkaluista ei kiitos kuulu järjestelmätoimittajillemme (Innovative Interfacesin Millenium, Sinisen Meteoriitin Meteor). Ne eivät tarjoa mitään työkaluja tällaiseen tietojen ynnäilyyn eri lähteistä. Kiitos kuuluu sen sijaan avoimen lähdekoodin kansainväliselle yhteisölle, joka on kymmeniä vuosia herkeämättä tuottanut joustavia, tehokkaita, ilmaisia ja vapaita työkaluja, joita ilman maailma olisi erittäin erilainen kuin on. Kiitos.

Samalla menetelmällä ja tekemieni työkalujen avulla voi piirrellä erilaisia graafeja. Esim. käppyrän voisi rajoittaa vain tieto- tai kaunokirjallisuuteen tai vaikka musiikkiin. Myös aiempien vuosien käppyrät voisi piirtää. Aihepaketteja on nyt yhteensä 209, vuodesta 2006 lähtien. Tekemäni työkalusetti ei ole todellakaan täysautomaattinen (tosin tämä proof-of-concept todistaa, että työkalun voisi kehittää sellaiseksi), mutta pointti on, että meillä kirjastoilla on kaikenlaista dataa, jota voimme tutkia jos haluamme. Tämän tekemiseen meni noin yksi työpäivä, mukaan lukien tämä blogikirjoitus.

Ajallinen näkemys pitkään häntään on yksi tapa katsoa asiaa. Jos myös kirjastojen lainaustilastot olisivat saatavilla (kuten niiden pitäisi olla), voitaisi vastaavalla tavalla selvittää vaikkapa kuinka paljon kirjastolaiset nostavat esiin aineistoa jota ei lainata paljoakaan.

7 thoughts on “Analyysi Helsingin kaupunginkirjaston aihepakettien ajallisesta kattavuudesta

  1. Muistan kun tein graduani, niin suurinta tuskaa tuotti juuri onneton tilastointimahdollisuus ohjelmissa. Yllätyin kun tuskin mitään kiinnostavaa tietoa ei saanut tilastoitua. Tässä vedottiin mielestäni aika ohuesti tietosuojalakiin. En ymmärtänyt silloin enkä ymmärrä nyt miten asiakkaiden tietosuoja vaarantuisi, jos tietäisin minkäikäisiä kirjoja lainataan ja mitä kirjoja milloinkin on lainassa. Ja että mahdollinen tilastotieto säilyisi myös yli vuodenvaihteen! Nytkin on ikuisena riesana se, että järjestelmä antaa kirjalle kaikki lainat ja lainat kuluvana vuonna eli tammikuussa ei järjestelmästä saa irti minkäänlaisia järkeviä kiertolukuja uudehkolle aineistolle!

  2. Hienoa, Mace! Juuri tällaisiin käyttötarkoituksiin avoin kirjastodata antaisi/antaa laadukasta materiaalia ilman järjestelmäriippuvuuksia.

  3. Kirjastoilla on pitkä historia käyttäjätietojen ylipyhittämisessä. Siinä olisi paljon poisoppimista. Riittää kun käyttäjä ja lainatiedoista otetaan pois ne tiedot, joilla lainat voi yhdistää henkilöhin, loppuja kirjasto voi analysoida mielensä mukaan. Käyttötiedot ovat aarre, jota täytyisi hyödyntää.

  4. Kiitos Macelle taas mainiosta jutusta. Tämä sivusto on yksi niistä apuvälineistä, joiden ansiosta kuvittelen edes jollain tasolla olevani selvillä uusista kirjastoon liittyvistä verkkomaailman asioista.

  5. @Tuulikki kiitos kauniista sanoista🙂

    @Seppo sanos muuta. Aiheuttaa tietenkin kulmakarvojen kohoilua, kun samaan aikaan puhutaan kaikenlaisesta ”sosiaalisesta datasta”, ”asiakaslähtöisyydestä” jne., vaikka parikymmentä vuotta todella arvokasta dataa on jo menetetty. Jos haluaisimme, voisimme piirtää pitkän aikavälin trendejä siitä miten asiasanojen tai kirjastoluokkien keskenäiset suhteet vaihtelevat. Tässä olisi heti eräs erinomainen mittari jolla mitata yhteiskunnallista vaikuttavuutta, josta nyt puhutaan kun alkaa olla yleisesti tunnustettua, etteivät kävijämäärät ja lainausluvut ole riittävä mittari yleisen kirjaston toiminnalle.

    Haloo Opetus- ja kullttuuriministeriö oletteko kuulolla?🙂

    ”Hei data, senkin laiskiainen! Töihin siitä!!”

    • Päivikki Karhula peräänkuuluttaa ehdotonta yksityisyydensuojan taetta otsikolla Onko lukeminen yksityisasia. Päivikin toimittama, erittäin puhutteleva ja polemisoiva Paratiisi vai panoptikon nousee minulle aina mieleen kun näistä asioista on kyse. Olen kuitenkin sitä mieltä, ettei valinta ole joko/tai. Käyttödataa voidaan hyödyntää tyylikkäästi, ihmisten (ehdottomasti tunnustamiani) oikeuksia loukkaamatta. Oikeutta anonyymiin tiedonhakuun ei ole syytä mytologisoida, ja ihmisten pitää pystyä itse vaikuttamaan asiaan.

  6. Päivitysilmoitus: HelMet ja Open Data « Riippumaton asiantuntija

Vastaa

Täytä tietosi alle tai klikkaa kuvaketta kirjautuaksesi sisään:

WordPress.com-logo

Olet kommentoimassa WordPress.com -tilin nimissä. Log Out / Muuta )

Twitter-kuva

Olet kommentoimassa Twitter -tilin nimissä. Log Out / Muuta )

Facebook-kuva

Olet kommentoimassa Facebook -tilin nimissä. Log Out / Muuta )

Google+ photo

Olet kommentoimassa Google+ -tilin nimissä. Log Out / Muuta )

Muodostetaan yhteyttä palveluun %s