Esitelmäni kirjaston bibliografisen datan laadusta sekä laadun arvioinnista ja valvonnasta (ym.)

Tein vuoden 2012 lopulla freelancerina parin kuukauden ajan erittäin hauskaa, opettavaa ja vaativaa ”kuutamokeikkaa” PIKI-kirjastoille bibliografisen datan parissa, ja ilmeisesti sen vuoksi olin kutsuttuna Kansalliskirjaston Kuvailun tiedotuspäivillä 20.-21.3.2013 puhumaan asiasta. Kansalliskirjaston Tarja Mäkisellä sekä minulla oli tunnin osuus otsikolla Näkökulmia laatuun. Itse juttelin luettelointityön ja luettelointidatan suhteesta tietojenkäsittelyyn, ohjelmointiin ja tietohallintoon, laatuajattelusta sekä kirjavista mahdollisuuksista joita meillä kirjastoilla olisi käytettävissämme, ja joiden parissa marras-joulukuussa estottomasti revittelin.

Tapahtuman molemmat päivät on taltioitu, oma osuuteni alkaa ensimmäisen päivän (20.3.) videotallenteen noin kohdasta 2:18:00 ja kestää 25 minuuttia plus keskustelua.

Jos haluat katsella pelkkää esitysgrafiikkaani tuolta tiedotuspäiviltä, se löytyy Prezistä. Aiempi blogipostauksessani maaliskuun 12. päivältä sisältää linkit laatimaani lähdekoodiin, myös työpäiväkirjana käyttämääni projektin- ja asianhallintajärjestelmään sekä myös tekstiksi kirjoittamaani raporttiin.

Vaskin asiasanat, jotka eivät ole YSAssa

Sanaston pengontaa

Kävin läpi Vaski-kirjastojen aineistotietokannan ja etsin asiasanat, jotka eivät esiinny tesauruksessa. Ohessa lista yleisimmistä:

esiintymien lkm termi
202 sotaromaanit
108 Lieto-kokoelma
100 korjausoppaat
66 eräkirjat
38 matkakirjat
29 sisustusoppaat
27 Suomen historia
23 kansanmusiikki: Venäjä
23 jouluaskartelu
22 posliinimaalaus
21 viihdetaiteilija : Suomi
21 salapoliisiromaanit
20 Yhdistyneet kansakunnat
20 kirjasto- ja informaatiopalveluala
20 1980-LUKU
18 vaateompelu
17 rock and roll
16 MURRENÄYTTEET
16 itämaiset taistelulajit
15 sosiaali- ja terveydenhuolto
15 rajavartiolaitos
15 paperiaskartelu
15 laivaluettelo
15 DVD-elokuvat
14 tiedeakatemiat
14 Suomen taideyhdistys
14 piirroselokuvat
13 tabulatuurinotaatiot
13 ranskalainen keittiö
13 nuorten aikuisten kirjat
13 Jeesus Kristus
13 äänentoistotekniikka
13 šamanismi
12 YKSINLAULU
12 vauvanhoito
12 Titanic
12 tilastollinen tutkimus
12 punk rock
12 kaupunkihistoriat
12 historia : 1900-luku
12 arabialainen musiikki
12 1960-luku
11 tšekin kieli
11 säveltäjät : Suomi
11 rentoutuminen
11 muodin historia
11 kuultokudos
10 varastaminen
10 Uusi testamentti
10 taitelijat
10 seminaarit (kokoukset)
10 samanismi
10 rockmusiikki
10 kiinalainen keittiö
10 1800-LUKU

Ohjelman (kts. alla) antamista tiedoista näkee myös, että esim. asiasana muodin historia (jota ei ole YSAssa) esiintyy Vaskin tietueissa Ppro853_137785, Ppro853_541141, Ppro853_541143, Ppro853_541144, Ppro853_541145, Ppro853_541146, Ppro853_541634, Ppro853_561083, Ppro853_561086, Ppro853_561087 sekä Ppro853_561088.

Eri asiasanoja joilla on vain yksi esiintymä Vaskissa löysin 1761 kappaletta. Kymmesti esiintyviä asiasanoja on kahdeksan kappaletta. Miten tällaista dataa olisi parasta havainnoillistaa? Ideoita vastaanotetaan.

Vaski on FinMARC 1998 -muotoa ja kyseisen standardin mukaan kentässä 652 olevat asiasanat ovat peräisin Yleisestä suomalaisesta asiasanastosta, eli YSA:sta (kansainvälisessä MARC21:ssä asia ilmaistaan hieman toisin, kuvaamalla asiasanakenttien osakentässä ‡2 mikä sanasto on kyseessä, tyyliin 650 #7 ‡a bibliografinen valvonta ‡2 ysa).

Tein aiemmin pienen työkalun jolle voi antaa yksittäisiä MARC-tietueita ja se kyselee ONKI-palvelun ohjelmointirajapintaa (APIa) käyttäen ovatko tietueen asiasanat YSO-ontologiassa. Kun YSA julkaisiin vastikään avoimena datana, tuli nyt tekemäni massakäsittely helpommaksi. Työn voi nykyään tehdä omalla koneella, pommittamatta ONKIn rajapintaa noin suurella kyselymäärällä.

Prosessi

Noukin ensin YSA:n SKOS-muotoisesta tiedostosta varsinaiset sanat (prefLabel ja altLabel) tekstitiedostoon yhdeksi pitkäksi, pitkäksi listaksi. 14.6.2011 lataamassani tesauruksessa oli 36991 termiä.

Sekä MARC-data että sanasto ovat saatavilla myös XML:nä, jonka käyttäminen olisi oikeaoppisempaa, mutta en nyt jaksanut säätää niiden kanssa sillä XML:n käsittelytyökalut ovat minulle aika tuntemattomia. Sensijaan olen tottunut operoimaan unixin komentoriviltä ja opettelen myös Perliä.

Tässä kirjoittamani Perl-kielinen ohjelma jota käytin:

#!/usr/bin/perl

use MARC::Batch;

my $file = "vaski-kunnostettu.mrc";
my $batch = MARC::Batch->new('USMARC', $file);
my $sanasto = "~/ysa.lista.alt_too";

$batch->strict_off();
while (my $record = $batch->next()) {
        for my $termi ($record->subfield('652', 'a')) {
        if (system("grep -q -i \"$termi\" $sanasto")) {
            print($termi, ";", $record->field('001')->as_string,"\n");
        }
    }
}

Kuten ehkä huomaat, tämä on hyvin kaukana elegantista. Ensinnäkin käsiteltävät tiedostot on nimetty ohjelman sisällä ja toisekseen kukin termi etsitään sanastosta käyttäen ulkoista ohjelmaa. Tämä aiheuttaa yhden forkin per asiasana, joka on huono asia. Oikeasti vertailu pitäisi tehdä tämän ohjelman sisällä, lukemalla asiasanat tiedostosta yksiulotteiseen taulokkoon tai listaan. Mutta toimii tämä näinkin, kun huonoa ohjelmistosuunnittelua voi korvata prosessoriteholla 🙂 Miniläppärini (joka on ainoa käyttämäni työväline) rouskutteli tätä useita tunteja.

Mutta tämän ei olekaan tarkoitus olla eleganttia. Tämän on tarkoitus osoittaa kirjastoammattilaisille, että me itse voimme ottaa aloitteen käsimme sen sijaan, että odottelemme että järjestelmätoimittajamme tekee kivoja asioita puolestamme (sitä on turha odotella).

Vielä pari huomiota laatimani menetelmän puutteista: se ei huomioi asiasanaketjuja, ja tuon kaltainen huoleton merkkijonojen etsintä johtaa vääriin tuloksiin mikäli etsittävä epäkelpo asiasana esiintyy osana kelpoa asiasanaa. Tälle asialle pitäisi todella tehdä jotain.

Mitä välii?

Ymmärtääkseni kaikkien 652-kentässä olevien termien pitäisi olla peräisin YSA:sta. Näin sanoo myös FinMARC -formaatti. Asiasanoja joita ei YSAssa ole, ei pitäisi käyttää ainakaan kyseisessä kentässä. Kuten tiedämme, ei asiasanasto kuvaa kaikkia maailman ilmiöitä. Siksi paikallisille sanastoille onkin tarvetta.

Minua paremmin luettelointiin perehtyneet tietänevät mitä sisällönkuvailussa oikeasti kuvaillaan. Jossain lienee sovittu, onko sisällön lisäksi aiheellista kuvailla muotoa. Esim. Vaskissa käytetään termejä ”Nintendo Wii”, ”sotaromaanit” ja ”elämäkerrat” kuvailemaan muotoa. Nämä teokset eivät kerro Nintendon Wii-peleistä, sotaa kuvaavista romaaneista tai elämäkertojen kirjoittamisesta, vaan ovat niitä. Ehkä tämä on ookoo – en jaksa nyt lueskella luettelointisäännöstöä asiaa tarkistaakseni enkä muista ulkoa mitä siellä sanotaan. Mutta ei ole vaikea nähdä että tämä on problemaattista. Ihmettelin samaa asiaa aiemmin, kun mietin minkähänlaista olisi “ihan oikea kirjastotyö” pelien parissa?

Mainiot luetteloijat ovat arvatenkin tämän muoto vs. sisältö -asian ratkaisseet jollain sopimuksella (joka siis lienee kirjattuna luettelointisääntöihin). Käytännössä ainakin Vaskissa kuvaillaan surutta sekä muotoa että sisältöä 652 -kentässä.

Tässä on muitakin mielenkiintoisia puolia: MARC-tietueessa ei esimerkiksi ole mitään tietoa siitä, mitä YSAssa on ollut tietueen luontihetkellä. YSA muuttuu ajan myötä, kenties osa nyt listaamistani termeistä on ollut kyseisen luetteloijan käyttämässä YSA:n versiossa luettelointihetkellä… MARC-tietueesta itsestään puuttuu tällainen tekninen metadata.

Kirjoitusvirhe luetteloinnissa on fataali virhe, ja teos katoaa kyseisen aiheen kannalta mustaan aukkoon. Varsinaisia kirjoitusvirheitä löysin Vaskista onneksi vain ihan muutaman.

Monet löytämäni, YSA:n ulkopuoliset termit ovat hyvin käytännöllisiä ja olen oikeasti onnellinen että niitä on tietueisiin luettelointisääntöjen vastaisesti tallennettu. Tämä kertoo sanaston puutteellisuudesta ja myös luokitusjärjestelmän puutteista, sekä kirjastoihmisten omatoimisista ongelmanratkaisupyrkimyksistä. Se on tietenkin aivan oikein. Nämä itse keksityt termit voisi eristää omaan sanastoonsa, jolla YSAa täydennetään, ellei ole YSAn tarkoituksenmukainen ylläpito ole mahdollista. Lisäksi meillä on käytettävissämme useampia sanastoja YSAn rinnalla ja niitä olisikin hyvä käyttää MARC-tietueen sellaisissa paikoissa, jotka eivät ole YSAlle varattuja.

Minkähänlaista olisi ”ihan oikea kirjastotyö” pelien parissa?

Turussa Edge on urheilulehti

Mukava havainto eilen: Turun kaupunginkirjastossa Edge (huomaa Edgen hauska webbi-osoite) on urheilulehtien joukossa. Siellä budo-, fitness-, ratsastus-, darts- ja purjehduslehtien kanssa samassa hyllyssä.

En ole vähään aikaa kirjoittanut pelaamisesta. Kirjastoja ja tietokonepelejä on hauska miettiä. No ainahan on hauskaa… mutta tämä nyt liittyy siihen, miten kirjastojen ammattilaiset ja asiakkaat mieltävät tietskapelit kulttuurijulkaisujen kentällä. Monet kirjastolaiset puhuvat pelaamisesta kirjastoissa ja näkevät sen hyvänä tapana houkutella nuoria kirjastoon paikanpäälle. Halutaan, että nuoret mieltävät kirjaston olohuoneena. Logiikka noudattelee yleensä porttiteoriaa, eli jos nuoret tottuvat käymään kirjastossa pelaamassa, he jossain vaiheessa jättävät pelit ja siirtyvät laatukirjallisuuteen, mahdollisesti dvd-elokuvien tai fantasiakirjallisuuden kautta.

Tällaisessa käytössä pelit ja kirjastoissa pelaaminen on siis markkinointia ja asiakkuudenhallintaa. Minkälaista olisi tietokonepelien parissa tehtävä oikea kirjastotyö? Kokoelmanhallinta, bibliografia, sisällönkuvailu, kulttuuriperinnön säilyttäminen ja saatavilla pitäminen ja niin edelleen.

Kurkkailin hieman mitä kirjastot sanovat kokoelmiinsa hankkimistaan peleistä pääkaupunkiseudun HelMet– ja varsinais-Suomen Vaski -tietokannoista. Molemmissa konsolipeleille on oma aineistolajinsa. Lisäksi molemmissa näyttää aineisto olevan sekä kuvailtu sekä asiasanoituksen että luokittelun keinoin peleiksi. Ilokseni myös ihan oikeaa sisällönkuvausta löytyi joistain teoksista, nimittäin jokusen tennis- tai jääkiekkopelin asiasanoissa esiintyvät nämä lajit. Tämä on kuitenkin aika vähäistä, asiasanoilla kirjastoammattilaiset ovat lähinnä kuvanneet toistamiseen sitä että kyseessä on (konsoli)peli ja myös mille laitteelle tarkoitettu julkaisu on kyseessä (siis Wii, PS3, Xbox jne). Luokkana on systemaattisesti jokin pelejä käsittelevä luokka. Miksi pelit pitää näin voimallisesti, peräti kolmella eri tavalla (aineistolaji, sisällönkuvailu sekä asiasanoin että luokin) eristää muusta aineistosta? Olisikohan kirjastojen kannalta aivan turmiollista alkaa avaamaan näiden pelien sisältöjä?

Tässä ollaan luetteloinnin peruskysymysten äärellä: onko paras tapa kuvailla vaikkapa Linnan kirja Täällä pohjantähden alla antamalla asiasanoiksi kirjat sekä kirjat : paperi ja sijoittamalla se luokkaan 00 – Kirja-ala. Pitäisiköhän tästä laatia jotain ohjeistusta? Jos kollegani Kansalliskirjastolla luette tätä blogia, niin tiedätte kyllä mistä minut saa kiinni. Digitaaliset pelit kyllä jaetaan ihan yleisesti muutamiin luokkiin, kuten shmoopit, RPG:t, MMORPGt, FPS:t, RTS:t, seikkailupelit, urheilupelit, rallipelit. Näistä pitäisi hahmotella jonninlainen ontologia.

Noniin. Entäs se kuuluisa ”pitkä häntä”? Kirjastohan tarjoaa ihmisille omakohtaisen pääsyn kulttuurin syviin kerroksiin. Minkälaista kokoelmapolitiikkaa ajamme pelien suhteen? Nolla-listat vai säilötäänkö merkittäviä teoksia? Digitaalisista peleistähän on menetetty jo noin 30 vuotta tietoyhteiskunnan kulttuurihistoriaa, eli takautuville hankinnoille olisi totta tosiaan tarvetta.

Kirjastoammattilaiset pitävät kiusallisena sitä, etteivät todellisuudessa ollenkaan pysty tutustumaan kirjalliseen aineistoon joka asiakkaiden käyttöön on hankittu (ei rakkaat ei-kirjastoammatilliset ystäväiseni, joille voi olla yllätys että me emme todellakaan ole lukeneet kirjaston kirjoja). Päteekö sama peleihin? Onko valitettavaa, ettei työaikaan kuulu ensinkään aineistoon tutustumista, eli pelaamista?

Kun vaikkapa kirjallisuudessa viitataan sellaisiin käsitteisiin kuin Tetris, Super Mario, nintendo-sukupolvi (se lukutaidoton uusavuttomien roskasakki (jotka ovat muuten jo valmistuneet kirjastoammattillisista opinnoistaan ja lähettelevät työpaikkahakemuksia ehkä sinullekin)), Pac-Man, Super Stardust, Max Payne, Doom-riippuvuus, Raid Over Moscow, ajanvietepelaaminen, tai Tamagotchi tai nokialainen matopeli. Onko silloin yhteiskunnan käytössä olevista, kaikkein parhaista kulttuurijulkaisujen asiantuntijaorganisaatiosta apua? Ei tosiaan ole!

Ennemmin kannattaa googlailla abandonwarea. Nuo verrattomat abandonware-tyypit ovat sisariamme ja veljiämme. He ovat aitoja kirjastolaisia. Ave amatorem! Morituri te salutant!

Ilona -seminaarissa Reisjärvellä puhelemassa

Ite 1Kävin Reisjärvellä Ilona -seminaarissa kutsuttuna vieraana nyt torstaina ja perjantaina. Seminaari on vuotuinen Oulun eteläisen alueen kirjastokokoontuminen ja puhuin perjantaina otsikolla Kirjastot ja sosiaalinen media. Paikalla oli kuutisenkymmentä alueen kirjastolaista lähinnä yleisistä kirjastoita, sekä Haapaveden opistolla vastikään aloitetun tietopalvelu- ja kirjastoalan opiskelijoiden ryhmä.

Torstaina olin Haapaveden opistolla juttelemasta sos. mediasta opiston henkilökunnan kanssa.

tagcloud 3Kirjastolaisia kun ollaan, niin laitoin yleisön luetteloimaan puheenvuoroani samaan aikaan kun pidin sitä. Välineinä kynät ja post-it -laput. Kahden tunnin puheenvuorosta sain 171 eri avainsanaa l. tagia, yhteensä 238 kappaletta. Väsäsin Wordlella tagipilven, joka siis kuvaa sitä, mistä kuuntelijat ajattelivat minun sanoneen. Klikkaa viereistä pilveä nähdäksesi sen suurempana. Keskeisimmät tagit ovat ilmeisiä koska monet valitsivat ne, erikoisuudet löytyvät sieltä välistä. Tagipilvestä päätellen välittyi suunnilleen sellainen viesti kuin oli tarkoituskin, tai ainakin yleisön mielestä aiheeni oli sama kuin omasta mielestäni. Muutaman muunkin tekemäni version löydät tapahtumasta ja muutenkin reissusta näpsimieni kuvien joukosta. Ohjeena oli, että avainsanojen ei tarvitse olla YSOn tai muun kontrolloidun asiasanaston tai tesauruksen mukaisia, vaan voi käyttää vapaata assosiaatiota. Tätä lisää tietenkin sitä ”noisea” ja pidentää pitkää häntää. Hyvä niin. Esitelmässäni kerroin tagittamisesta del.icio.us:issa ja Flickrissä sekä näytin käytännössäkin miten homma toimii.

Mitään kovin kehittynyttä ei tästä visualisoinnista kuitenkaan voi päätellä. Otanta on aika pieni enkä esim. käskenyt kuulijoita laittamaan asiasanoihin kellonaikaa (jotta homma pysyisi yksinkertaisena). Tässä tagipilvessä asioiden läheisyydellä tai värillä ei ole informaatioarvoa, vain koolla. Kaikkea tällaista pitäisi kuitenkin mielestäni tehdä kirjaston omalle metadatalle.

Oulun eteläisessä oli hyvä meininki, olivat esimerkiksi yksissä tuumin luoneet alueelle oman kirjastostrategian. Lisäksi, koska kirjastotyönkään ei tarvitse olla liian vakavaa, oli perinteinen kirjatuenheittokilpailu. Kolme henkeä per kirjasto ja voittaja saa pitää kultaista kiertopokaalia seuraaviin kisoihin asti xD