Susikoira ROI

ROI, susi vai koira?

Olin alkuviikon Amsterdamissa BOBCATSSSissa joka on informaatiotutkimuksen opiskelijoiden itse itselleen nyt 20. kertaa järjestämä semma. Keskiviikkona Frank Huysmans Hollannin Sectorinstituut Openbare Bibliothekenista  puhui yleisten kirjastojen merkityksen mittaamisesta ja arvioinnista. Kun hän puhui British Libraryn käyttämästä, ja sangen tunnetusta tutkimuksesta ja arviointimenetelmästä (hyi PDF), yleisössä ollut unkarilainen kollega kertoi mielenkiintoisen, ja hyvin opettavan anekdootin omasta kokemuksestaan.

Kuten ehkä tiedätte, British Libraryn käyttämässä menetelmässä he kysyivät juuri ulos lähteviltä asiakkailta, että kuinka arvokkaaksi he kokivat sen kertaisen kirjastokäyntinsä. Kun tätä koettua arvoa verrattiin BL:n operointikustannuksiin, tutkimuksen mukaan BL tuotti noin 4.4 puntaa jokaista toimintaan investoitua puntaa kohti.

Unkarilainen tyyppi sanoi, että he olivat käyttäneet samaa menetelmää arvioidakseen kirjastoautojen tuottamaa koettua arvoa. Noh, homma perustuu koetun arvon mittaamiseen (rahan ideahan on olla arvon yleinen mittari), ja vauraimmilla alueilla ihmiset kokivat kirjastoautossa piipahtamisen hyvinkin arvokkaaksi; muksut saavat luettavaa, ei tarvitse matkustaa kauas kirjastoon, käynti on hauskaa tekemistä ja niin edelleen. Tällä mittausmenetelmällä mitattuna tämä kirjastopalvelu tuotti paljonkin arvoa näillä alueilla. Eli hyvä ROI. Sensijaan köyhemmillä alueilla ihmiset eivät kokoneet kirjastokäyntiä yhtä arvokkaaksi eivätkä halunneet maksaa palvelusta; mikäli kirjastoautopalvelua ei olisi, he käyttäisivät aikansa johonkin muuhun. Näillä alueilla kirjaston ROI oli erittäin huono.

Eli pidetään se kieli keskellä suuta kun mittaillaan juttuja, etenkin jos haluttu tulos ja/tai johtopäätös on päätetty etukäteen muilla perustein kuin ROI:lle tyypillisin taloudellisin perustein (esim. “meidän mielestä on kivaa ja tärkeää antaa köyhille enemmän, mutta ei niin paljoa keskiluokkaisille tai rikkaille”). ROIsta puhutaan paljon ja se on hyvä arviointimenetelmä, mutta on hyvä tietää mitä halutaan; jos sitoudutaan esim. tulonsiirtoon, kannattanee sanoa ääneen että siedämme huonoakin ROIta, tai matala ROI voi olla jopa tavoite (eli korostamme palveluja niille, jotka eivät koe niitä arvokkaiksi, siis juuri toisin päin kuin kysyntä-tarjonta -periaatteessa).

Verkkotilastoinnissa “haku” on virheellinen suomennos termille “request”

Kirjasto-kaapelille juuri kirjoittamaani:

Verkkotilastoinnissa “haku” on virheellinen suomennos termille “request”

mace, 4. tammikuuta 2012 14:50

Vuotuinen tilastointirumba alkaa olla käsillä ja haluaisin kiinnittää huomiota erääseen verkkopalvelujemme tilastointiin liittyvään asiaan. Tiedän että ainakin joissain kirjastoissa verkkopalvelujen käyttöä tilastoidessa termi englannin kielinen sana request suomennetaan “hauiksi“. Tämä on klassinen sudenkuoppa verkkotilastoinnissa.

Esimerkiksi PallasPro -Intron tilastointityökalussa cmnd=getcommand → cmnd=getstat kerrotaan käyttömääristä kahdella luvulla: Requests ja Sessions. Tiedän että monissa kirjastoissa täältä poimitaan tuo “request” -tieto raportointia varten.

Requestin suomentaminen hauksi vääristää kuvaa kirjaston käytöstä pahasti. Nämä luvut ovat suuruusluokan verran liian korkeita. Mikäli tätä tietoa käytetään esim. päätöksentekoon ja toiminnan ohjaamiseen tai raportoidaan tilaajalle (esim. kunta tai kunnan kulttuuritoimi), tällä voi olla isohkoja vaikutuksia esim. rahoitukseen.

Olen gallupinomaisesti kysellyt parilta- kolmeltakymmeneltä kollegalta ja maallikolta että mitä heidän mielestään “haku” tarkoittaa verkkokirjaston yhteydessä… eli “mikä sinun mielestästi on yksi haku?” Käytännössä kaikki ovat kuvailleet että heidän mielestään “haku” muodostuu kun ihminen kirjoittaa jonkinlaisen hakulausekkeen ja painaa verkkokirjaston Hae -nappia. Mielestäni tämä on erittäin järkeenkäypää ja epäilen että olemme miltei kaikki samaa mieltä että juuri tätä tarkoitetaan kun puhutaan “hausta” verkkokirjastojen yhteydessä.

Tilastointityökalujen laskemat “requestit” on kuitenkin jotain aivan muuta kuin tämä. Niiden laskemisella voida juurikaan arvioida palvelun todellista käyttöä. Esimerkiksi PallasPro -Intron pelkälle etusivulle meno aiheuttaa vähintään puoli tusinaa “requestia”, vaikka käyttäjä ei koskaan tekisi yhtään varsinaista aineistohakua.

Esimerkkinä 13 requestia Vennyyn

Sivulle tullessa käyttäjän selain pyytää webbipalvelimelta esimerkiksi sivupohjaa, tyylitiedostoa, kirjaston logoa, Axiellin logoa, autocomplete-skriptiä jne. Verkkokirjastoon saapuminen, sisäänkirjautuminen, lainojensa uusinta, omien varaustensa tilan tarkistaminen, ulos kirjautuminen ja verkkokirjastosta pois siirtyminen aiheuttaa vähintään tusina “requestia”. Samoin “näytä seuraavat 10 hakutulosta” -nappi ja “näytä saatavuustiedot” -nappi aiheuttavat kaikki requesteja, vaikka tuskin kukaan ajattelee että nämä ovat uusia hakuja an sich.

Requestien määrä voi siis olla parikymmenkertainen verrattuna siihen, mitä me ihmiset ymmärrämme “hauilla”. Se monestiko käyttäjä on oikeasti painanut Hae -nappia, voidaan laskea PallasPron logitiedostoista etsimällä merkkijonoa formid=find2 tai jollakin verkkologien analysointityökalulla.

Kuten tuossa aiemmin syksyllä kirjoittelin, olen tutkiskellut verkkokirjastojen PallasPro-kirjastojen verkkologeja. Tämä on eräs sitä kautta selvinneistä asioista. Minulla ei ole mitään tietoa mitä Axiell asiasta ajattelee tai miten he ohjeistavat käyttäjiään (l. kirjastoja) verkkotilastoinnin tekemiseen.

Alallamme tuntuu liikkuvan tietynlaista, hyvin ymmärrettävää epäuskoa käyttämiimme tilastoihin, ja joissain paikoissa käytössä olleet Google Analytics tai Kirjastot.fi:n verkkotilastointipalvelut (joista jälkimmäinen on poistunut käytöstä) ovat antaneet aivan toisenlaisia lukuja kuin nämä PallasPron requestit antavat ymmärtää.

Toivon siis, että mikäli käännätte verkkopalvelujen tilastoissa termin “request” suomeksi “hauksi”, teillä on siihen hyvät perusteet ja tiedätte mitä olette tekemässä, tai alatte käyttää jotain toista suomenkielistä sanaa kuten “sivupyyntö” tai “sivulataus”.

Vastaan mielelläni lisäkysymyksiin esim. tällä palstalla, tai vaikkapa Kirjasto-kaapelilla/puhelimitse/sähköpostitse/Fesessä/kahvilla tms. Lisäksi olen kysellyt jotakuta vertaisarvioimaan menetelmiäni, ja tämä kutsu on edelleen auki. Opetusvideota en ole asiasta vielä laatinut :)

Tsemppiä tilastointiin kaikille sitä tekeville.

Vaskin asiasanat, jotka eivät ole YSAssa

Sanaston pengontaa

Kävin läpi Vaski-kirjastojen aineistotietokannan ja etsin asiasanat, jotka eivät esiinny tesauruksessa. Ohessa lista yleisimmistä:

esiintymien lkm termi
202 sotaromaanit
108 Lieto-kokoelma
100 korjausoppaat
66 eräkirjat
38 matkakirjat
29 sisustusoppaat
27 Suomen historia
23 kansanmusiikki: Venäjä
23 jouluaskartelu
22 posliinimaalaus
21 viihdetaiteilija : Suomi
21 salapoliisiromaanit
20 Yhdistyneet kansakunnat
20 kirjasto- ja informaatiopalveluala
20 1980-LUKU
18 vaateompelu
17 rock and roll
16 MURRENÄYTTEET
16 itämaiset taistelulajit
15 sosiaali- ja terveydenhuolto
15 rajavartiolaitos
15 paperiaskartelu
15 laivaluettelo
15 DVD-elokuvat
14 tiedeakatemiat
14 Suomen taideyhdistys
14 piirroselokuvat
13 tabulatuurinotaatiot
13 ranskalainen keittiö
13 nuorten aikuisten kirjat
13 Jeesus Kristus
13 äänentoistotekniikka
13 šamanismi
12 YKSINLAULU
12 vauvanhoito
12 Titanic
12 tilastollinen tutkimus
12 punk rock
12 kaupunkihistoriat
12 historia : 1900-luku
12 arabialainen musiikki
12 1960-luku
11 tšekin kieli
11 säveltäjät : Suomi
11 rentoutuminen
11 muodin historia
11 kuultokudos
10 varastaminen
10 Uusi testamentti
10 taitelijat
10 seminaarit (kokoukset)
10 samanismi
10 rockmusiikki
10 kiinalainen keittiö
10 1800-LUKU

Ohjelman (kts. alla) antamista tiedoista näkee myös, että esim. asiasana muodin historia (jota ei ole YSAssa) esiintyy Vaskin tietueissa Ppro853_137785, Ppro853_541141, Ppro853_541143, Ppro853_541144, Ppro853_541145, Ppro853_541146, Ppro853_541634, Ppro853_561083, Ppro853_561086, Ppro853_561087 sekä Ppro853_561088.

Eri asiasanoja joilla on vain yksi esiintymä Vaskissa löysin 1761 kappaletta. Kymmesti esiintyviä asiasanoja on kahdeksan kappaletta. Miten tällaista dataa olisi parasta havainnoillistaa? Ideoita vastaanotetaan.

Vaski on FinMARC 1998 -muotoa ja kyseisen standardin mukaan kentässä 652 olevat asiasanat ovat peräisin Yleisestä suomalaisesta asiasanastosta, eli YSA:sta (kansainvälisessä MARC21:ssä asia ilmaistaan hieman toisin, kuvaamalla asiasanakenttien osakentässä ‡2 mikä sanasto on kyseessä, tyyliin 650 #7 ‡a bibliografinen valvonta ‡2 ysa).

Tein aiemmin pienen työkalun jolle voi antaa yksittäisiä MARC-tietueita ja se kyselee ONKI-palvelun ohjelmointirajapintaa (APIa) käyttäen ovatko tietueen asiasanat YSO-ontologiassa. Kun YSA julkaisiin vastikään avoimena datana, tuli nyt tekemäni massakäsittely helpommaksi. Työn voi nykyään tehdä omalla koneella, pommittamatta ONKIn rajapintaa noin suurella kyselymäärällä.

Prosessi

Noukin ensin YSA:n SKOS-muotoisesta tiedostosta varsinaiset sanat (prefLabel ja altLabel) tekstitiedostoon yhdeksi pitkäksi, pitkäksi listaksi. 14.6.2011 lataamassani tesauruksessa oli 36991 termiä.

Sekä MARC-data että sanasto ovat saatavilla myös XML:nä, jonka käyttäminen olisi oikeaoppisempaa, mutta en nyt jaksanut säätää niiden kanssa sillä XML:n käsittelytyökalut ovat minulle aika tuntemattomia. Sensijaan olen tottunut operoimaan unixin komentoriviltä ja opettelen myös Perliä.

Tässä kirjoittamani Perl-kielinen ohjelma jota käytin:

#!/usr/bin/perl

use MARC::Batch;

my $file = "vaski-kunnostettu.mrc";
my $batch = MARC::Batch->new('USMARC', $file);
my $sanasto = "~/ysa.lista.alt_too";

$batch->strict_off();
while (my $record = $batch->next()) {
        for my $termi ($record->subfield('652', 'a')) {
        if (system("grep -q -i \"$termi\" $sanasto")) {
            print($termi, ";", $record->field('001')->as_string,"\n");
        }
    }
}

Kuten ehkä huomaat, tämä on hyvin kaukana elegantista. Ensinnäkin käsiteltävät tiedostot on nimetty ohjelman sisällä ja toisekseen kukin termi etsitään sanastosta käyttäen ulkoista ohjelmaa. Tämä aiheuttaa yhden forkin per asiasana, joka on huono asia. Oikeasti vertailu pitäisi tehdä tämän ohjelman sisällä, lukemalla asiasanat tiedostosta yksiulotteiseen taulokkoon tai listaan. Mutta toimii tämä näinkin, kun huonoa ohjelmistosuunnittelua voi korvata prosessoriteholla :) Miniläppärini (joka on ainoa käyttämäni työväline) rouskutteli tätä useita tunteja.

Mutta tämän ei olekaan tarkoitus olla eleganttia. Tämän on tarkoitus osoittaa kirjastoammattilaisille, että me itse voimme ottaa aloitteen käsimme sen sijaan, että odottelemme että järjestelmätoimittajamme tekee kivoja asioita puolestamme (sitä on turha odotella).

Vielä pari huomiota laatimani menetelmän puutteista: se ei huomioi asiasanaketjuja, ja tuon kaltainen huoleton merkkijonojen etsintä johtaa vääriin tuloksiin mikäli etsittävä epäkelpo asiasana esiintyy osana kelpoa asiasanaa. Tälle asialle pitäisi todella tehdä jotain.

Mitä välii?

Ymmärtääkseni kaikkien 652-kentässä olevien termien pitäisi olla peräisin YSA:sta. Näin sanoo myös FinMARC -formaatti. Asiasanoja joita ei YSAssa ole, ei pitäisi käyttää ainakaan kyseisessä kentässä. Kuten tiedämme, ei asiasanasto kuvaa kaikkia maailman ilmiöitä. Siksi paikallisille sanastoille onkin tarvetta.

Minua paremmin luettelointiin perehtyneet tietänevät mitä sisällönkuvailussa oikeasti kuvaillaan. Jossain lienee sovittu, onko sisällön lisäksi aiheellista kuvailla muotoa. Esim. Vaskissa käytetään termejä “Nintendo Wii”, “sotaromaanit” ja “elämäkerrat” kuvailemaan muotoa. Nämä teokset eivät kerro Nintendon Wii-peleistä, sotaa kuvaavista romaaneista tai elämäkertojen kirjoittamisesta, vaan ovat niitä. Ehkä tämä on ookoo – en jaksa nyt lueskella luettelointisäännöstöä asiaa tarkistaakseni enkä muista ulkoa mitä siellä sanotaan. Mutta ei ole vaikea nähdä että tämä on problemaattista. Ihmettelin samaa asiaa aiemmin, kun mietin minkähänlaista olisi “ihan oikea kirjastotyö” pelien parissa?

Mainiot luetteloijat ovat arvatenkin tämän muoto vs. sisältö -asian ratkaisseet jollain sopimuksella (joka siis lienee kirjattuna luettelointisääntöihin). Käytännössä ainakin Vaskissa kuvaillaan surutta sekä muotoa että sisältöä 652 -kentässä.

Tässä on muitakin mielenkiintoisia puolia: MARC-tietueessa ei esimerkiksi ole mitään tietoa siitä, mitä YSAssa on ollut tietueen luontihetkellä. YSA muuttuu ajan myötä, kenties osa nyt listaamistani termeistä on ollut kyseisen luetteloijan käyttämässä YSA:n versiossa luettelointihetkellä… MARC-tietueesta itsestään puuttuu tällainen tekninen metadata.

Kirjoitusvirhe luetteloinnissa on fataali virhe, ja teos katoaa kyseisen aiheen kannalta mustaan aukkoon. Varsinaisia kirjoitusvirheitä löysin Vaskista onneksi vain ihan muutaman.

Monet löytämäni, YSA:n ulkopuoliset termit ovat hyvin käytännöllisiä ja olen oikeasti onnellinen että niitä on tietueisiin luettelointisääntöjen vastaisesti tallennettu. Tämä kertoo sanaston puutteellisuudesta ja myös luokitusjärjestelmän puutteista, sekä kirjastoihmisten omatoimisista ongelmanratkaisupyrkimyksistä. Se on tietenkin aivan oikein. Nämä itse keksityt termit voisi eristää omaan sanastoonsa, jolla YSAa täydennetään, ellei ole YSAn tarkoituksenmukainen ylläpito ole mahdollista. Lisäksi meillä on käytettävissämme useampia sanastoja YSAn rinnalla ja niitä olisikin hyvä käyttää MARC-tietueen sellaisissa paikoissa, jotka eivät ole YSAlle varattuja.

Kiitos 50 000 käynnistä :)

Blogini kuukausitilastot

Tänään meni blogissani maaginen 50 000 käyntikertaa rikki, huraa! Mitään kaksista tilastoesittelyä en tässä nyt jaksa alkaa laatimaan, mutta ohessa kuvaruutukaappaus tilastoista tässä vuosien varrelta. Jos tietäisin kuka tuo viideskymmenestuhannes olisi, tarjoaisin tietenkin pullakaffet.

Postauksia on 273, kommentteja 425 joista osa on trackbackeja. Keskimäärin kutakin postausta on katsottu 106 kertaa (plus etusivun katsomiskerrat, joita on siis peräti puolet). Katselukertojen mukaan suosituimmat postaukseni ovat seuraavat:

Etusivu 20 868
About 1 025
Itkutipaton tammikuu 2011 786
iRex iLiad koekäytössä 458
Organisoituneen nuorkirjastolaisuuden vastaanotosta 421
Nuorkirjastolaisten keskusteluista Turusta mieleen jäänyttä 390
Marcin on kuoltava 363
Urpo Nylander esittelee e-kirjojen lukulaitteita 356
Bibliografista infopornoa, tätä et järjestelmätoimittajaltasi saa 337
Näen ekirjan käyttäjän 335
Tervehdin teitä, Turun pääkirjaston siivoojat 331
Re: Verta, leimoja ja kontaktimuovia 326
Kirjasto 10:n cd:t pusseihin 323
Kirjastokäynti on valitettava rasite, mutta kannattaa 321
Miksei kirjastolaisten keskuudessa kasva koodausosaaminen? 314
Kirjahyllyni 313
Miten voisi tutkia tekstinkäsittelyntyökalujen vaikutusta tekstintuotannon prosesseihin (tissit, katso kuva) 297
Tanskassa on moni asia toisin, moni ei 295
Isä Mitron haastattelu kirjastoista ja elämästä 274
Erään e-kirjan tarina 272
TTVK: Kirjojen vuokraus on kuin Pirate Bay 254
Jee meidän kirja Kirjasto 2010 tuli painosta :) 253
E-kirjat – kirjaston kohtalon kysymys? 246
Mikä on kirjakauppojen näytevarasto? 243
Avoin lähdekoodi, jakaminen ja riisto. Ja kirjastot tietty 243
Mitä kivaa voi tehdä Joensuussa? 239
Axiell saa palautetta; miten parannettaisi tilannetta? 232
Datat auki hallituksen päätöksellä, jos ei muuten 227
Tekijänoikeus, tuo iänikuinen puheenaihe 226
Tiesitkö tämän MARCista: salainen kolmas indikaattori 223

Jos jaksaisi säätää, niin datasta saisi käppyrän vaikka akäyttämieni tagien suosiosta, ehkä sellaisen jaksaa nikkaroida jossain vaiheessa. Suosituimmat haut ovat olleet

riippumaton asiantuntija 795
mace ojala 180
gutenbergin parenteesi 164
tissit 142
xmacex 112
macen hieno blogi 106
irex iliad 103
mace 93
asiantuntija 91
näytevarasto 90
recaptcha 86
macen blogi 80
irex 73
aalto yliopisto logo 71
kirjastovirkailijapäivät 2010 66
kirjastot ovat palaessaankin kauniita 66
kindle 59
cycling for libraries 57
mace blogi 57
heikki poroila 52
zotero 49
riippumaton 43
qaiku 42
mitä tehdä joensuussa 42

Ja hauskimmat hakutulokset siellä loppupäässä sitten :)

Suuri kiitos kaikille blogissani syystä tai viidennestä käyneille, toivottavasti olette löytäneet jotain mielenkiintoista. Kiitos myös WordPress.comille erinomaisesti toimivan WordPress -julkaisujärjestelmän tarjoamisesta. Tietenkin aivan erityinen kiitos kuuluu tämän blogin säännöllisille seuraajille, ja kaikille kommentoijille sekä muille teille ihanille näistä asioista keskusteleville ja kirjoitteleville. Murut <3

Kirjaston tietokanta kertoo runoudesta, kun siltä kysyy

Näin sitä runoutta kustannetaan

Kaukomieli-blogia pitävä mainio Matti Lassila on taas hääräillyt Open Dataksi avatun HelMet-aineiston kimpussa. Nyt syntyi  kuvaelmaa siitä, mitä kirjaston aineistotietokanta kertoo suomalaisen runouden kustantamisesta ja julkaisemisesta. Käykäähän hämmästelemässä, ja painostakaa samalla Kansalliskirjasto avaaman kansallisbibliografiamme Fennica. Sen avoin selailukin on vain väliaikainen hanke.

 

Haluan kiinnittää huomionne siihen pieteettiin, jolla Kaukomieli-blogissa aina esitellään käytettyjä menetelmiä.

Tämä on hyvin inspiroivaa; ajattelen klassisia brittiempiristejä, jotka seisoivat luonnon äärellä ja esittivät sille häikäilemättä ja systemaattisesti kysymyksiä. Näin se merkityksen uuttaminen sinänsä merkityksettömästä datasta käy toimeliaalta ja uteliaalta. Terveiset ja kiitos Kaukomielelle.

Bibliografista infopornoa, tätä et järjestelmätoimittajaltasi saa

Aineiston ikä kustantajittain

Mainio Matti Lassila on leiponut kirjastojen Open Data -julkaisujen perusteella erilaisia karttoja kirjastoaineistoon Kaukomieli -blogissaan. Lähdemateriaalina on tässä HelMetin avoin data, joka avattiin Kirjastot.fi:n Labsin voimin; muut Suomen kirjastothan eivät vieläkään saaneet aikaiseksi avoin data -julkaisua. Minulla on Vaski-tietokanta sekä pari muuta Varsinais-Suomalaista tietokantadumppina ja olen niitä hieman kopeloinut ja kartoittanut lähinnä ajatus- ja ohjelmointiharjoituksina. Matti on ottanut huomattavasti perusteellisemman otteen ja esittänyt aineistolle mielenkiintoisempia kysymyksiä R:llä.

Täällä Vaski-alueellakin sekä avointa dataa että tällaisia visualisointeja on käsitelty johtoryhmässä, mutta edelleen tavara istuu tiukasti piilossa uteliailta ja ahkerilta. Kokoelman visualisointi olisi erinomainen työkalu kokoelmanhallintaan, ja tätä yritetään ajaa nyt täällä Vaski-alueella.

Kiitos Matti ensinnäkin mielenkiinnosta kirjastoaineistoa ja sen visualisoimista kohtaan, sekä työn tulosten julkaisusta. Kirjastoalalla on sekä kiinnostusta että tarvetta tällaiselle, mutta osaamista ja ennenkaikkea aloitekykyä kyllä puuttuu. Tässä olisi työmaata!

Helle Kannila: “Pois kirjastoista liiat ja likaiset kirjat!”

Helle Kannila

Helle Kannilan kirjoitus Pois kirjastoista liiat ja likaiset kirjat! kirjaston kokoelmanhallinnasta ja poistamisen tärkeydestä. Kirjoitus on jo vuodelta 1928 ja edelleen mitä ajankohtaisin.

Teksti on teoksesta Kirjastoista kirjoitettua (1966, Otava). Lukijana allekirjoittanut eräässä Istanbulilaisessa kahvilassa kevällä 2010.