Teosto+YouTube+musiikkidata soi kauniisti

Teosto ry

Teosto ry

Teosto on juuri saanut aikaan sopimuksen YouTuben kanssa, kts myös asiaan liittyvä FAQ. Hienoa, sillä kuten kaikki arkiympäristöään yhtään havainnoivat ihmiset tietävät, on YouTube erittäin keskeinen musiikinlevityskanava. En henkilökohtaisesti voi olla ihan vakuuttunut kaikkeen Teoston toimintaan (kröh kröh), mutta vaikuttaa hyvältä idealta tunnustaa tosiasioita. Tätä vartenhan Teosto ja vastaavat järjestöt on olemassa.

Toinen juttu Teoston suunnasta: tämä Teoston tutkijan Turo Pekarin (@s1truuna) blogi*kirjoitus Musiikkidata soi kauniisti viime heinäkuulta on hieno kirjoitus metadatasta, sekä datan ja metadatan laadusta, käyttöarvosta ja liikkuvuudesta. Kiitos Turolle tuosta. Millaisia datavirtoja kulkee Teoston ja muiden kulttuuriorganisaatioden väleissä? Tässäpä mietittävää.

* blogi ei ole blogi jos sitä ei kommentoida

Mistä kirjastotyössä oikeasti on kyse? Lajittelusta!

Sorting out sortingin havainnollistavaa grafiikka

Sorting Out Sortingin havainnollistavaa grafiikka

Mistä kirjastotyössä on kyse? Tiedon tasapuolisen ja vapaan saatavuuden turvaamisesta? Elinikäisestä oppimisesta? Tiedontarpeiden tyydyttämisestä? Humaanista ihmiskontaktista joka välittää aidosti™? Tietoyhteiskuntataitojen takaamisesta vauvasta vaariin? Googlea paremmasta tiedonhausta syvästä webistä? Sananvapauden puolustamisesta? Don’t believe the hype!!! Kirjastotyössä on hyvin pitkälti kyse asioiden lajittelusta tiettyyn järjestykseen. Uskokaa minua, yli kymmenen vuoden työkokemuksella kirjastoissa tiedän todellakin mistä puhun.

Tässä 30 -minuuttinen katsaus yhdeksään eri lajittelumenetelmään. Videossa ne on luokiteltu kolmeen eri ryhmään:

  1. Insertion sort (lisäyslajittelu)
    1. Linear insertion
    2. Binary insertion
    3. Shell sort
  2. Exchange sort  (vaihtolajittelu)
    1. Bubble sort
    2. Shakersort
    3. Quick sort
  3. Selection sort (valintalajittelu)
    1. Straight selection
    2. Tree selection
    3. Heap sort (kekolajittelu)

Ainakin osa lienee intuitiivisesti tuttuja kaikille meille kirjoja, cd-levyjä yms. työssänsä lajitelleille, osa on ehkä uusia. Jokatapauksessa on hienoa nähdä miten nämä toimivat, ja analysoida hieman niiden tehokkuuksia ja suorittamia operaatioita. Tietokoneen muisti toimii eri tavalla kuin fyysisessä kirjastotilassa hyllyttäessä tai palautusautomaattiin palautettujen kirjojen ja levyjen lajittelussa, sillä etäisyyksillä on erilainen merkitys siirto- ja vertailuoperaatioiden vaatimien resurssien suhteen.

Sallikaa minun esitellä – Ronald M. Baecker ja David Sherman (Dynamic Graphics Project, Toronton yliopisto, 1980): Sorting Out Sorting.

Lukekaapa Jessican kokemukset pohjoismaisesta avoimen datan seminaarista

Jessican konffabadge

Jessica Parland-von Essen osallistui Malmössä pidettyyn, pohjoismaiseen avoin linkitetty data -seminaariin (#nordlod). Käykääpä lukemassa Och solen sken över #nordlod -raportaasi.

>poke< (kuva by MsWord@Flickr)

Esitelmäni kirjaston bibliografisen datan laadusta sekä laadun arvioinnista ja valvonnasta (ym.)

Tein vuoden 2012 lopulla freelancerina parin kuukauden ajan erittäin hauskaa, opettavaa ja vaativaa ”kuutamokeikkaa” PIKI-kirjastoille bibliografisen datan parissa, ja ilmeisesti sen vuoksi olin kutsuttuna Kansalliskirjaston Kuvailun tiedotuspäivillä 20.-21.3.2013 puhumaan asiasta. Kansalliskirjaston Tarja Mäkisellä sekä minulla oli tunnin osuus otsikolla Näkökulmia laatuun. Itse juttelin luettelointityön ja luettelointidatan suhteesta tietojenkäsittelyyn, ohjelmointiin ja tietohallintoon, laatuajattelusta sekä kirjavista mahdollisuuksista joita meillä kirjastoilla olisi käytettävissämme, ja joiden parissa marras-joulukuussa estottomasti revittelin.

Tapahtuman molemmat päivät on taltioitu, oma osuuteni alkaa ensimmäisen päivän (20.3.) videotallenteen noin kohdasta 2:18:00 ja kestää 25 minuuttia plus keskustelua.

Jos haluat katsella pelkkää esitysgrafiikkaani tuolta tiedotuspäiviltä, se löytyy Prezistä. Aiempi blogipostauksessani maaliskuun 12. päivältä sisältää linkit laatimaani lähdekoodiin, myös työpäiväkirjana käyttämääni projektin- ja asianhallintajärjestelmään sekä myös tekstiksi kirjoittamaani raporttiin.

Olisko kellään kokemusta PallasPron verkkokirjaston logien penkomisesta?

What's this then?

Onkohan kellään tietoa PallasPro-Intro -verkkokirjaston hakulogien tonkimisesta? Siinä ei käsittääkseni ole minkäänlaista raportointityökalua sinänsä, mutta ainakin sellaisilla kirjastoilla joilla on pääsy oman verkkokirjastonsa (aka näyttöluettelon aineistoluettelon aka OPACin) webbipalvelimeen on mahdollisuus tutkia sen logeja. Meidän (siis Vaskin) verkkokirjasto esittäytyy näin:

Server: PallasPro-Intro3 (liw3srvr kirjasto 13.6.2011 klo 12.10.03 HP-UX B.11.00 U II 2.0)

Onko kellään kokemusta tällaisen palvelimen logien tonkimisesta? Hakulausekkeethan eivät PallasPro-Introssa näy hakutulossivun URLissa vaan HTTP-headerissa. Onko tähän jotain työkaluja olemassa? Apachen logien tonkimiseen on vaikka mitä työkaluja, mutta tämä liw3srvr on mulle tyystin tuntematon.

Mikäli PallasPro-Intro juttelee taustajärjestelmän kanssa SRU:lla, tuon rajapinnan tarkkailu olisi toinen herkullinen paikka nuuskia mitä asiakkaat etsivät. Webbipalvelimen logista näkyy tosin kaikkea muutakin hauskaa.

Unelma: hakutuloksia seurattaisi systemaattisest päivittäin, ja tietoa hyödynnettäisi luetteloinnissa ja luetteloinnin apuvälineiden (esim. sanastot) kehittämisessä, kokoelmapolitiikassa, tapahtumien järjestämisessä ja käyttöliittymäsuunnittelussa. Näen asian niin, että tuohon PallasPro Intron hakulooraan asiakkaat kertovat tuhansia kertoja päivässä mitä he haluavat. Logien tutkiminen on tämän viestinnän kuuntelua. Näiden seuraaminen, tutkiminen ja julkaisu (sekä datana että jalostetusti) voisi minun mielestäni olla arkipäiväistä kirjastorutiinia.

Aloitin säikeen myös Kirjasto-kaapelilla.

Vaskin asiasanat, jotka eivät ole YSAssa

Sanaston pengontaa

Kävin läpi Vaski-kirjastojen aineistotietokannan ja etsin asiasanat, jotka eivät esiinny tesauruksessa. Ohessa lista yleisimmistä:

esiintymien lkm termi
202 sotaromaanit
108 Lieto-kokoelma
100 korjausoppaat
66 eräkirjat
38 matkakirjat
29 sisustusoppaat
27 Suomen historia
23 kansanmusiikki: Venäjä
23 jouluaskartelu
22 posliinimaalaus
21 viihdetaiteilija : Suomi
21 salapoliisiromaanit
20 Yhdistyneet kansakunnat
20 kirjasto- ja informaatiopalveluala
20 1980-LUKU
18 vaateompelu
17 rock and roll
16 MURRENÄYTTEET
16 itämaiset taistelulajit
15 sosiaali- ja terveydenhuolto
15 rajavartiolaitos
15 paperiaskartelu
15 laivaluettelo
15 DVD-elokuvat
14 tiedeakatemiat
14 Suomen taideyhdistys
14 piirroselokuvat
13 tabulatuurinotaatiot
13 ranskalainen keittiö
13 nuorten aikuisten kirjat
13 Jeesus Kristus
13 äänentoistotekniikka
13 šamanismi
12 YKSINLAULU
12 vauvanhoito
12 Titanic
12 tilastollinen tutkimus
12 punk rock
12 kaupunkihistoriat
12 historia : 1900-luku
12 arabialainen musiikki
12 1960-luku
11 tšekin kieli
11 säveltäjät : Suomi
11 rentoutuminen
11 muodin historia
11 kuultokudos
10 varastaminen
10 Uusi testamentti
10 taitelijat
10 seminaarit (kokoukset)
10 samanismi
10 rockmusiikki
10 kiinalainen keittiö
10 1800-LUKU

Ohjelman (kts. alla) antamista tiedoista näkee myös, että esim. asiasana muodin historia (jota ei ole YSAssa) esiintyy Vaskin tietueissa Ppro853_137785, Ppro853_541141, Ppro853_541143, Ppro853_541144, Ppro853_541145, Ppro853_541146, Ppro853_541634, Ppro853_561083, Ppro853_561086, Ppro853_561087 sekä Ppro853_561088.

Eri asiasanoja joilla on vain yksi esiintymä Vaskissa löysin 1761 kappaletta. Kymmesti esiintyviä asiasanoja on kahdeksan kappaletta. Miten tällaista dataa olisi parasta havainnoillistaa? Ideoita vastaanotetaan.

Vaski on FinMARC 1998 -muotoa ja kyseisen standardin mukaan kentässä 652 olevat asiasanat ovat peräisin Yleisestä suomalaisesta asiasanastosta, eli YSA:sta (kansainvälisessä MARC21:ssä asia ilmaistaan hieman toisin, kuvaamalla asiasanakenttien osakentässä ‡2 mikä sanasto on kyseessä, tyyliin 650 #7 ‡a bibliografinen valvonta ‡2 ysa).

Tein aiemmin pienen työkalun jolle voi antaa yksittäisiä MARC-tietueita ja se kyselee ONKI-palvelun ohjelmointirajapintaa (APIa) käyttäen ovatko tietueen asiasanat YSO-ontologiassa. Kun YSA julkaisiin vastikään avoimena datana, tuli nyt tekemäni massakäsittely helpommaksi. Työn voi nykyään tehdä omalla koneella, pommittamatta ONKIn rajapintaa noin suurella kyselymäärällä.

Prosessi

Noukin ensin YSA:n SKOS-muotoisesta tiedostosta varsinaiset sanat (prefLabel ja altLabel) tekstitiedostoon yhdeksi pitkäksi, pitkäksi listaksi. 14.6.2011 lataamassani tesauruksessa oli 36991 termiä.

Sekä MARC-data että sanasto ovat saatavilla myös XML:nä, jonka käyttäminen olisi oikeaoppisempaa, mutta en nyt jaksanut säätää niiden kanssa sillä XML:n käsittelytyökalut ovat minulle aika tuntemattomia. Sensijaan olen tottunut operoimaan unixin komentoriviltä ja opettelen myös Perliä.

Tässä kirjoittamani Perl-kielinen ohjelma jota käytin:

#!/usr/bin/perl

use MARC::Batch;

my $file = "vaski-kunnostettu.mrc";
my $batch = MARC::Batch->new('USMARC', $file);
my $sanasto = "~/ysa.lista.alt_too";

$batch->strict_off();
while (my $record = $batch->next()) {
        for my $termi ($record->subfield('652', 'a')) {
        if (system("grep -q -i \"$termi\" $sanasto")) {
            print($termi, ";", $record->field('001')->as_string,"\n");
        }
    }
}

Kuten ehkä huomaat, tämä on hyvin kaukana elegantista. Ensinnäkin käsiteltävät tiedostot on nimetty ohjelman sisällä ja toisekseen kukin termi etsitään sanastosta käyttäen ulkoista ohjelmaa. Tämä aiheuttaa yhden forkin per asiasana, joka on huono asia. Oikeasti vertailu pitäisi tehdä tämän ohjelman sisällä, lukemalla asiasanat tiedostosta yksiulotteiseen taulokkoon tai listaan. Mutta toimii tämä näinkin, kun huonoa ohjelmistosuunnittelua voi korvata prosessoriteholla 🙂 Miniläppärini (joka on ainoa käyttämäni työväline) rouskutteli tätä useita tunteja.

Mutta tämän ei olekaan tarkoitus olla eleganttia. Tämän on tarkoitus osoittaa kirjastoammattilaisille, että me itse voimme ottaa aloitteen käsimme sen sijaan, että odottelemme että järjestelmätoimittajamme tekee kivoja asioita puolestamme (sitä on turha odotella).

Vielä pari huomiota laatimani menetelmän puutteista: se ei huomioi asiasanaketjuja, ja tuon kaltainen huoleton merkkijonojen etsintä johtaa vääriin tuloksiin mikäli etsittävä epäkelpo asiasana esiintyy osana kelpoa asiasanaa. Tälle asialle pitäisi todella tehdä jotain.

Mitä välii?

Ymmärtääkseni kaikkien 652-kentässä olevien termien pitäisi olla peräisin YSA:sta. Näin sanoo myös FinMARC -formaatti. Asiasanoja joita ei YSAssa ole, ei pitäisi käyttää ainakaan kyseisessä kentässä. Kuten tiedämme, ei asiasanasto kuvaa kaikkia maailman ilmiöitä. Siksi paikallisille sanastoille onkin tarvetta.

Minua paremmin luettelointiin perehtyneet tietänevät mitä sisällönkuvailussa oikeasti kuvaillaan. Jossain lienee sovittu, onko sisällön lisäksi aiheellista kuvailla muotoa. Esim. Vaskissa käytetään termejä ”Nintendo Wii”, ”sotaromaanit” ja ”elämäkerrat” kuvailemaan muotoa. Nämä teokset eivät kerro Nintendon Wii-peleistä, sotaa kuvaavista romaaneista tai elämäkertojen kirjoittamisesta, vaan ovat niitä. Ehkä tämä on ookoo – en jaksa nyt lueskella luettelointisäännöstöä asiaa tarkistaakseni enkä muista ulkoa mitä siellä sanotaan. Mutta ei ole vaikea nähdä että tämä on problemaattista. Ihmettelin samaa asiaa aiemmin, kun mietin minkähänlaista olisi “ihan oikea kirjastotyö” pelien parissa?

Mainiot luetteloijat ovat arvatenkin tämän muoto vs. sisältö -asian ratkaisseet jollain sopimuksella (joka siis lienee kirjattuna luettelointisääntöihin). Käytännössä ainakin Vaskissa kuvaillaan surutta sekä muotoa että sisältöä 652 -kentässä.

Tässä on muitakin mielenkiintoisia puolia: MARC-tietueessa ei esimerkiksi ole mitään tietoa siitä, mitä YSAssa on ollut tietueen luontihetkellä. YSA muuttuu ajan myötä, kenties osa nyt listaamistani termeistä on ollut kyseisen luetteloijan käyttämässä YSA:n versiossa luettelointihetkellä… MARC-tietueesta itsestään puuttuu tällainen tekninen metadata.

Kirjoitusvirhe luetteloinnissa on fataali virhe, ja teos katoaa kyseisen aiheen kannalta mustaan aukkoon. Varsinaisia kirjoitusvirheitä löysin Vaskista onneksi vain ihan muutaman.

Monet löytämäni, YSA:n ulkopuoliset termit ovat hyvin käytännöllisiä ja olen oikeasti onnellinen että niitä on tietueisiin luettelointisääntöjen vastaisesti tallennettu. Tämä kertoo sanaston puutteellisuudesta ja myös luokitusjärjestelmän puutteista, sekä kirjastoihmisten omatoimisista ongelmanratkaisupyrkimyksistä. Se on tietenkin aivan oikein. Nämä itse keksityt termit voisi eristää omaan sanastoonsa, jolla YSAa täydennetään, ellei ole YSAn tarkoituksenmukainen ylläpito ole mahdollista. Lisäksi meillä on käytettävissämme useampia sanastoja YSAn rinnalla ja niitä olisikin hyvä käyttää MARC-tietueen sellaisissa paikoissa, jotka eivät ole YSAlle varattuja.

Kirjaston tietokanta kertoo runoudesta, kun siltä kysyy

Näin sitä runoutta kustannetaan

Kaukomieli-blogia pitävä mainio Matti Lassila on taas hääräillyt Open Dataksi avatun HelMet-aineiston kimpussa. Nyt syntyi  kuvaelmaa siitä, mitä kirjaston aineistotietokanta kertoo suomalaisen runouden kustantamisesta ja julkaisemisesta. Käykäähän hämmästelemässä, ja painostakaa samalla Kansalliskirjasto avaaman kansallisbibliografiamme Fennica. Sen avoin selailukin on vain väliaikainen hanke.

 

Haluan kiinnittää huomionne siihen pieteettiin, jolla Kaukomieli-blogissa aina esitellään käytettyjä menetelmiä.

Tämä on hyvin inspiroivaa; ajattelen klassisia brittiempiristejä, jotka seisoivat luonnon äärellä ja esittivät sille häikäilemättä ja systemaattisesti kysymyksiä. Näin se merkityksen uuttaminen sinänsä merkityksettömästä datasta käy toimeliaalta ja uteliaalta. Terveiset ja kiitos Kaukomielelle.

Cory Doctorow: ”Näin kirja tuhotaan” (niin&näin № 65)

Cory Doctorow

Cory Doctorow (photo by Joi Ito, CC-BY 3.0)

Tässä viimeinen osio Cory Doctorowin artikkelista Näin kirja tuhotaan, joka on julkaistu Ville Lähteen suomentamana Niin&Näin -lehdessä (ISSN 1237-1645) numero 65, kesä 2/2010. Teksti perustuu Royal Ontario Museumissa pidettyyn puheeseen ja transkripti löytyy verkosta.

Millainen olisi hyvä e-kirjan käyttäjäsopimus?

Älkää rikkoko tekijänoikeuslakia. Kolme sanaa! Eikä enempää tarvita kirjojemme tekijänoikeuksien ylläpitämiseen. Kaikki muu on vain lukijoiltamme varastamista. Lukijat ymmärtävät, mitä tuo sopimus merkitsee. He eivät ymmärrä, mitä iPhoneen ostetun äänikirjan sopimuksen 26 000 sanaa tarkoittavat. Eikä kukaan kirjojen kirjoittaja suostuisi moisiin sopimuksiin. Älkää vahingossakaan rikkoko.

Jos olette kirjastonhoitajia tai arkistonhoitajia, älkää ostako tallenteita, joihin liittyy epäreiluja käyttäjäsopimuksia. Älkää ennen kaikkea ostako tallenteita, johon liittyy hallintateknologiaa, älkääkä missään, siis missään tapauksessa ostako tallenteita, joiden hallintateknologia valvoo lukijoiden lukutottumuksia. Kirjastonhoitajat ovat kamppailleet lukijoidensa intellektuaalisten vapauksien puolesta vuosisatojen ajan. Nuo tyypit pitävät kirjastonhoitajia idiootteina. Lakatkaa olemasta idiootteja. On aika toimia kokoelmienne ja asiakkaidenne puolesta.

Lisenssejä, jotka vaativat kirjastonhoitajia luovuttamaan tietoja asiakkaiden lukutottumuksista? Kukaan kirjastonhoitaja ei tee sitä, koska me kaikki tiedämme, miten ihmisen käyttäytyminen muuttuu, kun heitä tarkkaillaan. Me tiedämme, että intellektuaalinen vapaus vaatii yksityistä tilaa.

Ottakaa selvää ACTA:n etenemisestä ja vaatikaa, että sopimusprosessi tehdään näkyväksi. Meidän on saatava tietää, mitä sopimuksessa sanotaan, ja siitä täytyy keskustella julkisesti. Tekijänoikeus ei saa olla salaisuuksia savuisissa neuvotteluhuoneissa vaan läpinäkyvyyttä, julkisuutta ja monenkeskeistä osallistumista.

Anti-Counterfeit Trage Agreement eli ACTA oli puheena myös IFLA 2010:ssä. Kyseessähän on siis salainen kauppasopimus, jossa on mukana sellaisia toimijoita kuten USA ja EU:n komissio (eli myös Suomi), mutta jota valmistellaan suljettujen ovien takana eikä edes Euroopan parlamentti saa sitä nähtäväkseen. ACTA on multilateraalinen sopimus, jolla on tarkoitus ohittaa nykyinen, Yhdistyneiden Kansakuntien (YK) immateriaalioikeuksista sopiva kansainvälinen elin World Intellectual Property Organization (WIPO). Ruotsin Piratpartietin Christian Engström totesi osuvasti IFLA 2010:ssä, että ACTAn kaltaisten multilateraalisten menettelyjen businesslogiikka on sama logiikka kuin mafialla.

Doctorow taas kirjoittaa, että WIPOlla on suunnilleen sama suhde tekijänoikeuslakiin kuin Mordorilla pahuuuteen.

Coryn kirjoitus käsittelee kirjaa ja kirjan omistamista ja sisältää paljon tärkeää viestiä meille kirjastolaisille. Akuutein viesti on IFLA 2010:nkin aikaan Twitterissä heitelty ilmaus, johon varmasti jokaisen kirjastoammattilaisen on helppo yhtyä:

FUCK ACTA!

En tiedä miten draconian on tapana kääntää, mutta perkeleellinen on melko hyvä kuvaus ACTA:sta ja sen luomisen prosessista.

Yleisemmin Cory kirjoittaa siitä, että e-kirjoihin liittyvät käyttäjäsopimukset (l. lisenssit) pyrkivät tuhoamaan kirjan, ja lukemiselle ja kirjoittamiselle rakentuvan länsimaisen kulttuurin. ”Kirja” ei  tässä yhteydessä tarkoita tietenkään tiettyä kirjan fyysistä muotoa (selluloosalehdyköitä pyökki- tai vasikannahkakansien välissä tms.), vaan kulttuuritallennetta jonka voi lopullisesti ja peruuttamattomasti saada omistukseensa jonka omistamisesta ja käyttämisestä voi itse päättää. Omistamisesta katso Suomen tekijänoikeuslain 19 §, 1. momentti:

Kun teoksen kappale on tekijän suostumuksella ensimmäisen kerran myyty tai muutoin pysyvästi luovutettu Euroopan talousalueella, kappaleen saa levittää edelleen.

Totta kai Doctorow kirjoittaa kopioinnista ja sen keskeisestä merkityksestä kulttuurin prosessin keskiössä.

Hän mainitsee myös erään, erityyppisissä yhteyksissä esiin nousevan ja sangen kiusallisen faktan joka liittyy käyttödataan. Eli siihen, kuka lainaa mitäkin teoksia kirjastoista. Asiakkuuden hallinnan myötä on asiallista kysyä kirjastoilta, miten kirjasto hyödyntää tarkkoja tietoja asiakkaiden käyttäytymisestä, jota kertyy kirjastojen arkipäiväisten tiedonhaku- ja lainauksenvalvontaprosessien yhteydessä.

Vastaus on, ettei kerta kaikkiaan yhtään mitenkään.

Tosiasiassa voisimme aivan hyvin kertoa yhteiskunnalle mitä asioita käsitteleviä  kirjoja ja lehtiä ihmiset tiettynä aikana tai tietyssä paikassa lainaavat. Olisi kiehtovaa nähdä esimerkiksi onko meneillään olevilla Helsingin juhlaviikoilla merkitystä kirjastoaineiston käyttöön. Jos haluaisimme, meillä olisi myös tieto esimerkiksi siitä, lukeeko henkilökuntamme alamme ammattikirjallisuutta tai miten self-help -oppaat korreloivat työttömyystilastojen kanssa.

Usein kuulee, etteivät kirjastot kerää ja käytä tätä tietoa siksi, että se loukkaisi ihmisten yksityisyyttä ja intellektuaalista vapautta johon Corykin viittaa ja josta kirjoitetaan paljon Eduskunnan kirjaston 2008 julkaisemassa teoksessa Paratiisi vai panoptikon–näkemyksiä ubiikkiyhteiskuntaan (ISBN 978-951-53-3054-3, PDF ISBN 978-951-53-3055-0). Haluaisin että asia todella olisi näin. Todellisuudessa uskon, että tuota tietoa ei koeta tärkeäksi, emmekä me kirjastolaiset osaa edes ajatella että sellaista dataa todella kertyy ja mitä valtavia mahdollisuuksia se tarjoaakaan. Tämä on tietenkin todella ankeaa.

Kansalaisten intellektuaalisten oikeuksien suojeluun vetoamiselta menee pohja välittömästi kun kirjasto lisensoi e-aineistoja asiakkaiden käyttöön. Tällöin juuri tuota käyttötietoa kertyy muiden toimijoiden iloksi, mutta ei kirjastojen itsensä iloksi. Äkkisiltään mieleen tulee mieleen suuri joukko toimijoita, joilta emme todellakaan yritä estää käyttäjiemme käyttötietojen keräämistä; EBSCO, Elsevier, WSOY (HS:n Digiarkisto), PressDisplay, Naxos (jos olet eri mieltä, kerro ihmeessä!). Päinvastoin, jotta pääsee edes selaamaan mitä on saatavilla noilta toimittajilta, on kirjauduttava kirjastotunnuksillaan. Jos olet käyttänyt Nelli-portaalia, et  ole voinut välttyä huomaamasta sitä ”salli tietojeni luovutus kolmansille osapuolille” -ruksia.

Ehdotan että me kirjastot alamme aivan välittömästi, ollenkaan empimättä joko

  1. oikeasti suojaamaan kirjaston käyttäjien intellektuaalista vapautta ja estämään aineiston toimittajia keräämästä arkoja tietoja heistä, tai
  2. alamme itse hyödyntämään noita käyttötietoja ja myös pyrimme hyödyntämään yhteiskuntaa julkaisemalla tuota tietoa (varmasti esim. tutkijoita, poliitikkoja ja julkaisijoita kiinnostaisi tietää vaikkapa eri asiasanojen suosion trendejä eri asiakassegmenteissä)

Vieläkö tätä blogia lukee joku, jonka mielestä politiikalla ja kirjastoilla ei ole mitään tekemistä keskenään. Osaatko itse ovelle vai saatetaanko?

Käyttödata auki

Vielä yksi blogikirjoitus. Tämä on vika tänään. Lupaan. Tsekatkaa Seppo Verhon juttu Kirjaston kätketty aarre Kirjastolehden blogista. Mulla on ollut vireillä demo, jolla voitaisi tehdä juuri tällaista trendien kartoitusta. Siitä olisi iloa maailmalle, suomalaiselle innovaatioympäristölle, kirjaston tehtävälle kansalaisten osallistumisen mahdollistajana, hyvälle virkamiestavalle, oikeistolaiselle politiikalle sekä (tämä argumentti varmasti vakuuttaa kirjastolaisetkin idean hyvyydestä, elleivät argumentit vakuuttaneet) kokoelmanhallintatyölle.

Analyysi Helsingin kaupunginkirjaston aihepakettien ajallisesta kattavuudesta

Kirjasto on kertomus. Nimenomaiseen kertomukseen sisältyy väite, että kirjasto tuo esille kirjallisuuden (ym. julkaisujen) niin kutsuttua pitkää häntää. Siis pitämällä käytössä ja nostamalla esiin aineistoa, johon ei yksittäisinä julkaisuna kohdistu suurtakaan mielenkiintoa, mutta joka on määrällisesti laajaa.

Viime viikolla tuli mieleen, että Helsingin kaupunginkirjaston aihepakettien tonkiminen toisi tähän ehkä jotain valoa. Aihepaketit ovat sikäli mielenkiintoinen tutkimuskohde, että niiden laatimista ei ole keskitetysti juuri ohjattu; päin vastoin laatijoilla on vapaat kädet vinkata haluamaansa aineistoa, ja koko henkilökunta on pakettien kokoamiseen tervetullut. Näin voitaisi ajatella, että aihepaketit heijastavat kirjastoammattilaisten omaa näkemystä tällaisesta vinkkaamisesta ja aineiston esiin tuonnista, eikä organisaation näkemystä.

Koodasin ihmeellisillä bash-taidoillani pari loitsua, jotka käyvät hakemassa aihepakettien web-sivut kaupunginkirjaston julkaisujärjestelmässä asustavasta aihepakettiarkistosta, tonkivat niistä linkit pääkaupunkiseudun näyttöluetteloon HelMetiin ja käy vielä poimimassa sieltä ns. xrecord-tiedostot, jotka ovat XML-muotoisia MARC 21 -tietueita. Sieltä löytyy kenttä 260‡c, eli Julkaisu-, jakelu- jne. aika. Työkalusettinä minulla on perinteinen unix-varustus tyyliin sed, wget ja libxml:ään nojaava xpath. Logiikka on toteutettu bashillä. Oikeasti minun pitäisi opetella Perl-ohjelmointia juuri tällaista toimintaa varten.

Toivoin tällä tutkimuksella osoittavani, että toisin kuin yleensä tykätään toisella, kirjastolaiset oikeasti nostaisivat näissä paketeissa esille lähinnä uutta materiaalia. Ajattelin etukäteen, että ehkä 80% kohdistuisi viiden edellisen vuoden aikana julkaistuun aineistoon. Valitettavasti (tai siis onneksi) jouduin pettymään, sillä läpikäymäni aihepaketit todellakin nostivat esiin suuren määrän vanhempaa aineistoa!!

Kävin läpi vain vuosien 2010 ja 2009 aihepaketit. Tältä vuodelta on 16 aihepakettia, viime vuodelta 43. Tekemäni työkalu löysi näistä suoria viitteitä teoksiin 186 ja 747 kappaletta.

Alla tulos:

Vaikka painoa kertyykin huomattavasti viiden edellisen vuoden julkaistulle aineistolle vuonna 2009, ei käyrä ole ollenkaan niin jyrkkä kuin olin kuvitellut. Paljonkos se kirjan keskimääräinen aika kirjakaupan hyllyllä onkaan? Jotain 6 kuukautta tai jotain?

X-akselin otsikot ovat tässä aika pientä tihrua, mutta akselilla on sata vuotta julkaisuja vuodesta 1910 alkaen. Suurempi, paremmin luettava versio kuvasta löytyy Flickristä. Nyt nappaamani datat sekä työkalun saa minulta jos haluaa. Tai voin jatkaa työtä jos se jotakuta kovasti kiinnostaa ja siitä olisi kirjastoaatteen ja maailman hyvyyden kannalta iloa.

Mistään käyttämistäni työkaluista ei kiitos kuulu järjestelmätoimittajillemme (Innovative Interfacesin Millenium, Sinisen Meteoriitin Meteor). Ne eivät tarjoa mitään työkaluja tällaiseen tietojen ynnäilyyn eri lähteistä. Kiitos kuuluu sen sijaan avoimen lähdekoodin kansainväliselle yhteisölle, joka on kymmeniä vuosia herkeämättä tuottanut joustavia, tehokkaita, ilmaisia ja vapaita työkaluja, joita ilman maailma olisi erittäin erilainen kuin on. Kiitos.

Samalla menetelmällä ja tekemieni työkalujen avulla voi piirrellä erilaisia graafeja. Esim. käppyrän voisi rajoittaa vain tieto- tai kaunokirjallisuuteen tai vaikka musiikkiin. Myös aiempien vuosien käppyrät voisi piirtää. Aihepaketteja on nyt yhteensä 209, vuodesta 2006 lähtien. Tekemäni työkalusetti ei ole todellakaan täysautomaattinen (tosin tämä proof-of-concept todistaa, että työkalun voisi kehittää sellaiseksi), mutta pointti on, että meillä kirjastoilla on kaikenlaista dataa, jota voimme tutkia jos haluamme. Tämän tekemiseen meni noin yksi työpäivä, mukaan lukien tämä blogikirjoitus.

Ajallinen näkemys pitkään häntään on yksi tapa katsoa asiaa. Jos myös kirjastojen lainaustilastot olisivat saatavilla (kuten niiden pitäisi olla), voitaisi vastaavalla tavalla selvittää vaikkapa kuinka paljon kirjastolaiset nostavat esiin aineistoa jota ei lainata paljoakaan.