HelMet -kirjastot (eli Helsingin, Espoon, Vantaan ja Kauniaisen kaupunginkirjastot) tekivät kansallisen Labs.kirjastot.fi -hankkeen johdolla pelinavauksen kirjastojen avoimeen bibliografiseen dataan kesäkuun alussa. Tiedoitteen julkaisi Labs 07.06.2010 ja asia huomioitiin välittömästi mm. Tietoviikossa ja Suomen kirjastoseuran uutisissa. Lisäksi siitä kirjoitti Julkinen data–johdatus tietovarantojen avaamiseen -oppaan (Liikenne- ja viestintäministeriö, 2010, ISBN 978-952-243-145-5, verkkojulkaisu ISBN 978-952-243-146-2) laatija Antti Poikola blogissaan sekä Tampereen kaupunginkirjaston ansioitunut verkkokirjoittelija Petri Tonteri Sorvipenkki-blogissaan.
Asiasta tiedotettiin myös kirjastoalan yhteisellä, Kirjastot.fi:n piirissä toimivalla Verkko-foorumilla ja siellä keskustelu lähtikin nopeasti käyntiin. Hurraa -huutoja kuultiin muutama, mutta purematta eivät ainakaan kaikki kirjastolaiset tällaista niele. Heikki Poroilan tekijänoikeuksiin liittyvän huomion jälkeen (siitä lisää alla), kritiikkiä kohdistettiin julkaisun sanavalintoja kohtaan koska vain Helsingin kaupunginkirjasto ja Labs mainittiin tiedotteessa sekä sitä seuranneessa uutisoinnissa. Espoo, Vantaa ja Kauniainen ilmeisesti kokivat jääneensä huomiossa paitsioon, ainakin joidenkin niissä toimivien ammattilaisten mielestä. Opetus: kuntayhteistyö on herkkää. Sinänsä olen onnellinen että ”kapitalistien persettä nuolevaa innovaatiohuuhaata!!” -nurina ilmeni vasta ”meidät pitää mainita myös!!” -nurinan jälkeen.
Kirjastoalan keskustelua seuratessa on muuten hyvä muistaa keskustelujen erittäin huono edustavuus; tuolla Verkko-foorumilla tätä käsittelevään keskusteluun on osallistunut alle 10 ihmistä, Suomessa on 10 000 kirjastoammattilaista, joista puolet yleisissä kirjastoissa ja HelMet-kirjastoissa meitä on jotain viitisen sataa. Päättäjiä on monesti turha toivoa näissä keskusteluissa tapaavansa, edes virastojen omia päättäjiä. Toivottavasti kuitenkin ovat edes lukeneet verkossa käytävää keskustelua. ELY-keskuksista sentään kuuluu toisinaan. Haluaisin kuitenkin tässä julkisesti ilmaista kiitokseni ja kunnianosoitukseni kaikille niille, jotka ovat tähän keskusteluun osallistuneet. Ilman teitä maailma olisi paha paikka. You know who you are! ❤
No niin seuraava, mielestäni merkittävä tapaukseen liittyvä kritiikki käsitteli asiasta päättämistä. Keskustelua ei kuulemma ole ollut. Tämä tietenkin riippuu kenen kanssa yleensäkin on tekemisissä, mutta asiaa puitiin korkeimmassa päättävässä elimessä eli HelMet-johtoryhmässä asiantuntijoiden avulla käsittääkseni noin vuosi ja alan tapahtumissa pidempään. Labsin piirissä tätä on käsitelty joka viikko. Lisäksi Kirjastolehdessä on ollut aiheesta Seppo Verhon artikkeli Kirjastotieto vapaaksi? joka kertoo ymmärrettävästi missä hommassa on kyse. Tietenkin kirjastoalaa yleisemmällä tasolla asiaa on käsitelty vaikka kuinka paljon sekä Suomessa että ulkomailla. Juu, asiaa ei ole puitu ollenkaan niin paljon kuin joitain muita alan puheenaiheita, mutta ei Labs tätä nyt ihan hatustaan ole vetäissyt koko hanketta.
Esiin nousivat luonnollisesti myös tekijänoikeudet. Itse asiassa useampaan kertaan kuin yhdesti. Yksi asia on se, muodostuuko luetteloivalle taholle tekijänoikeuksia bibliografisia metatietoja tuottaessa. Katso pohjalle Kirjastot.fi:n Tekijänoikeudet-foorumin keskustelut Luettelointitietojen tekijänoikeudet huhtikuulta 2009 sekä Kirjastotiedon tekijänoikeudesta joulukuulta 2009 (joka viittaa tuohon yllä mainitsemaani Sepon Kirjastotieto vapaaksi? -artikkeliin).
Vaikka kirjasto onkin julkaisujen metadatan paras ja erinomaisin hallitsija ja käsittelijä, niin käytännössä suuri osa luettelointidatasta oikeasti tehdään muualla kuin kirjastoissa. Suomessa yleiset kirjastot ostavat luettelointitietueita BTJ:ltä, entiseltä Suomen kirjastoseurasta irrotetulta Kirjastopalvelulta. Ulkomaisilta kollegoilta jos kysyy luetteloinnista, nousevat kulmakarvat helposti: ”luetteloida? Miksi me luetteloisimme itse? Mehän olemme kirjastoammattilaisia!” Katso tästä aiheesta Judy Lutherin NISOlle ja OCLC:lle laatima white paper Streamlining Book Metadata Workflow (1.5MB PDF). BTJ erittäin tärkeän luettelointipanoksen lisäksi kirjastot vaihtavat luettelointietoja myös keskenään, erityisen tärkeä kansallinen tietokanta on yliopistokirjastojen yhteinen Linda. Tekijänoikeuksiin liittyy paljon epävarmuutta ja kykenemättömyyttä hankkia tietoa päätöksenteon tueksi. Niin tai näin, yleinen kanta on ettei yksittäisiä, määrämuotoista luettelointitietueita voida käsittää teokseksi; sitä ei tämän tulkinnan mukaan siis suojaa tekijänoikeus, kuten se ei suojaa ponia, juoksemista tai kausaatiotakaan.
(välihuomio: onkohan sattumaa että kun kuuntelen Behemothia ja googlaan ”tekijänoikeus”, saan tasan 666 000 osumaa 😉
Sen sijaan kokonaisuus ajatellaan olevan suojattu Tekijänoikeuslain tietokantapykälän 49§ mukaan ja sen oikeudet kuuluvat työnantajalle (Tekijänoikeuslaki 40§ 3. mometti). Toissapäivänä 23.06.2010 BTJ julkaisi tätä asiaa huomattavasti valottavan tiedoitteen BTJ mukaan HelMetin avoimen datan hankkeeseen. En vielä tiedä mitä tästä pitäisi oikeastaan ajatella, mutta BTJ:n kanssa on sovittu puolen vuoden karenssiaika avoimelle julkaisulle. Tällä BTJ voi suojata omaa markkina-asemaansa ja toisaalta pysytellä mukana kirjastoalaakin ravistelevassa vapaus- ja avoimuusliikehdinnässä.
Kolmas toistaiseksi esiin noussut ja relevanttina pitämäni kritiikki Open Dataa ja HelMetin datan avauspyrkimystä kohtaan koskee kirjaston monopolia tämän metadatan tarjoajana yhteiskunnalle. Todellisuudessa uskon että BTJ voi oikein mielellään myydä luettelointitietueita muillekin toimijoille kuin kirjastoille. Lisäksi HelMet-tietokannan voi kyllä lupaa kysymättä kopioida itselleen joko osittain tai kokonaisuudessaan ilman että kirjasto erityisesti tarjoaa sitä ladattavaksi. Voin näyttää miten se tapahtuu tai katso esimerkki niin tekemisestä postauksessani Analyysi Helsingin kaupunginkirjaston aihepakettien ajallisesta kattavuudesta.
En tässä nyt halua käydä toistelemaan yleisiä Open Data -argumentteja julkishallinnon palvelutuotannon roolista nimenomaan mahdollistajana, datalukutaidon opettamisesta, siitä että datan arvo lisääntyy käytössä eikä vähene, innovaatiopolitiikasta tai kysymystä ovatko kirjaston asiakkaita vain yksityishenkilöt vai koko yhteiskuntaa tai siitä onko kirjasto itse oikeasti kykenevä kehittämään datan käsittelyä vai voisiko tuolla ulkona olla joku, jolla voisi olla jotain ideoita, taitoja tai muita resursseja joita meillä ei itsellämme ole, järjestelmätoimittajien monopolista julkishallinnon toimintojen kehittäjinä. Näitä argumentteja löydät Julkinen data -oppaasta (toivon että tämä kirjastolaisten käymä keskustelu on hyödyllistä myös muille avointa dataa harkitseville toimijoille ja että muut voivat oppia tästä jotain). Jätän myös sekä GATS-sopimuksen että egalitaristisen liberalistisen yhteiskuntafilosofian pois tästä kirjoituksesta. Myöskään sitä, tarvitseeko yleisen kirjaston ylipäätään olla linjassa demokraattisen poliittisen järjestelmän kanssa ei käsitellä tässä postauksessa.
Neljänneksi, huoli tietokannan eheydestä ja kontrollista on myös noussut esiin, mutta uskon että niiltä osin kyseessä on lähinnä väärinkäsitys. Ei ilmeisesti ole riittävän selvästi ilmaistu kirjastolaisille, että datan avaaminen tuottaa kopioita HelMet-tietokannasta, eivätkä niihin tehdyt muutokset heijastu takaisin kirjaston omaan tietokantaan tai HelMet.fi -palveluun. Kirjastoilla on näillä näkymin itseasiassa erittäin rajalliset mahdollisuudet hyötyä muiden toimijoiden tekemistä muutoksista kyseiseen tietokantaan, valitettavasti
Tässä esimerkki kirjastojen käyttämästä MARC-muotoisesta luettelointitietueesta:
LEADER 00000nam 2200000 4500 001 9517680422 005 20021115040347.0 008 990215s1999 xx fin 020 951-768-042-2 (sid.) 041 1 fin|h(eng) 080 32 080 1 084 11.3 100 1 Hobbes, Thomas 245 10 Leviathan, eli, Kirkollisen ja valtiollisen yhteiskunnan aines, muoto ja valta /|cThomas Hobbes ; suomentanut Tuomo Aho 260 Tampere :|bVastapaino, |c1999 300 592 s. :|bkuv. ;|c22 cm 546 suomi 574 T.Karppanen|b9902HELAIK 575 |b9905espaik 577 |b0005vanaik 588 321 589 11.3 590 11.3 599 KIRJA / BOK 650 4 yhteiskuntafilosofia 650 4 valtiofilosofia 650 4 valta 650 4 kirkko 700 1 Aho, Tuomo. 740 0 Kirkollisen ja valtiollisen yhteiskunnan aines, muoto ja valta 765 0 |tLeviathan or the matter, forme and power of a commonwealth ecclesiasticall and civill, 1651 913 00 HOBLEKJ99000
Nyt julkaistussa HelMet-tietokannan -dumpissa tietueet ovat MARCin XML-muodossa (MARCXML) ja äskeinen näyttää tältä:
<record> <leader>01070nam 2200361 4500</leader> <controlfield tag="001">9517680422</controlfield> <controlfield tag="005">20021115040347.0</controlfield> <controlfield tag="008">990215s1999 xx fin </controlfield> <datafield tag="020" ind1=" " ind2=" "> <subfield code="a">951-768-042-2 (sid.)</subfield> </datafield> <datafield tag="035" ind1=" " ind2=" "> <subfield code="a">(FI-HELMET)b1297761</subfield> </datafield> <datafield tag="041" ind1="1" ind2=" "> <subfield code="a">fin</subfield> <subfield code="h">(eng)</subfield> </datafield> <datafield tag="080" ind1=" " ind2=" "> <subfield code="a">32</subfield> </datafield> <datafield tag="080" ind1=" " ind2=" "> <subfield code="a">1</subfield> </datafield> <datafield tag="084" ind1=" " ind2=" "> <subfield code="a">11.3</subfield> </datafield> <datafield tag="100" ind1="1" ind2=" "> <subfield code="a">Hobbes, Thomas</subfield> </datafield> <datafield tag="245" ind1="1" ind2="0"> <subfield code="a">Leviathan, eli, Kirkollisen ja valtiollisen yhteiskunnan aines, muoto ja valta /</subfield> <subfield code="c">Thomas Hobbes ; suomentanut Tuomo Aho</subfield> </datafield> <datafield tag="260" ind1=" " ind2=" "> <subfield code="a">Tampere :</subfield> <subfield code="b">Vastapaino, </subfield> <subfield code="c">1999</subfield> </datafield> <datafield tag="300" ind1=" " ind2=" "> <subfield code="a">592 s. :</subfield> <subfield code="b">kuv. ;</subfield> <subfield code="c">22 cm</subfield> </datafield> <datafield tag="546" ind1=" " ind2=" "> <subfield code="a">suomi</subfield> </datafield> <datafield tag="574" ind1=" " ind2=" "> <subfield code="a">T.Karppanen</subfield> <subfield code="b">9902HELAIK</subfield> </datafield> <datafield tag="575" ind1=" " ind2=" "> <subfield code="b">9905espaik</subfield> </datafield> <datafield tag="577" ind1=" " ind2=" "> <subfield code="b">0005vanaik</subfield> </datafield> <datafield tag="588" ind1=" " ind2=" "> <subfield code="a">321</subfield> </datafield> <datafield tag="589" ind1=" " ind2=" "> <subfield code="a">11.3</subfield> </datafield> <datafield tag="590" ind1=" " ind2=" "> <subfield code="a">11.3</subfield> </datafield> <datafield tag="599" ind1=" " ind2=" "> <subfield code="a">KIRJA / BOK</subfield> </datafield> <datafield tag="650" ind1=" " ind2="4"> <subfield code="a">yhteiskuntafilosofia</subfield> </datafield> <datafield tag="650" ind1=" " ind2="4"> <subfield code="a">valtiofilosofia</subfield> </datafield> <datafield tag="650" ind1=" " ind2="4"> <subfield code="a">valta</subfield> </datafield> <datafield tag="650" ind1=" " ind2="4"> <subfield code="a">kirkko</subfield> </datafield> <datafield tag="700" ind1="1" ind2=" "> <subfield code="a">Aho, Tuomo.</subfield> </datafield> <datafield tag="740" ind1="0" ind2=" "> <subfield code="a">Kirkollisen ja valtiollisen yhteiskunnan aines, muoto ja valta</subfield> </datafield> <datafield tag="765" ind1="0" ind2=" "> <subfield code="t">Leviathan or the matter, forme and power of a commonwealth ecclesiasticall and civill, 1651</subfield> </datafield> <datafield tag="913" ind1="0" ind2="0"> <subfield code="a">HOBLEKJ99000</subfield> </datafield> </record>
MARC on ilmaisuvoimainen, muttei todellakaan kovin nykyaikainen datamuoto. Ongelma on muun muassa se, ettei se ilman käytössä ollutta luettelointisäännöstä todella sitoudu muuhun maailmaan. Esim. se, että ylläolevassa tietueessa on asiasanat (kentissä 650‡a) yhteiskuntafilosofia, valtiofilosofia, valta sekä kirkko ei auta yhtään, ellei tiedossa ole sitä, mitä asiasanastoa tai ontologiaa käytetään, missä se sijaitsee ja miten sitä käytetään. Lisäksi tekijänä on mukamas Hobbes, Thomas mutta tämä ei ole viittaus henkilöön, vaan tietokoneen kannalta täysin merkityksetön merkkijono. Toisinaan toistellaan mantraa ”context is king”. Kirjastodataa käsitellessä se on syytä esittää muodossa ”context is lost”.
MARCia ja MARCXML:ää voidaan kuitenkin koneellisesti leipoa, tavoitteena vaikkapa Open Linded Data tai tilastoanalyysi kirjaston tarjoamasta aineistosta. Tiedän että parillakin eri taholla on paraikaa pyrkimyksiä HelMetin datan muokkaamiseen juuri tähän suuntaan. Tätä ja avointa kirjastodataa yleensäkin käsiteltiin ELAG 2010-konferenssissa Helsingissä samaan aikaan kun HelMetin avaaminen tapahtui. HelMetissä käytössä oleva Innovative Millenium kirjastojärjestelmä ei todellakaan mahdollista mitään tällaista, mutta tiedon irroittaminen kirjastojärjestelmästä avaa aivan erilaiset mahdollisuudet käsitellä dataa halutulla tavalla.
Hyvältä näyttää, eli jatketaan! Kirjastot.fi:n Labs sekä HelMet avasivat pelin. Seuraavaksi haastan Kansalliskirjaston ylläpitämän kansallisbibliografian Fennican mukaan Open Data -liikkeeseen.