Lukekaahan Ville Tikkasen kirjoitus mitä on Kirjasto kaikille, minulle ja meille. Avoimet (ohjelmointi)rajapinnat (l. APIt), niitähän on tietyissä piireissä kirjastoissakin unelmoitu, osana avoimempaa ja yhteisöllisempää kirjastoa.
Tag Archives: avoin data
Teosto+YouTube+musiikkidata soi kauniisti
Teosto on juuri saanut aikaan sopimuksen YouTuben kanssa, kts myös asiaan liittyvä FAQ. Hienoa, sillä kuten kaikki arkiympäristöään yhtään havainnoivat ihmiset tietävät, on YouTube erittäin keskeinen musiikinlevityskanava. En henkilökohtaisesti voi olla ihan vakuuttunut kaikkeen Teoston toimintaan (kröh kröh), mutta vaikuttaa hyvältä idealta tunnustaa tosiasioita. Tätä vartenhan Teosto ja vastaavat järjestöt on olemassa.
Toinen juttu Teoston suunnasta: tämä Teoston tutkijan Turo Pekarin (@s1truuna) blogi*kirjoitus Musiikkidata soi kauniisti viime heinäkuulta on hieno kirjoitus metadatasta, sekä datan ja metadatan laadusta, käyttöarvosta ja liikkuvuudesta. Kiitos Turolle tuosta. Millaisia datavirtoja kulkee Teoston ja muiden kulttuuriorganisaatioden väleissä? Tässäpä mietittävää.
* blogi ei ole blogi jos sitä ei kommentoida
Avoin vastaukseni Googlelle suomalaisen bibliografisen kirjastodatan saatavuudesta

Sähköpostissani oli Cycling for librariesista palatessa tälläinen viesti Googlelta
From: Google
To: Mace
Subject: VASKI feed?Hei,
terveisiä Googlelta.
Olen Googlen kirjahakuprojektissa mukana, ja osa sitä on erilaisten kirjatietokantojen haaliminen. Huomasin VASKI-dumpin täällä http://data.kirjastot.fi/data.html mutta se on jo vuodelta 2010. Tiedätkö onko siitä mahdollisesti uudempaa versiota, vai olisiko peräti saatavilla säännöllinen dumppi?
Huomasin myös Helmet-datan, mutta sen CC-BY tekee siitä hieman hankalammin käytettävän
Lyhyet vastaukset kysymyksiin:
- valitettavasti ei
- pahoittelen, CC0 tiedetään kyllä sallivammaksi lisenssiksi
Kirjastojen bibliografinen metadatahan on hajaantunut sinne tänne, eikä ole mitään yhteistä laaria josta sitä voisi itselleen hankkia. Lähimpänä tällaista yhteisluetteloa lienee BTJ:n AllFons -palvelu ja suomenkielisen kirjallisuuden osalta kansallisbibliografia Fennica. Tulevaisuudessa ehkä sitten Melinda ja KDK, kunhan ne saadaan kasattua. Molemmat ovat sitoutuneet avoimeen dataan. Esimerkiksi Saksan kansalliskirjasto on kunnostautunut datansa saatavuuden osalta.

Googlen Knowledge Panel
Tässä vielä taustaa, tilannekatsaus sekä näkemyksiäni kirjastojen avoimeen (bibliografiseen) dataan:
Vaskin osalta tilanne on tällä hetkellä se, että alkuperäisen, itse kätilöimäni avoimena datana julkaisun jälkeen dumppia ei ole päivitetty ja avoin data ei ilmeisesti ole strategista toimintaa Vaskissa. En ole siellä enää töissä, joten parhaiten ja virallisesti asiaan osaa organisaation näkökulmasta vastata palvelujohtaja Ulla-Maija Maunu (sähköposti muotoa etunimi.sukunimi@turku.fi). Jos kirjastojen bibliografisesta datasta olisi uudempia versioita olemassa, ne olisivat tuolla http://data.kirjastot.fi/data.html:ssä, joka on kirjastojen yhteinen, simppeli ”datarepositorio”. Olen lähettänyt Vaskin datan myös Datahubiin.
Pääkaupunkiseutua ja joitain muita poikkeuksia lukuunottamatta muissakin Suomen yleisissä kirjastoissa data asustaa järjestelmäpalvelua tarjoavan Axiellin siipien suojissa. Kirjastot saavat omat datansa sieltä käyttöönsä Axiellin kirjastojärjestelmien kuten Auroran, PallasPron tai Origon kautta sekä niihin liittyvien web-liittymien kautta, sekä SRU-ohjelmointirajapinnalla johon pääsy tuppaa nyt Auroraan siirtymisen myötä olemaan rajoitettua. Pääsyn omaan raakaan dataansa kirjasto voi ostaa Axiellilta kuten marras-joulukuussa 2012 tekemässäni PIKI-tietokannan siivousmenetelmät -hankkeessa tehtiin (kts. projektinhallintatyökalun+työpäiväkirjan issue #3325). Axiellilta voi kysellä toimitushalukkuutta, -aikoja sekä -hintoja, ja katsoa lisäksi yllä mainitun PIKI-casen raportin talousosiota.
Axiellin Origo-järjestelmää käyttävät kirjastot ovat hyvässä asemassa, sillä ne voivat itse ottaa bibliografisen datansa ulos MARC-muodossa. Myös akateemisissa kirjastoissa, AMK:ien kirjastoissa sekä Kansalliskirjastolla on myös aika hyvät oltavat, koska ne pystyvät siirtelemään (ainakin bibliografista) dataansa ulos Voyager ja Aleph-järjestelmistään aika kitkattomasti.
Kansalliskirjaston liidaaman Kansallinen Digitaalinen Kirjasto -hankkeen on ollut tarkoitus saada datat liikkeelle kirjastojen omista järjestelmistä, ja se onkin edellytys koko KDK:n toiminnalle. Sama pätee EU:n Europeanaan. Lyhyesti sanoen sekä KDK että Europeana molemmat pyrkivät yhdistämään kirjastojen (sekä arkistojen ja museoiden) haut yhteen weppisivustoon. Syksyllä 2010 Turkuun lähtiessäni toivottiin OAI-PMH haravointirajapintaa yleisten kirjastojen bibliografisen datan siirtelyyn, mutta tietojeni mukaan tilanne on edelleen sama kuin Turusta lähtiessäni 2012 kesällä, eli Axiell ei valitettavasti ole saanut sitä vielä toimitettua. Kansalliskirjasto jo ostikin kaikille yleisille kirjastoille ja maksettua hintaa voi kysellä Kansalliskirjastolta tai Opetus- ja kulttuuriministeriöstä (KDK:n blogikirjoitus aiheesta ei valitettavasti ole enää saatavilla, valitettavaa ja hieman ironista sinänsä). Aihetta käsitellään Vaski-kirjastojen KDK-asiakasliittymän piloinnin loppuraportissa.
Tuo on siis tilanne käytännön datan liikuttelun kannalta. Helsingin alueella Helsinki Region Infoshare on kunniakkaasti edistänyt avoimen datan etenemistä, ja sen toiminta on nyt vakiintumassa osaksi Helsingin kaupungin Tietokeskusta. Siitä on tietenkin vielä paljon, paljon matkaa siihen, että virastojen, kuten Helsingin kaupunginkirjaston data oikeasti liikkuisi niin näppärästi kuin sen pitäisi. Helsingin kaupunginkirjastolla voinee jutella Jussi Vehviläisen ja Antti Pakarisen kanssa, HRI:llä Ville Melonin ja Tietokeskukselta löytynee joku myös.
Paljon puhuttujen immateriaalioikeuksien osalta tilanne on selvä, sillä kirjasto on itse tietokantansa sisällön ylläpitäjä (ei Axiell eikä sisällöntuottaja BTJ tai Kirjavälitys), ja näinollen myös immateriaalioikeuksien omistaja (Tekijänoikeuslaki 49 §). Lisäksi tekijänoikeuslaki takaa sille jolla on oikeus käyttää tietokantaa myös oikeuden tehdä siitä kappaleita (25 j § mom. 4), ja erikseen kumoaa lisenssiehdot jotka pyrkivät haittaamaan tätä (25 j § mom. 5). Lisäksi joku keskeinen oikeus päättyy 15 vuoden päästä tietokannan yleisölle saattamisen jälkeen (49 § mom. 2), mutta minulle on hieman epäselvää tarkalleen mikä.
Kollegiaalisia terveisiä sinne Googlelle lähettäen
Mace
Helsingin kaupungin tietokeskuksessa (ml. Helsinki Region Infoshare) urkkimassa
Olin huhtikuun 23. tutustumassa Helsingin kaupungin tietokeskuksen toimintaan. Hyvä että töissä kehotetaan nuuskimaan vähän muualla, Kirjasto 10:stä on oltu esim. Kaupunginkirjaston tapahtuma- ja markkinointiyksikössä, Arabian ja Tapanilan kirjastoissa ja hankinnassa.
Olen käynyt Ympärätalossa sijaitsevassa Tietokeskuksen kirjastossa jokusen kerran in-cognito nuuskimassa, ja tunnen Tietokeskuksen ja Forum Viriumin yhteistä Helsinki Region Infoshare -hanketta (HRI) sen voimakkaan roolin vuoksi, jonka se on ottanut suomalaisessa avoimen datan (so. open data) parissa tässä parin vuoden ajan. Lämpimiä terveisiä sinnepäin!! Muutoin Tietokeskus on ollut minulle sangen tuntematon elin.
Helsingin kaupungin tietokeskuksen historia yltää peräti sadan vuoden päähän ja tuoreimman vuosikertomuksen (varo PDF) mukaan siellä on hyvä meininki.
Helsingin kaupungin tietokeskus on tilaston, tutkimuksen ja arkistotoimen asiantuntija- ja vastuuorganisaatio. [Se] hankkii, tutkii, välittää ja säilyttää tietoa Helsingistä ja sen alueista – nykyhetkestä, menneisyydestä ja tulevaisuudesta.
Tietokeskuksen, tuttavallisemmin Tieken webbisivut löytyvät osoitteesta http://www.hel.fi/hki/Tieke/fi/Etusivu, ja kaupungin Helmi-intrassa on heillä oma osionsa myös. Tietokeskuksessa on oma kirjasto, jonka olemassaolo oli minulle jonkinlainen mentaalinen hyppylauta tutustumiskäynnille. Kirjastossa työskentelee kolmisen henkilöä, Tiekessä kokonaisuudessaan joku viitisenkymmentä. Kyselin kyllä kaikkien kirjastoihmisten koulutus- ja työtaustat mutta valitettavasti unohdin ne jo. Tietokeskuksen kirjasto palvelee sekä tietokeskusta itseään, mutta on myös avoin kaikille. Avoimuus on näin yleisen kirjaston piirissä kasvaneen kannalta hieman erilaista, sillä Tietokeskus on lukittujen ovien takana. Anyways niille jotka haluavat siellä käydä, sisäänkäynti on Ympyrätalon nurkalla. Kirjaston henkilökunnan mukaan tietopalveluhommia hoidetaan pitkälti sähköpostitse. Kirjaston kokoelmaa käyttää lähinnä Tietokeskuksen oma väki, joskin tutkijoiden ja muiden tyyppien kiinnostus kirjastoon tilattuja lehtiä (varo PDF) kohtaan jättää toivomisen varaa. Minun on ulkopuolisena vaikea arvioida miten hyvin Tietokeskus kirjastoaan hyödyntää, ja millainen rooli kirjastolla todellisuudessa on. En sen tarkemmin tivannut Tietokeskuksen henkilökunnalta. Sinällään kirjasto sijaitsee fyysisesti hyvällä paikalla, Tietokeskuksen pitkän, kaarevan käytävän varrella.
Tietokeskuksen kirjaston tietokanta löytyy verkosta, ja järjestelmänä on PrettyLib. Yksi mietittävä asia on, olisiko hyvä että Tietokeskuksen kirjaston kaltaiset kirjastot olisivat mukana HelMetissä tm. alueellisessa konsortiossa… Vaskissahan niitä on ollut, samoin PIKissä. Ja (Me)linda ja KDK -yhteydet tulevat mieleen myös. Ovat kuitenkin mukana suomalaisten erikoiskirjastojen verkostossa.
Tapasin Tietokeskuksella myös HRI:n Ville Melonin sekä Hami Kekkosen. Siihen liittyykin mukavia uutisia, nimittäin kolmivuotisen HRI -projektin hartiavoimin puskemat avoin data -jutut juurrutetaan Tietokeskukseen. Tämä on tietenkin hieno homma, ja auttaa meitä muita virastoja saamaan datamme liikkeelle. Helsingin kaupunginkirjastolta onkin jo jonkin verran dataa liikkeellä, ja katalogista löytyvää, muidenkaan julkaisemaa dataa ei tarvitse kauaa selailla ennenkuin tulee ideoita miten sitä voisi käyttää omiin tarpeisiin. HRI:n ylläpitämä datakatalogi varmaankin siirtynee Tietokeskuksen haltuun. Rönsynä todettakoot, että paraikaa Gentissä meneillään olevassa ELAG -konferenssissa (Twitterissä #elag2013) oli työpaja kirjastojen suhteesta tutkimusdataan, ja siellä Joss Winn puhui datakatalogiohjelmisto CKANista ja sen kehittymisestä. ELAGin videotaltionnit tulevat nettiin ensi viikolla.
Avoin data on monille tätä lukeville varmaan suunnilleen tuttu ilmiö, josta lisää esim. HRI:n sivuilla. Datan avaaminen on helppoa ja pakollista (ja hauskaa), ja HRI johdattelee kädestä pitäen. Avoin data helpottaa datan käyttöä sekä oman viraston ulkopuolella (esim. Tietokeskuksessa tai tutkimuksessa), sekä myös viraston sisäpuolella (esim. luettelointitoimiston ulkopuolella).
HRI:n lisäksi Tietokeskuksella käynnissä ehkä mielenkiintoisinta oli kaupunkitutkimuksen tutkimusohjelma Tietoa Stadista. Sitä on tehty muutaman vuoden välien (nyt 2010-2015).
Kaupunkitutkimusosaston toiminnan päälinjat ja keskeiset tutkimushankkeet määritellään kaupunginhallituksen hyväksymässä Helsingin kaupungin tutkimusohjelmassa. Tutkimusohjelma tehdään joka kolmas vuosi, ja sen keskeisenä tavoitteena on paitsi suunnata kaupungin tutkimusvoimavarat tehokkaasti ja tuloksellisesti, myös aktivoida, koordinoida ja konkretisoida Helsingin harjoittamaa tutkimusyhteistyötä.
Sisällysluettelo tässä (sori kopipeistattu joten näyttää vähän pahalta)
- TILASTO- JA TUTKIMUSTOIMINNAN STRATEGISET SUUNNAT VUOSILLE 2011–2015 11
- TIETO PÄÄTÖKSENTEON TUKENA 11
- TILASTO- JA TUTKIMUSTOIMINNAN ORGANISOINTI 12
- VAHVISTUVA KORKEAKOULUYHTEISTYÖ 13
- SEUTUYHTEISTYÖ JA LAAJENEVA TIETOPALVELU 14
- TIEDON SAANNIN TURVAAMINEN JA YHTEISTYÖ TIEDON TUOTTAJIEN KANSSA 15
- KANSAINVÄLINEN TOIMINTA 15
- TIETOJEN KÄYTETTÄVYYS JA JULKAISEMINEN 16
- HELSINKI-TIEDON KESKEISET TEEMAT 18
- 2. HELSINGIN KAUPUNGIN TILASTO-OHJELMA 2011–2013 21
- HELSINKI-TILASTON VAKIINTUNEET TUOTTEET JA PALVELUT 21
- PERUSTIETOVARANNOT JA TILASTOJULKAISUT 21
- TIETOKESKUKSEN YLLÄPITÄMÄT TIETOJÄRJESTELMÄT JA PAIKKATIETOJEN KEHITTÄMINEN 25
- TIETO- JA ASIANTUNTIJAPALVELUT 26
- ASIANTUNTIJOIDEN VERKOSTOT JA YHTEISTYÖKUMPPANIT 27
- HELSINKI-TILASTON KEHITTÄMISHANKKEET VUOSILLE 2011–2013 28
- ASUMINEN, KAUPUNKIRAKENNE JA YMPÄRISTÖ 28
- HYVINVOINTI, TERVEYS JA PALVELUT 32
- KUNTATALOUS, TYÖMARKKINAT JA KILPAILUKYKY 35
- PERUSTIETOVARANTOJEN KEHITTÄMINEN 36
- TIETOVARANTOJEN AVAAMINEN, HALLINTA JA KÄYTETTÄVYYDEN PARANTAMINEN 37
- HELSINKI-TILASTON VAKIINTUNEET TUOTTEET JA PALVELUT 21
- 3. HELSINGIN KAUPUNGIN TUTKIMUSOHJELMA 2011–2013 38
- 3.1 ASUMINEN, KAUPUNKIRAKENNE JA YMPÄRISTÖ 39
- 3.2 DEMOKRATIA JA HALLINTO 45
- 3.3 HYVINVOINTI, TERVEYS JA PALVELUT 48
- 3.4 KAUPUNKIKULTTUURI 55
- 3.5 KUNTATALOUS, TYÖMARKKINAT JA KILPAILUKYKY 59
Ohjelma löytyy netistä (varo PDF), ja on kiinnostavaa luettavaa. Siitähän selviää mitä tietoa Helsingistä on tiedossa, eli metatietoa siitä mitä tietoa meillä on tulevaisuudessa. Ohjelma on kehitetty koko Helsingin kaupungin laajuisena yhteistyönä, joten kaupunginkirjastollakin on ollut mahdollisuus vaikuttaa ja osallistua siihen. Ohjelmaa lukiessa selviää millaisten toimijoiden kanssa Tieke tekee tutkimusyhteistyötä. Linkkaan tässä nyt tilaisuuden tultua Jaani Lahtisen tammikuiseen luentoon Lainaustiedot kirjaston johtamisen työkaluna.
Tietokeskuksen muista julkaisuista mainittakoot Helsingin tila ja kehitys 2013 (varo PDF), neljännesvuosittain julkaistava Kvartti, sekä Helsingin seudun aluesarjat -tietokanta (sis. raakaa dataa)
Vierailuni päättyi eläväiseen kierrokseen kaupunginarkistossa, joka on myös osa Tietokeskusta. Kiitos vieraanvaraisuudesta ja virka-avusta Tietokeskukseen!
Lukekaapa Jessican kokemukset pohjoismaisesta avoimen datan seminaarista
Jessica Parland-von Essen osallistui Malmössä pidettyyn, pohjoismaiseen avoin linkitetty data -seminaariin (#nordlod). Käykääpä lukemassa Och solen sken över #nordlod -raportaasi.
Sillävälin internetissä: musiikin virtuaalinen auktoriteettitietokanta
Cycling for libraries -läksyni epäonnistui: en löytänyt syitä miksi kirjastot eivät ole avointa dataa
Epäonnistuin vähän aikaa sitten päättynyttä Cycling for libraries -epäkonferenssiamme varten valitsemani ”läksyn” teossa. Läksynäni oli löytää vähintään viisi argumenttia jolla kirjastot puolustavat kantaansa vastustaa avoimeen dataan siirtymistä. En löytänyt yhtäkään perustetta Cycling for libraries -osallistujilta enkä niiltä vierailemistamme Liettuan, Latvian ja Viron kirjastoilta joissa onnistuin ottamaan asian puheeksi.
Ainoa mielestäni vakavasti otettava argumentti johon olen aiemmin törmännyt on, että emme voi parantaa bibliografisen datamme saatavuutta Avoimen Datan myötä siksi, että me kirjastot emme omista dataamme, vaan niiden tekijänoikeudet ovat sisällöntuottajallamme eli käytännössä BTJ:llä. Tämä argumentti on ainakin Suomen tekijänoikeuslain nojalla virheellinen, sillä
- yksittäiset MARC (tms.) tietueet eivät ole tekijänoikeuden suojaamia
- tietokanta kokonaisuutena on tekijänoikeuden suojaama (49 §)
- työsuhteessa tehdyn tietokannan tekijänoikeus siirtyy poikkeuksellisesti tekijältä työnantajalle, eli luetteloijalta/ylläpitäjältä kirjastolle (40 b § 3)
Pyynnöistäni huolimatta en ole saanut selvyyttä millaisilla sopimuksilla BTJ:ltä tietueita ostetaan heidän Arvo-palvelustaan, ja mitä niissä sopimuksissa sanotaan. Kirjastojärjestelmien sopimukset eivät ymmärtääkseni siirrä tietokannan omistajuutta kirjastolta järjestelmätoimittajillemme Axiellille tai Innovativelle.
Erilaisia spekulaatiota tietenkin liikkuu, tyyliin kirjastojohtajien tai luettelointiammattilaisten taidottomuus, nousevien tietoliikennekustannusten pelko, välinpitämättömyys, kirjasto datan heikon laadun tuoma epävarmuus sen hyödyllisyydestä jne. Tällaisiä argumentteja en tietenkään ole kuullut kirjasto-organisaatioilta, vaan kollegoilta.
Kirjastotietokannat ovat kirjastojen immateraalista omaisuutta. Kirjastokimpoissa omistajuus on hieman epäselvää, mutta kirjastojen on pystyttävä perustelemaan omaisuutensa suojelemisen avoimessa tietoyhteiskunnassa.
Jälkiajatuksia kirjastojen avoimen datan semmasta Jyväskylässä
[kieltämättä asiaan liittymätön, mutta dubstepin tahtiin skänkkäävä kissa 3D:nä]
Torstaina puitiin Jyväskylän kaupunginkirjaston emännöimänä ja Antti Poikolan fasilitoimana kirjastojen suhdetta avoimeen dataan. Tapahtuman muistiinpanot voi, ja kannattaa syynäillä yhteisestä muistiosta. Antti myös videoi alustukset (Antti Poikola, Antti Pakarinen, Petri Tonteri ja minä, 1 tunti 12 min.) ja työpajailun jälkeisen loppukeskustelun (40 min).
Täydentelin muistiota vielä, esim. näkemystäni BTJ:n suhteesta tietokantojemme omistukseen immateriaalioikeuksien näkökulmasta, muutamia ilmassa olevia ideoita ja silmäilin muutenkin muistiinpanoja torstaita hahmottaakseni. Seminaarissa keskustelu pyöri varsinaisen avoimen datan ympärillä toki, mutta kuten noista muistiinpanoistakin ilmenee, monesti tuli esille sekin, että meillä itsellämme ei ole pääsyä omiin datavarantoihimme tai mielenkiintoinen data tuntuu jatkuvasti valuvan näppiemme läpi. Käyttöideoita on vaikka kuinka paljon. En näe perinteisillä perusjärjestelmätoimittajillamme kovin kaksista roolia tässä, joten ei muuta kuin aloite omiin käpäliin vaan! 🙂
Sangen selvä tahtotila asiasta on: datat auki. Olisi tietenkin hyvä saada tarkasteltaviksi ne argumentit ja ongelmat miksi datamme ei ole avointa, ja sitten ratkoa ne.
Nyt on sopivasti myös se aika vuodesta kun kirjastoissa koostetaan tilastoja OKM:lle ym. toimittamista varten. Noita tilastoja on aika paljon, ne ovat hyvin kattavia, julkisia ja niihin on vieläpä avoin käyttöliittymä osoitteessa http://tilastot.kirjastot.fi. Avointa dataa nuo tilastot eivät kuitenkaan ole, sillä varsinainen data ei ole koneellisesti saavutettavassa muodossa. Tulipa mieleen, että nyt kun Kirjastot.fi rakentelee paraikaa uutta versiota kirjastotietokannastaan (josta tulee muuten mahtava) ja myös koneellisesti saavutettava, saataisikohan myös nuo tilastot mukaan?
Yksi mietintämyssyssä pidettävä näkökulma on tämä: suomalaiset kirjastot eivät ole kokeneet asiakseen avata dataansa, mutta muutamat muut toimijat ovat: miten me kirjastot voisimme näitä muiden nyt meidänkin saatavillemme antamia datoja hyödyntää?
Bibliografinen data on blääh, meillä on parempaakin
Mitä Lukas sanoi, bibliografinen metadata ja kuvailutiedot eivät ole kiinnostavinta dataa mitä meillä kirjastoilla on. Se on itseasiassa aika tylsää faktojen luettelemista ja se voidaan tuottaa, säilöä ja ylläpitää keskitetysti, ja jopa ostaa kuten tapana onkin (BTJ:ltä).
Bibliographic metadata as such describe publications, in the broadest sense, providing information about title, authors, subjects, editions, dates, urls, but also physical attributes like dimensions, number of pages, formats, etc. This type of information, in FRBR terms: Work, Expression and Manifestation metadata, is typically shared among a large number of libraries, publishers, booksellers, etc. ‘Shared’ in this case means ‘multiplied and redundantly stored in many different local systems‘. It doesn’t really make sense if all libraries in the world publish identical metadata side by side, does it?
Se mikä sensijaan oikeasti on mielenkiintoista, on paikallinen käyttödata sekä niteistä ja kokoelmista kertova data.
Currently, library data that is really unique and interesting is administrative information about holdings and circulation. After having found metadata about a potentially relevant publication it is very useful for someone to know how and where to get access to it, if it’s not freely available online. Do you need to go to a specific library location to get the physical item, or to have access to the online article? Do you have to be affiliated to a specific institution to be entitled to borrow or access it?
Usage data about publications, both print and digital, can be very useful in establishing relevance and impact. This way information seekers can be supported in finding the best possible publications for their specific circumstances.
Tästä on Suomessakin ollut puhetta tietyissä piireissä. Mitään kehitystä tähän suuntaan ei ole kuitenkaan otettu eikä toistaiseksi ole näkyvissäkään. Ehkä sitten, kun yhteisluettelo kansallinen metadatavaranto (”Melinda”), KDK:n asiakasliittymä, Axiell Arenan kansalliset ulottuvuudet tai jokin vastaava valmistuu ja teostaso voidaan kokonaan siirtää veke kaikista kirjastoista ja tehdä haut yhteen indeksiin (ja rajata halutuin ehdoin, esim. kuuluuko teos oman kirjastoni kokoelmaan), voidaan ruveta miettimään tällaisia asioita.
Lukekaa Lukaksen kirjoitus Local library data in the new global framework, jossa Lukas kertoo paikallisdatan merkityksestä tarkemmin ja myös esittelee malleja miten homman voisi toteuttaa.
Howto: FinMARC→MARC21 video
Tein 14 minuutin opetusvideon miten kirjaston aineistotietokanta muunnetaan FinMARC -formaatista MARC21:een.
Työkaluna Kansalliskirjaston ylläpitämä USEMARCON, jota Axiellkin ilmeisesti (=toivottavasti) käyttää.
Jos USEMARCON -konversiosääntöjä haluaa itse muokata, ne näyttävät tältä:
100I1 | 100I1 | If (I1=1 Or I1=2) Then '1' Else S 100I2 | 100I2 | ' ' 100$a | <E00$a | S 100$h | <E00$a | + ', '+S; RegReplace('\\s*\\([^\\.]{2,} [^\\.]{2,}\\)\$', '') 100$f | <E00$c | S 100$c | <E00$d | S 100$x | <E00$e | S; RegReplace('^\\((.*)\\)\$', '\\1') E00 | 100 | S; MoveBefore ('d', $e); MoveBefore ('c', $d); Replace ('$c' By ',$c'); Replace ('$d' By ',$d'); Replace ('$e' By ',$e'); If (((RegFind('.*\\$(.)') < 0) Or (RegMatch(1) != '4')) And RegFind('\\.\$') < 0 And RegFind('\\-\$') < 0) S + '.'
Kaksi avoin data -sovellusta tällä viikolla: tuplakontrolli ja VuFind
Turun ja naapurikuntien kunnankirjastojen Vaski-kirjastokimppa julkaisi aineistotietokantansa avoimena datana vähän aikaa sitten. Avoimen datan idea on, että hyödyllinen annetaan esteettä kaikkien käyttöön. Tällainen ajattelu sopii erinomaisesti kirjastoihin. Yksi hauska puoli avoimessa datassa on se, että data on silloin myös meidän itsemme käytössä. Tämä ei ole ollenkaan itsestäänselvää – normaalisti voimme itsekin käsitellä MARC-tietueitamme vain yhdellä työkalulla, nimittäin kirjastojärjestelmällämme. Vaskissa käytämme Axiellin PallasProta, jolla ei voi tehdä kaikkea. On tärkeää päästä dataan käsiksi monin eri tavoin, ja monien eri tahojen toimesta.
Tässä kaksi casea, joissa kuluneella viikolla hyödyin siitä, että minulla (kuten kakikilla maailman ihmisillä) on esteetön pääsy luettelointidataamme.
Case 1: tuplakontrollia
Täällä Vaskissa me valmistaudumme vaihtamaan PallasPron toiseen Axiell-tuotteeseen, Auroraan. Samassa tietokantaamme tulee mukaan lisää kirjastoja, ja siirrymme FinMARC -luettelointiformaattista MARC21:een. Anna valvoo ja suunnittelee sitä, yhdessä muiden luetteloijien ja Axiellin kanssa.
Vaski, kuten muutkin kirjastotietokannat ovat sangen sotkuisia monellakin tapaa. Esimerkiksi yhdestä teoksesta saattaa olla useita luettelointitietueita (ns. tuplia (tai tripliä (tai quadruplia (ad nauseaum)))). Ne ovat tietokannan käytön kannalta ärsyttäviä, ja niitä yritetään nyt siivoilla pois.
Tein Annalle tällaisen Perl-ohjelman, joka etsii tuplia ISBN-koodin perusteella (joka on tallennettu kenttään 021‡a
):
#!/usr/bin/perl # lists ISBN-codes which appear in more than one MARC record use MARC::Batch; my $file = "vaski-kunnostettu.mrc"; my $batch = MARC::Batch->new('USMARC', $file); $batch->strict_off(); # First, let's create a magnificient hash or arrays, with ISBNs as keys, and # lists of record ids as values while ($record = $batch->next()) { for my $field ($record->field('021')) { my $isbn = $field->subfield('a'); push(@{$recsperisbn{$isbn}}, $record->field('001')->data()); } ++$i; } # then let's see through the hash, and print all the ISBNs which appear in more # than one record, and list all the records ids per ISBN too while (my ($key, $value) = each(%recsperisbn)) { if (@$value > 1) { print($key, ": "); foreach $recid (values($value)) { print($recid,","); } print("\n"); } }
Tämä ohjelma käy järjestyksessä läpi kaikki tietueemme, ja muodostaa kaikista esiintyvistä ISBN-koodeista listan missä kaikissa tietueissa se esiintyy. Lopuksi se tulostaa kaikkien sellaisten tietueiden tunnisteen (kentästä 001
), joiden ISBN esiintyy useammassa kuin yhdessä tietueessa. Näitä löytyi reilu 15 000. Anna arvioikoot, mitkä niistä voisi yhdistää keskenään. Yllä oleva Perl-ohjelma on rakennettu MARC::Record
ja MARC::Batch
-ohjelmointikirjastojen päälle, jotka ovat ilmaisia, standardin mukaisia ja avointa lähdekoodia.
Case 2: verkkokirjaston pystyttäminen
Toinen tämänviikkoinen näpertelyn kohde on VuFind. Se on täysiverinen verkkokirjasto-ohjelmisto, verrattavissa esim. KDK-hankkeessa pilotoitavana olevaan ExLibriksen Primoon. Hakumoottorina VuFind käyttää Solria. Vain paras on kyllin hyvää! Sanomattakin selvää, että sekä VuFind että Solr ovat avointa lähdekoodia ja vapaasti käytettävissä.
Taustajärjestelminä VuFind voi suoraan käyttää Alephia, Voyageria, Innovativen Milleniumia, avoimen lähdekoodin eXtensible Catalogia, Kohaa ja Evergreeniä, OCLC PICAa ynnä muita. Kuten erittäin hyvin tiedämme, me suomalaiset yleiset kirjastot olemme marginalisoituneita kansainvälisistä kollegoistamme omine Axiell-järjestelminemme, mutta VuFindin ja Axiellin järjestelmien väliin voi kyllä rakentaa yhteyden. Tämä tapahtuu laatimalla ohjelma, jota VuFindissa kutsutaan ILS -ajuriksi. Toisessa päässä, eli Axiellin kirjastojärjestelmän päässä käytetään Axiell Web Services -rajapintaa, joka on useiden suomalaisten Axiellin tuotteita käyttävien kirjastojen käytettävissä.
Suomessa VuFind on käytössä ainakin Helsingin yliopiston Viikin kampuskirjastossa, jonka palvelu on nimeltään eViikki. Maailmalta löytyy paljon kirjastoja, jotka ovat valinneet VuFindin.
En perjantaina jaksanut alkaa säätämään virallisen tietohallinnon kanssa tai ehdottelemaan mitään toimiryhmien perustamista ja kerran kuukaudessa pidettäviä pullakahvikokouksia, joten laitoin omin nokkineni palvelimen pystyyn Amazonin EC2 -pilveen. Se oli asiaan jo ennalta tutustuneena oikeastaan pöyristyttävän helppoa ja siihen meni alle tunti. VuFindin olen aiemmin asentanut omalle läppärilleni, mutta nyt pystyttämääni palvelimeen indeksoin myös Vaskin bibliografisen datan ja katsoin järjestelmää muutenkin tarkemmin. Datamme on FinMARCia, mutta olen konvertoinut sen itse MARC21:ksi Kansalliskirjaston ylläpitämillä konvertointisäännöillä sekä USEMARCON-ohjelmalla (kiitos Ulla, Ere ym.). Näitä Axiellkin käyttää kun teetätämme heillä konvertointityötä.
Hyvältä ja selkeältä näyttää toi VuFind kyllä 🙂
Laadukas viikko takana 🙂
Turku ym. Vaski-kirjastot nyt avointa dataa
Moi, terveisiä Varsinais-Suomesta. Laitoimme tänään koko Vaski-kimppamme luettelointitietokannan sisällön sellaisenaan verkkoon.
Vaskin, eli Turun, Liedon, Maskun, Mynämäen, Naantalin, Nousiaisten, Raision, Ruskon ja Taivassalon kunnankirjastojen yhteisessä tietokannassa on noin 1.7 miljoonaa tietuetta ja niihin on vaihtelevalla tarkkuudella kuvailtu kaikki ne kirjat, lehdet, cd-levyt, DVD:t, nuottivihot, yksittäisiä musiikkikappaleita ynnä muita aineistoja, joita kirjastojen hyllyistä voit löytää. Juuri nämä bibliografiset tietueet ovat historiallisesti muodostaneet kirjastojen tiedonhaun keskeisimmän ytimen, ja haluamme tällä julkistuksella olla mukana kaikenlaisten tietovarantojen käytön esteitä vähentävässä avoin data -liikehdinnässä (engl. Open Data).
Tässä tiedoitteemme, joka lähti tänään lehdistölle sekä tietenkin myös Kirjastot.fi:hin:
Varsinais-Suomen kirjastojen data avoimeksi
30. syyskuuta 2011 10:00
Varsinaissuomalaiset Vaski-kirjastot ovat avanneet aineistotietokantansa sisällön julkiseen käyttöön. Aiemmin vain hakuliittymän kautta käytettävä tietokanta on nyt lisäksi ladattavissa verkosta kokonaisuudessaan, tietokoneella käsiteltävässä muodossa. Tämä mahdollistaa kokonaisuudelle paljon uudenlaisia käyttömahdollisuuksia. Vaski-tietokanta sisältää noin 1.7 miljoonan kirjan, levyn, musiikkikappaleen ynnä muiden teosten julkaisutiedot sekä kirjastoammattilaisten tekemät luokittelu- ja hakusanatiedot.
Open data, tai suomalaisittain avoin data on pyrkimys avata erilaisia tietolähteitä mahdollisimman vapaaseen käyttöön. Erityisesti julkisin varoin tuotettua ja ylläpidettyä dataa ollaan Suomessa avaamassa monilla eri tahoilla.
Kirjastot ovat merkittävä osa yhteiskunnan avointa ja yhdenvertaista tietoinfrastruktuuria. Niiden tietokannat sisältävät paljon huolellisesti koottua tietoa erilaisista kulttuurijulkaisuista ja luonnollisesti kirjastot haluavat edistää näiden tietojen monipuolista saatavuutta. Suomessa kirjaston aineistotietokantojen saatavuutta pyrkivät parantamaan kirjastojen yhteinen Kirjastot.fi Labs -hanke, sekä Kansallinen Digitaalinen Kirjasto, jonka rakentamiseen Vaski-kirjastot myös osallistuvat. Vaski-kirjastoihin kuuluu tällä hetkellä yhdeksän kaupungin- ja kunnankirjastoa (vuonna 2012 17), ja ne palvelvat noin 340 000 suomalaista.
Lisätietoja antavat Varsinais-Suomen maakuntakirjastona toimivan Turun kaupunginkirjaston projektisuunnittelija Mace Ojala (mace.ojala@turku.fi) ja palvelujohtaja Ulla-Maija Maunu (ulla-maija.maunu@turku.fi).
Vaski-kirjastojen tietokanta on avattu yhteistyössä sisältöä tuottavan BTJ:n kanssa.
Henkilökohtainen kiitokseni kollegoilleni täällä Vaski-kirjastoissa ja erityisesti pomoille ja luetteloijille, sekä BTJ:lle jolta suuri osa suomalaisten kirjastojen luettelointityöstä on ostettu ja joka on käytännössä meidän yhteisluettelomme. Terkut myös kansainväliselle open data -yhteisölle 🙂
Nyt avattu Vaski-kirjastojen data on ladattavissa isona läjänä sekä XML-muodossa että MARCille tyypillisessä ISO-2709 -siirtomuodossa osoitteesta http://data.kirjastot.fi. Lisenssinä on erittäin salliva Creative Commons CC0. Kirjastoalan yhteisestä bibliografisesta MARC-standardista on erilaisia versioita, olemme Suomessa vielä siirtymävaiheessa FinMARCista kansainväliseen MARC21:een. MARCista sekä sen eri formaateista löydät lisää tietoa Kansalliskirjaston sivuilta ja meillä on myös erityinen sähköpostilista MARC-asioille… joka on tosin nykyään erittäin hiljainen. Olen bloggaillutkin silloin tällöin MARCista.
Tämä Vaski-julkistus on siis FinMARCia, ja yksittäinen tietue näyttää esim. tällaiselta:
00791nam a22002533 450
001 Ppro853_148215
008 921022s1992 fi 8
021 $a 951-581-008-6 $c sid. $d 162 FIM
041 1 $a fin $c rus
057 $a 68
064 $a 68.22
065 $a 68.22
068 $a 68.22
098 $a 68.22
100 1 $a Ponomareva $h Julia
241 $a Gribnaja kuhnja
245 2 $a Vaskiratsastajan sienisalaatti $b 201 mainiota sieniohjetta $d [Julia Ponomareva & Aleksei Ponomarev] $e [toimittanut ja suomentanut Liisa Viitanen]
260 $a Helsinki $b Taifuuni $c 1992 $e [Pieksämäki] $f RT-paino
300 $a 231 s. $b kuv. $c 22 cm
652 $a keittokirjat
652 $a sieniruoat
700 10 $a Ponomarev $h Aleksei
745 $a 201 mainiota sieniohjetta
745 $a Vaskiratsastajan sienisalaatti
Tai vastaavasti XML:nä
<record>
<leader>00791nam a22002533 450 </leader>
<controlfield tag="001">Ppro853_148215</controlfield>
<controlfield tag="008">921022s1992 fi 8</controlfield>
<datafield tag="021" ind1=" " ind2=" ">
<subfield code="a">951-581-008-6</subfield>
<subfield code="c">sid.</subfield>
<subfield code="d">162 FIM</subfield>
</datafield>
<datafield tag="041" ind1="1" ind2=" ">
<subfield code="a">fin</subfield>
<subfield code="c">rus</subfield>
</datafield>
<datafield tag="057" ind1=" " ind2=" ">
<subfield code="a">68</subfield>
</datafield>
<datafield tag="064" ind1=" " ind2=" ">
<subfield code="a">68.22</subfield>
</datafield>
<datafield tag="065" ind1=" " ind2=" ">
<subfield code="a">68.22</subfield>
</datafield>
<datafield tag="068" ind1=" " ind2=" ">
<subfield code="a">68.22</subfield>
</datafield>
<datafield tag="098" ind1=" " ind2=" ">
<subfield code="a">68.22</subfield>
</datafield>
<datafield tag="100" ind1="1" ind2=" ">
<subfield code="a">Ponomareva</subfield>
<subfield code="h">Julia</subfield>
</datafield>
<datafield tag="241" ind1=" " ind2=" ">
<subfield code="a">Gribnaja kuhnja</subfield>
</datafield>
<datafield tag="245" ind1="2" ind2=" ">
<subfield code="a">Vaskiratsastajan sienisalaatti</subfield>
<subfield code="b">201 mainiota sieniohjetta</subfield>
<subfield code="d">[Julia Ponomareva & Aleksei Ponomarev]</subfield>
<subfield code="e">[toimittanut ja suomentanut Liisa Viitanen]</subfield>
</datafield>
<datafield tag="260" ind1=" " ind2=" ">
<subfield code="a">Helsinki</subfield>
<subfield code="b">Taifuuni</subfield>
<subfield code="c">1992</subfield>
<subfield code="e">[Pieksämäki]</subfield>
<subfield code="f">RT-paino</subfield>
</datafield>
<datafield tag="300" ind1=" " ind2=" ">
<subfield code="a">231 s.</subfield>
<subfield code="b">kuv.</subfield>
<subfield code="c">22 cm</subfield>
</datafield>
<datafield tag="652" ind1=" " ind2=" ">
<subfield code="a">keittokirjat</subfield>
</datafield>
<datafield tag="652" ind1=" " ind2=" ">
<subfield code="a">sieniruoat</subfield>
</datafield>
<datafield tag="700" ind1="1" ind2="0">
<subfield code="a">Ponomarev</subfield>
<subfield code="h">Aleksei</subfield>
</datafield>
<datafield tag="745" ind1=" " ind2=" ">
<subfield code="a">201 mainiota sieniohjetta</subfield>
</datafield>
<datafield tag="745" ind1=" " ind2=" ">
<subfield code="a">Vaskiratsastajan sienisalaatti</subfield>
</datafield>
</record>
Kirjaston tietokanta kertoo runoudesta, kun siltä kysyy
Kaukomieli-blogia pitävä mainio Matti Lassila on taas hääräillyt Open Dataksi avatun HelMet-aineiston kimpussa. Nyt syntyi kuvaelmaa siitä, mitä kirjaston aineistotietokanta kertoo suomalaisen runouden kustantamisesta ja julkaisemisesta. Käykäähän hämmästelemässä, ja painostakaa samalla Kansalliskirjasto avaaman kansallisbibliografiamme Fennica. Sen avoin selailukin on vain väliaikainen hanke.
Haluan kiinnittää huomionne siihen pieteettiin, jolla Kaukomieli-blogissa aina esitellään käytettyjä menetelmiä.
Tämä on hyvin inspiroivaa; ajattelen klassisia brittiempiristejä, jotka seisoivat luonnon äärellä ja esittivät sille häikäilemättä ja systemaattisesti kysymyksiä. Näin se merkityksen uuttaminen sinänsä merkityksettömästä datasta käy toimeliaalta ja uteliaalta. Terveiset ja kiitos Kaukomielelle.
Bibliografista infopornoa, tätä et järjestelmätoimittajaltasi saa
Mainio Matti Lassila on leiponut kirjastojen Open Data -julkaisujen perusteella erilaisia karttoja kirjastoaineistoon Kaukomieli -blogissaan. Lähdemateriaalina on tässä HelMetin avoin data, joka avattiin Kirjastot.fi:n Labsin voimin; muut Suomen kirjastothan eivät vieläkään saaneet aikaiseksi avoin data -julkaisua. Minulla on Vaski-tietokanta sekä pari muuta Varsinais-Suomalaista tietokantadumppina ja olen niitä hieman kopeloinut ja kartoittanut lähinnä ajatus- ja ohjelmointiharjoituksina. Matti on ottanut huomattavasti perusteellisemman otteen ja esittänyt aineistolle mielenkiintoisempia kysymyksiä R:llä.
Täällä Vaski-alueellakin sekä avointa dataa että tällaisia visualisointeja on käsitelty johtoryhmässä, mutta edelleen tavara istuu tiukasti piilossa uteliailta ja ahkerilta. Kokoelman visualisointi olisi erinomainen työkalu kokoelmanhallintaan, ja tätä yritetään ajaa nyt täällä Vaski-alueella.
Kiitos Matti ensinnäkin mielenkiinnosta kirjastoaineistoa ja sen visualisoimista kohtaan, sekä työn tulosten julkaisusta. Kirjastoalalla on sekä kiinnostusta että tarvetta tällaiselle, mutta osaamista ja ennenkaikkea aloitekykyä kyllä puuttuu. Tässä olisi työmaata!
Nyt se yhteisluettelo pystyyn
Noni, yleisten kirjastojen yhteisluettelotyöryhmän rapsa on valmis ja ulkona uunista. Lukekaa (1.1MB PDF).
Yhteisluettelosta on kuultu ennenkin, esim. Ranskan vallankumouksessa ja klassisten bibliografien kirjoituksissa. Jo tuttuja yhteisluettelohankkeita kotimaasta: KDK, Linda, kaikkien kimppojen omat ”paikalliset yhteisluettelot” (Vaski, PIKI, HelMet, Kyyti jne jne), BTJ, Open Data, Frank, Mandis. Nyt nämä yhteen ja hyvä tulee!
Datat auki hallituksen päätöksellä, jos ei muuten

Hei kirjasto: avaa datas tai ne avataan (kuva Arja Lento / YLE, sori et förasin)
Avoin data (l. Open Data) etenee Suomessakin. Twitteristä sattui silmiin juuri Ehdotus valtioneuvoston periaatepäätökseksi julkisen sektorin digitaalisten tietoaineistojen saatavuuden parantamisesta ja uudelleenkäytön edistämisestä (52KB PDF). Kymmensivuisen tekstin tiivistelmä:
Periaatepäätöksen linjaukset esittävät tarvittavat toimenpiteet julkisten tietovarantojen saatavuuden ja uudelleenkäytön lisäämiseksi yhteiskunnan kaikilla alueilla. Linjaukset sisältävät kehittämistoimet tietopolitiikan ja lainsäädännön selkeyttämiseksi, käyttöä mahdollistavien rakenteiden ja käytänteiden luomiseksi sekä palvelu- ja sovelluskehityksen edistämiseksi.
Tietopoliittisilla linjauksilla tavoitellaan sitä, että julkisen sektorin digitaaliset tietoaineistot ovat avoimesti saatavilla ja uudelleenkäytettävissä yhtenäisin, selkein ja kaikille tasapuolisin käyttöehdoin. Tietoaineistoja tarjotaan kustannustehokkaasti, jolloin kansantalouden kokonaisedun kannalta tietoaineistot ovat pääsääntöisesti maksuttomia käyttäjälle. Samalla budjetoinnin ja tulosjohtamisen kautta on huolehdittava tietoaineistojen laadusta ja ylläpidosta.
Koko yhteiskunnan käyttöön luotavan tietoinfrastruktuurin avulla voidaan tietoaineistoja tarjota tehokkaasti. Hallinnonalojen tulee tunnistaa ja kuvata tietoaineistonsa uudelleenkäyttöä varten. Tietosisältöjen yhtenäiset kuvailutiedot ja palveluhakemistot helpottavat tiedon käyttöä. Luovutettavissa olevat tietoaineistot saatetaan koneluettavassa muodossa ja avoimilla rajapinnoilla käyttäjille. Tietoaineistojen tarjontaa ja käyttöä edistämään tulee luoda tarvittavat tukipalvelut. Avoimen tietoinfrastruktuurin kehittäminen ja ylläpito turvataan pitkäjänteisellä rahoituksella.
Palvelu- ja sovelluskehityksen edistämiseksi tarvitaan yhteistyömalleja ja kannustimia. Julkisessa hallinnossa kehitetään avoimen tiedon kulttuuria ja tuetaan kehittäjäyhteisöjen toimintaa. Alan tutkimusta ja kansainvälistä yhteistyötä tulee vahvistaa. Kokeilevaan toimintaan on panostettava erityisesti laajaa kysyntää edustavien tietoaineistojen avaamiseksi ja yhtenäisten käytänteiden luomiseksi.
Teksti on vielä luonnosvaiheessa. Suomessa kirjastot ovat lähteneet erittäin heikosti mukaan datansa avaamistalkoisiin (lue: “datan piilottelun lopettamistalkoisiin”). Jos dataansa ei halua auki, niin nyt vähän äkkiä kampanjoimaan tätä hallituksen periaatepäätöstä vastaan… jos rahkeita riittää. Henkilökohtaisesti en usko että kukaan tätä trendiä sinänsä vastustaa, vaan jahkailu on johtunut siitä, että kirjastolaiset ei vieläkään ymmärrä mitä avoin data tarkoittaa, emmekä ole ottanut asiaksemme selvittää. Katsokaas alkajaisiksi vaikka avointa dataa käsittelevät kirjoitukset Sorvipenkin äärellä -blogista, Kirjastot.fi:n Labsin blogista ja tästäkin blogista. Noh, ei se mitään, asia etenee ilman meidän omaa ymmärrystä ja tahtoa ei tarvita jos asia tulee hallitusohjelmaan tai muutoin säädellään meidän ulkopuolelta.
Kirjaston bibliografisen datan avaamisen ensiaskeleet ovat nämä:
- ilmoita luetteloijille aikeista, jotta tietävät
- juttele Labsin kanssa
- dumppaa tietokanta
- lähetä dumppi kirjastojen avoimeen datavarantoon data.kirjastot.fi
- viesti (Suomi.fi, Kirjasto-kaapeli, Kirjastolehti, lehdistö)
- profit!
Kohta 3 sujuu Origosta muistiinpanojeni mukaan näin: Aineistonhallinta
->Vienti
->ei hakuehtoja->valitse kaikki->Hyväksy valinta
. Tiedostomuodoksi ISO-2709 ja tallenna johonkin omalle tietokoneelle. Yritän muistaa tehdä opetusvideon joskus kun olen Origon äärellä. Dumppaaminen kestää Varsinais-Suomalaisessa, keskikokoisessa kirjastossa kolme neljä tuntia. Ei tiedostokaan ole suuri, Vaski-tietokanta on 763MB.
PallasPro-asiakkaat voivat tilata dumpin Axiellilta (älä maksa liikaa (tonni on liikaa)), tilauskoodi moihaluttaistietokantadumppiosakohteineeniso2709siirtoformaatissajamerkistökoodauksenavaikkapamarc8
. Mitenkäs se Voyagerista, Primosta ja muista järjestelmistä käy?
Euroopan yhteisen digitaalisen kirjaston Europeanan Data Provider -sopimuksessa (Europeana Aggregators’ Handbookin liitteenä, s. 44) on myös sovittu, että Europeanaan toimitettava data avataan (kts. artikla 4, Licence of rights for Metadata from Data Provider to
Third Parties, PDF:n s. 47). Epä-kaupallisuus -poikkeuksesta ollaan luopumassa, kuten Tapani vastikään kirjoitti Kansallisen digitaalisen kirjaston (KDK) asiakasliittymän blogissa, otsikolla Europeanan reunoilta. Ja KDK:honkin liittyy omat sopimuksensa, jossa tällaisista asioista sovitaan. KDK -pilotoinnissa meitä on vajaa tusina, seuraavassa KDK-aallossa kymmeniä lisää.
Miten me kirjastoalalla hoidettaisi toi valtioneuvoston periaatepäätöksen luonnoksen neljäs kappale? Asiakas-workshoppeja MARCista? Auts.
Helsingin Sanomat on tarttunut mahdollisuuteen keräillä vielä PR-pisteitä Open Data -buzzista julkaisemalla kustantamovertailunsa tuloksen datat (csv).
Helsingin Sanomat vertaili kustantajien kirjallista laadukkuutta antamalla pisteitä niiden julkaisemien kotimaisten kaunokirjojen saamille palkinnoille, ehdokkuuksille, myyntitilaston kärkisijoille ja käännöksille vuosina 2000–2010.
Tämä jos mikä kiinnostanee kirjastolaisia. Näitä voisi leipoa yhteen esim. kirjastojen kuvailudatan kanssa ja sitä kautta katsoa vaikkapa risteävätkö palkituimpien teosten asiasanat kirjastoon lainatuimpien teosten asiasanojen kanssa. Tämä edellyttää sitä, että lakkaamme piilottelemasta dataamme asiakkailta ja yhteiskunnalta, ja myös itseltämme ja kollegoiltamme.
Avoimen Dataan liittyvien, ilmaisten PR-pisteiden jako päättyy, kun hommasta tulee normaalitoimintaa, ja asiaahan siis odotellaan seuraavaan hallitusohjelmaan. Pistäkääs siis töpinäksi.
Hoi Tampere/PIKI, ette varmasti kerkeä avoimeksi dataksi bibliografisine datoinenne ennen Turkua/Vaskia :^) Kymppi vetoa!
Cory Doctorow: ”Näin kirja tuhotaan” (niin&näin № 65)
Tässä viimeinen osio Cory Doctorowin artikkelista Näin kirja tuhotaan, joka on julkaistu Ville Lähteen suomentamana Niin&Näin -lehdessä (ISSN 1237-1645) numero 65, kesä 2/2010. Teksti perustuu Royal Ontario Museumissa pidettyyn puheeseen ja transkripti löytyy verkosta.
Millainen olisi hyvä e-kirjan käyttäjäsopimus?
Älkää rikkoko tekijänoikeuslakia. Kolme sanaa! Eikä enempää tarvita kirjojemme tekijänoikeuksien ylläpitämiseen. Kaikki muu on vain lukijoiltamme varastamista. Lukijat ymmärtävät, mitä tuo sopimus merkitsee. He eivät ymmärrä, mitä iPhoneen ostetun äänikirjan sopimuksen 26 000 sanaa tarkoittavat. Eikä kukaan kirjojen kirjoittaja suostuisi moisiin sopimuksiin. Älkää vahingossakaan rikkoko.
Jos olette kirjastonhoitajia tai arkistonhoitajia, älkää ostako tallenteita, joihin liittyy epäreiluja käyttäjäsopimuksia. Älkää ennen kaikkea ostako tallenteita, johon liittyy hallintateknologiaa, älkääkä missään, siis missään tapauksessa ostako tallenteita, joiden hallintateknologia valvoo lukijoiden lukutottumuksia. Kirjastonhoitajat ovat kamppailleet lukijoidensa intellektuaalisten vapauksien puolesta vuosisatojen ajan. Nuo tyypit pitävät kirjastonhoitajia idiootteina. Lakatkaa olemasta idiootteja. On aika toimia kokoelmienne ja asiakkaidenne puolesta.
Lisenssejä, jotka vaativat kirjastonhoitajia luovuttamaan tietoja asiakkaiden lukutottumuksista? Kukaan kirjastonhoitaja ei tee sitä, koska me kaikki tiedämme, miten ihmisen käyttäytyminen muuttuu, kun heitä tarkkaillaan. Me tiedämme, että intellektuaalinen vapaus vaatii yksityistä tilaa.
Ottakaa selvää ACTA:n etenemisestä ja vaatikaa, että sopimusprosessi tehdään näkyväksi. Meidän on saatava tietää, mitä sopimuksessa sanotaan, ja siitä täytyy keskustella julkisesti. Tekijänoikeus ei saa olla salaisuuksia savuisissa neuvotteluhuoneissa vaan läpinäkyvyyttä, julkisuutta ja monenkeskeistä osallistumista.
Anti-Counterfeit Trage Agreement eli ACTA oli puheena myös IFLA 2010:ssä. Kyseessähän on siis salainen kauppasopimus, jossa on mukana sellaisia toimijoita kuten USA ja EU:n komissio (eli myös Suomi), mutta jota valmistellaan suljettujen ovien takana eikä edes Euroopan parlamentti saa sitä nähtäväkseen. ACTA on multilateraalinen sopimus, jolla on tarkoitus ohittaa nykyinen, Yhdistyneiden Kansakuntien (YK) immateriaalioikeuksista sopiva kansainvälinen elin World Intellectual Property Organization (WIPO). Ruotsin Piratpartietin Christian Engström totesi osuvasti IFLA 2010:ssä, että ACTAn kaltaisten multilateraalisten menettelyjen businesslogiikka on sama logiikka kuin mafialla.
Doctorow taas kirjoittaa, että WIPOlla on suunnilleen sama suhde tekijänoikeuslakiin kuin Mordorilla pahuuuteen.
Coryn kirjoitus käsittelee kirjaa ja kirjan omistamista ja sisältää paljon tärkeää viestiä meille kirjastolaisille. Akuutein viesti on IFLA 2010:nkin aikaan Twitterissä heitelty ilmaus, johon varmasti jokaisen kirjastoammattilaisen on helppo yhtyä:
En tiedä miten draconian on tapana kääntää, mutta perkeleellinen on melko hyvä kuvaus ACTA:sta ja sen luomisen prosessista.
Yleisemmin Cory kirjoittaa siitä, että e-kirjoihin liittyvät käyttäjäsopimukset (l. lisenssit) pyrkivät tuhoamaan kirjan, ja lukemiselle ja kirjoittamiselle rakentuvan länsimaisen kulttuurin. ”Kirja” ei tässä yhteydessä tarkoita tietenkään tiettyä kirjan fyysistä muotoa (selluloosalehdyköitä pyökki- tai vasikannahkakansien välissä tms.), vaan kulttuuritallennetta jonka voi lopullisesti ja peruuttamattomasti saada omistukseensa jonka omistamisesta ja käyttämisestä voi itse päättää. Omistamisesta katso Suomen tekijänoikeuslain 19 §, 1. momentti:
Kun teoksen kappale on tekijän suostumuksella ensimmäisen kerran myyty tai muutoin pysyvästi luovutettu Euroopan talousalueella, kappaleen saa levittää edelleen.
Totta kai Doctorow kirjoittaa kopioinnista ja sen keskeisestä merkityksestä kulttuurin prosessin keskiössä.
Hän mainitsee myös erään, erityyppisissä yhteyksissä esiin nousevan ja sangen kiusallisen faktan joka liittyy käyttödataan. Eli siihen, kuka lainaa mitäkin teoksia kirjastoista. Asiakkuuden hallinnan myötä on asiallista kysyä kirjastoilta, miten kirjasto hyödyntää tarkkoja tietoja asiakkaiden käyttäytymisestä, jota kertyy kirjastojen arkipäiväisten tiedonhaku- ja lainauksenvalvontaprosessien yhteydessä.
Vastaus on, ettei kerta kaikkiaan yhtään mitenkään.
Tosiasiassa voisimme aivan hyvin kertoa yhteiskunnalle mitä asioita käsitteleviä kirjoja ja lehtiä ihmiset tiettynä aikana tai tietyssä paikassa lainaavat. Olisi kiehtovaa nähdä esimerkiksi onko meneillään olevilla Helsingin juhlaviikoilla merkitystä kirjastoaineiston käyttöön. Jos haluaisimme, meillä olisi myös tieto esimerkiksi siitä, lukeeko henkilökuntamme alamme ammattikirjallisuutta tai miten self-help -oppaat korreloivat työttömyystilastojen kanssa.
Usein kuulee, etteivät kirjastot kerää ja käytä tätä tietoa siksi, että se loukkaisi ihmisten yksityisyyttä ja intellektuaalista vapautta johon Corykin viittaa ja josta kirjoitetaan paljon Eduskunnan kirjaston 2008 julkaisemassa teoksessa Paratiisi vai panoptikon–näkemyksiä ubiikkiyhteiskuntaan (ISBN 978-951-53-3054-3, PDF ISBN 978-951-53-3055-0). Haluaisin että asia todella olisi näin. Todellisuudessa uskon, että tuota tietoa ei koeta tärkeäksi, emmekä me kirjastolaiset osaa edes ajatella että sellaista dataa todella kertyy ja mitä valtavia mahdollisuuksia se tarjoaakaan. Tämä on tietenkin todella ankeaa.
Kansalaisten intellektuaalisten oikeuksien suojeluun vetoamiselta menee pohja välittömästi kun kirjasto lisensoi e-aineistoja asiakkaiden käyttöön. Tällöin juuri tuota käyttötietoa kertyy muiden toimijoiden iloksi, mutta ei kirjastojen itsensä iloksi. Äkkisiltään mieleen tulee mieleen suuri joukko toimijoita, joilta emme todellakaan yritä estää käyttäjiemme käyttötietojen keräämistä; EBSCO, Elsevier, WSOY (HS:n Digiarkisto), PressDisplay, Naxos (jos olet eri mieltä, kerro ihmeessä!). Päinvastoin, jotta pääsee edes selaamaan mitä on saatavilla noilta toimittajilta, on kirjauduttava kirjastotunnuksillaan. Jos olet käyttänyt Nelli-portaalia, et ole voinut välttyä huomaamasta sitä ”salli tietojeni luovutus kolmansille osapuolille” -ruksia.
Ehdotan että me kirjastot alamme aivan välittömästi, ollenkaan empimättä joko
- oikeasti suojaamaan kirjaston käyttäjien intellektuaalista vapautta ja estämään aineiston toimittajia keräämästä arkoja tietoja heistä, tai
- alamme itse hyödyntämään noita käyttötietoja ja myös pyrimme hyödyntämään yhteiskuntaa julkaisemalla tuota tietoa (varmasti esim. tutkijoita, poliitikkoja ja julkaisijoita kiinnostaisi tietää vaikkapa eri asiasanojen suosion trendejä eri asiakassegmenteissä)
Vieläkö tätä blogia lukee joku, jonka mielestä politiikalla ja kirjastoilla ei ole mitään tekemistä keskenään. Osaatko itse ovelle vai saatetaanko?
HelMet ja Open Data
HelMet -kirjastot (eli Helsingin, Espoon, Vantaan ja Kauniaisen kaupunginkirjastot) tekivät kansallisen Labs.kirjastot.fi -hankkeen johdolla pelinavauksen kirjastojen avoimeen bibliografiseen dataan kesäkuun alussa. Tiedoitteen julkaisi Labs 07.06.2010 ja asia huomioitiin välittömästi mm. Tietoviikossa ja Suomen kirjastoseuran uutisissa. Lisäksi siitä kirjoitti Julkinen data–johdatus tietovarantojen avaamiseen -oppaan (Liikenne- ja viestintäministeriö, 2010, ISBN 978-952-243-145-5, verkkojulkaisu ISBN 978-952-243-146-2) laatija Antti Poikola blogissaan sekä Tampereen kaupunginkirjaston ansioitunut verkkokirjoittelija Petri Tonteri Sorvipenkki-blogissaan.
Asiasta tiedotettiin myös kirjastoalan yhteisellä, Kirjastot.fi:n piirissä toimivalla Verkko-foorumilla ja siellä keskustelu lähtikin nopeasti käyntiin. Hurraa -huutoja kuultiin muutama, mutta purematta eivät ainakaan kaikki kirjastolaiset tällaista niele. Heikki Poroilan tekijänoikeuksiin liittyvän huomion jälkeen (siitä lisää alla), kritiikkiä kohdistettiin julkaisun sanavalintoja kohtaan koska vain Helsingin kaupunginkirjasto ja Labs mainittiin tiedotteessa sekä sitä seuranneessa uutisoinnissa. Espoo, Vantaa ja Kauniainen ilmeisesti kokivat jääneensä huomiossa paitsioon, ainakin joidenkin niissä toimivien ammattilaisten mielestä. Opetus: kuntayhteistyö on herkkää. Sinänsä olen onnellinen että ”kapitalistien persettä nuolevaa innovaatiohuuhaata!!” -nurina ilmeni vasta ”meidät pitää mainita myös!!” -nurinan jälkeen.
Kirjastoalan keskustelua seuratessa on muuten hyvä muistaa keskustelujen erittäin huono edustavuus; tuolla Verkko-foorumilla tätä käsittelevään keskusteluun on osallistunut alle 10 ihmistä, Suomessa on 10 000 kirjastoammattilaista, joista puolet yleisissä kirjastoissa ja HelMet-kirjastoissa meitä on jotain viitisen sataa. Päättäjiä on monesti turha toivoa näissä keskusteluissa tapaavansa, edes virastojen omia päättäjiä. Toivottavasti kuitenkin ovat edes lukeneet verkossa käytävää keskustelua. ELY-keskuksista sentään kuuluu toisinaan. Haluaisin kuitenkin tässä julkisesti ilmaista kiitokseni ja kunnianosoitukseni kaikille niille, jotka ovat tähän keskusteluun osallistuneet. Ilman teitä maailma olisi paha paikka. You know who you are! ❤
No niin seuraava, mielestäni merkittävä tapaukseen liittyvä kritiikki käsitteli asiasta päättämistä. Keskustelua ei kuulemma ole ollut. Tämä tietenkin riippuu kenen kanssa yleensäkin on tekemisissä, mutta asiaa puitiin korkeimmassa päättävässä elimessä eli HelMet-johtoryhmässä asiantuntijoiden avulla käsittääkseni noin vuosi ja alan tapahtumissa pidempään. Labsin piirissä tätä on käsitelty joka viikko. Lisäksi Kirjastolehdessä on ollut aiheesta Seppo Verhon artikkeli Kirjastotieto vapaaksi? joka kertoo ymmärrettävästi missä hommassa on kyse. Tietenkin kirjastoalaa yleisemmällä tasolla asiaa on käsitelty vaikka kuinka paljon sekä Suomessa että ulkomailla. Juu, asiaa ei ole puitu ollenkaan niin paljon kuin joitain muita alan puheenaiheita, mutta ei Labs tätä nyt ihan hatustaan ole vetäissyt koko hanketta.
Esiin nousivat luonnollisesti myös tekijänoikeudet. Itse asiassa useampaan kertaan kuin yhdesti. Yksi asia on se, muodostuuko luetteloivalle taholle tekijänoikeuksia bibliografisia metatietoja tuottaessa. Katso pohjalle Kirjastot.fi:n Tekijänoikeudet-foorumin keskustelut Luettelointitietojen tekijänoikeudet huhtikuulta 2009 sekä Kirjastotiedon tekijänoikeudesta joulukuulta 2009 (joka viittaa tuohon yllä mainitsemaani Sepon Kirjastotieto vapaaksi? -artikkeliin).
Vaikka kirjasto onkin julkaisujen metadatan paras ja erinomaisin hallitsija ja käsittelijä, niin käytännössä suuri osa luettelointidatasta oikeasti tehdään muualla kuin kirjastoissa. Suomessa yleiset kirjastot ostavat luettelointitietueita BTJ:ltä, entiseltä Suomen kirjastoseurasta irrotetulta Kirjastopalvelulta. Ulkomaisilta kollegoilta jos kysyy luetteloinnista, nousevat kulmakarvat helposti: ”luetteloida? Miksi me luetteloisimme itse? Mehän olemme kirjastoammattilaisia!” Katso tästä aiheesta Judy Lutherin NISOlle ja OCLC:lle laatima white paper Streamlining Book Metadata Workflow (1.5MB PDF). BTJ erittäin tärkeän luettelointipanoksen lisäksi kirjastot vaihtavat luettelointietoja myös keskenään, erityisen tärkeä kansallinen tietokanta on yliopistokirjastojen yhteinen Linda. Tekijänoikeuksiin liittyy paljon epävarmuutta ja kykenemättömyyttä hankkia tietoa päätöksenteon tueksi. Niin tai näin, yleinen kanta on ettei yksittäisiä, määrämuotoista luettelointitietueita voida käsittää teokseksi; sitä ei tämän tulkinnan mukaan siis suojaa tekijänoikeus, kuten se ei suojaa ponia, juoksemista tai kausaatiotakaan.
(välihuomio: onkohan sattumaa että kun kuuntelen Behemothia ja googlaan ”tekijänoikeus”, saan tasan 666 000 osumaa 😉
Sen sijaan kokonaisuus ajatellaan olevan suojattu Tekijänoikeuslain tietokantapykälän 49§ mukaan ja sen oikeudet kuuluvat työnantajalle (Tekijänoikeuslaki 40§ 3. mometti). Toissapäivänä 23.06.2010 BTJ julkaisi tätä asiaa huomattavasti valottavan tiedoitteen BTJ mukaan HelMetin avoimen datan hankkeeseen. En vielä tiedä mitä tästä pitäisi oikeastaan ajatella, mutta BTJ:n kanssa on sovittu puolen vuoden karenssiaika avoimelle julkaisulle. Tällä BTJ voi suojata omaa markkina-asemaansa ja toisaalta pysytellä mukana kirjastoalaakin ravistelevassa vapaus- ja avoimuusliikehdinnässä.
Kolmas toistaiseksi esiin noussut ja relevanttina pitämäni kritiikki Open Dataa ja HelMetin datan avauspyrkimystä kohtaan koskee kirjaston monopolia tämän metadatan tarjoajana yhteiskunnalle. Todellisuudessa uskon että BTJ voi oikein mielellään myydä luettelointitietueita muillekin toimijoille kuin kirjastoille. Lisäksi HelMet-tietokannan voi kyllä lupaa kysymättä kopioida itselleen joko osittain tai kokonaisuudessaan ilman että kirjasto erityisesti tarjoaa sitä ladattavaksi. Voin näyttää miten se tapahtuu tai katso esimerkki niin tekemisestä postauksessani Analyysi Helsingin kaupunginkirjaston aihepakettien ajallisesta kattavuudesta.
En tässä nyt halua käydä toistelemaan yleisiä Open Data -argumentteja julkishallinnon palvelutuotannon roolista nimenomaan mahdollistajana, datalukutaidon opettamisesta, siitä että datan arvo lisääntyy käytössä eikä vähene, innovaatiopolitiikasta tai kysymystä ovatko kirjaston asiakkaita vain yksityishenkilöt vai koko yhteiskuntaa tai siitä onko kirjasto itse oikeasti kykenevä kehittämään datan käsittelyä vai voisiko tuolla ulkona olla joku, jolla voisi olla jotain ideoita, taitoja tai muita resursseja joita meillä ei itsellämme ole, järjestelmätoimittajien monopolista julkishallinnon toimintojen kehittäjinä. Näitä argumentteja löydät Julkinen data -oppaasta (toivon että tämä kirjastolaisten käymä keskustelu on hyödyllistä myös muille avointa dataa harkitseville toimijoille ja että muut voivat oppia tästä jotain). Jätän myös sekä GATS-sopimuksen että egalitaristisen liberalistisen yhteiskuntafilosofian pois tästä kirjoituksesta. Myöskään sitä, tarvitseeko yleisen kirjaston ylipäätään olla linjassa demokraattisen poliittisen järjestelmän kanssa ei käsitellä tässä postauksessa.
Neljänneksi, huoli tietokannan eheydestä ja kontrollista on myös noussut esiin, mutta uskon että niiltä osin kyseessä on lähinnä väärinkäsitys. Ei ilmeisesti ole riittävän selvästi ilmaistu kirjastolaisille, että datan avaaminen tuottaa kopioita HelMet-tietokannasta, eivätkä niihin tehdyt muutokset heijastu takaisin kirjaston omaan tietokantaan tai HelMet.fi -palveluun. Kirjastoilla on näillä näkymin itseasiassa erittäin rajalliset mahdollisuudet hyötyä muiden toimijoiden tekemistä muutoksista kyseiseen tietokantaan, valitettavasti
Tässä esimerkki kirjastojen käyttämästä MARC-muotoisesta luettelointitietueesta:
LEADER 00000nam 2200000 4500 001 9517680422 005 20021115040347.0 008 990215s1999 xx fin 020 951-768-042-2 (sid.) 041 1 fin|h(eng) 080 32 080 1 084 11.3 100 1 Hobbes, Thomas 245 10 Leviathan, eli, Kirkollisen ja valtiollisen yhteiskunnan aines, muoto ja valta /|cThomas Hobbes ; suomentanut Tuomo Aho 260 Tampere :|bVastapaino, |c1999 300 592 s. :|bkuv. ;|c22 cm 546 suomi 574 T.Karppanen|b9902HELAIK 575 |b9905espaik 577 |b0005vanaik 588 321 589 11.3 590 11.3 599 KIRJA / BOK 650 4 yhteiskuntafilosofia 650 4 valtiofilosofia 650 4 valta 650 4 kirkko 700 1 Aho, Tuomo. 740 0 Kirkollisen ja valtiollisen yhteiskunnan aines, muoto ja valta 765 0 |tLeviathan or the matter, forme and power of a commonwealth ecclesiasticall and civill, 1651 913 00 HOBLEKJ99000
Nyt julkaistussa HelMet-tietokannan -dumpissa tietueet ovat MARCin XML-muodossa (MARCXML) ja äskeinen näyttää tältä:
<record> <leader>01070nam 2200361 4500</leader> <controlfield tag="001">9517680422</controlfield> <controlfield tag="005">20021115040347.0</controlfield> <controlfield tag="008">990215s1999 xx fin </controlfield> <datafield tag="020" ind1=" " ind2=" "> <subfield code="a">951-768-042-2 (sid.)</subfield> </datafield> <datafield tag="035" ind1=" " ind2=" "> <subfield code="a">(FI-HELMET)b1297761</subfield> </datafield> <datafield tag="041" ind1="1" ind2=" "> <subfield code="a">fin</subfield> <subfield code="h">(eng)</subfield> </datafield> <datafield tag="080" ind1=" " ind2=" "> <subfield code="a">32</subfield> </datafield> <datafield tag="080" ind1=" " ind2=" "> <subfield code="a">1</subfield> </datafield> <datafield tag="084" ind1=" " ind2=" "> <subfield code="a">11.3</subfield> </datafield> <datafield tag="100" ind1="1" ind2=" "> <subfield code="a">Hobbes, Thomas</subfield> </datafield> <datafield tag="245" ind1="1" ind2="0"> <subfield code="a">Leviathan, eli, Kirkollisen ja valtiollisen yhteiskunnan aines, muoto ja valta /</subfield> <subfield code="c">Thomas Hobbes ; suomentanut Tuomo Aho</subfield> </datafield> <datafield tag="260" ind1=" " ind2=" "> <subfield code="a">Tampere :</subfield> <subfield code="b">Vastapaino, </subfield> <subfield code="c">1999</subfield> </datafield> <datafield tag="300" ind1=" " ind2=" "> <subfield code="a">592 s. :</subfield> <subfield code="b">kuv. ;</subfield> <subfield code="c">22 cm</subfield> </datafield> <datafield tag="546" ind1=" " ind2=" "> <subfield code="a">suomi</subfield> </datafield> <datafield tag="574" ind1=" " ind2=" "> <subfield code="a">T.Karppanen</subfield> <subfield code="b">9902HELAIK</subfield> </datafield> <datafield tag="575" ind1=" " ind2=" "> <subfield code="b">9905espaik</subfield> </datafield> <datafield tag="577" ind1=" " ind2=" "> <subfield code="b">0005vanaik</subfield> </datafield> <datafield tag="588" ind1=" " ind2=" "> <subfield code="a">321</subfield> </datafield> <datafield tag="589" ind1=" " ind2=" "> <subfield code="a">11.3</subfield> </datafield> <datafield tag="590" ind1=" " ind2=" "> <subfield code="a">11.3</subfield> </datafield> <datafield tag="599" ind1=" " ind2=" "> <subfield code="a">KIRJA / BOK</subfield> </datafield> <datafield tag="650" ind1=" " ind2="4"> <subfield code="a">yhteiskuntafilosofia</subfield> </datafield> <datafield tag="650" ind1=" " ind2="4"> <subfield code="a">valtiofilosofia</subfield> </datafield> <datafield tag="650" ind1=" " ind2="4"> <subfield code="a">valta</subfield> </datafield> <datafield tag="650" ind1=" " ind2="4"> <subfield code="a">kirkko</subfield> </datafield> <datafield tag="700" ind1="1" ind2=" "> <subfield code="a">Aho, Tuomo.</subfield> </datafield> <datafield tag="740" ind1="0" ind2=" "> <subfield code="a">Kirkollisen ja valtiollisen yhteiskunnan aines, muoto ja valta</subfield> </datafield> <datafield tag="765" ind1="0" ind2=" "> <subfield code="t">Leviathan or the matter, forme and power of a commonwealth ecclesiasticall and civill, 1651</subfield> </datafield> <datafield tag="913" ind1="0" ind2="0"> <subfield code="a">HOBLEKJ99000</subfield> </datafield> </record>
MARC on ilmaisuvoimainen, muttei todellakaan kovin nykyaikainen datamuoto. Ongelma on muun muassa se, ettei se ilman käytössä ollutta luettelointisäännöstä todella sitoudu muuhun maailmaan. Esim. se, että ylläolevassa tietueessa on asiasanat (kentissä 650‡a) yhteiskuntafilosofia, valtiofilosofia, valta sekä kirkko ei auta yhtään, ellei tiedossa ole sitä, mitä asiasanastoa tai ontologiaa käytetään, missä se sijaitsee ja miten sitä käytetään. Lisäksi tekijänä on mukamas Hobbes, Thomas mutta tämä ei ole viittaus henkilöön, vaan tietokoneen kannalta täysin merkityksetön merkkijono. Toisinaan toistellaan mantraa ”context is king”. Kirjastodataa käsitellessä se on syytä esittää muodossa ”context is lost”.
MARCia ja MARCXML:ää voidaan kuitenkin koneellisesti leipoa, tavoitteena vaikkapa Open Linded Data tai tilastoanalyysi kirjaston tarjoamasta aineistosta. Tiedän että parillakin eri taholla on paraikaa pyrkimyksiä HelMetin datan muokkaamiseen juuri tähän suuntaan. Tätä ja avointa kirjastodataa yleensäkin käsiteltiin ELAG 2010-konferenssissa Helsingissä samaan aikaan kun HelMetin avaaminen tapahtui. HelMetissä käytössä oleva Innovative Millenium kirjastojärjestelmä ei todellakaan mahdollista mitään tällaista, mutta tiedon irroittaminen kirjastojärjestelmästä avaa aivan erilaiset mahdollisuudet käsitellä dataa halutulla tavalla.
Hyvältä näyttää, eli jatketaan! Kirjastot.fi:n Labs sekä HelMet avasivat pelin. Seuraavaksi haastan Kansalliskirjaston ylläpitämän kansallisbibliografian Fennican mukaan Open Data -liikkeeseen.
Käyttödata auki
Vielä yksi blogikirjoitus. Tämä on vika tänään. Lupaan. Tsekatkaa Seppo Verhon juttu Kirjaston kätketty aarre Kirjastolehden blogista. Mulla on ollut vireillä demo, jolla voitaisi tehdä juuri tällaista trendien kartoitusta. Siitä olisi iloa maailmalle, suomalaiselle innovaatioympäristölle, kirjaston tehtävälle kansalaisten osallistumisen mahdollistajana, hyvälle virkamiestavalle, oikeistolaiselle politiikalle sekä (tämä argumentti varmasti vakuuttaa kirjastolaisetkin idean hyvyydestä, elleivät argumentit vakuuttaneet) kokoelmanhallintatyölle.