DogeDC, kirjastotieteen ja kirjastojen metadataprosessien ytimessä.
Tag Archives: metadata
Avoin vastaukseni Googlelle suomalaisen bibliografisen kirjastodatan saatavuudesta

Sähköpostissani oli Cycling for librariesista palatessa tälläinen viesti Googlelta
From: Google
To: Mace
Subject: VASKI feed?Hei,
terveisiä Googlelta.
Olen Googlen kirjahakuprojektissa mukana, ja osa sitä on erilaisten kirjatietokantojen haaliminen. Huomasin VASKI-dumpin täällä http://data.kirjastot.fi/data.html mutta se on jo vuodelta 2010. Tiedätkö onko siitä mahdollisesti uudempaa versiota, vai olisiko peräti saatavilla säännöllinen dumppi?
Huomasin myös Helmet-datan, mutta sen CC-BY tekee siitä hieman hankalammin käytettävän
Lyhyet vastaukset kysymyksiin:
- valitettavasti ei
- pahoittelen, CC0 tiedetään kyllä sallivammaksi lisenssiksi
Kirjastojen bibliografinen metadatahan on hajaantunut sinne tänne, eikä ole mitään yhteistä laaria josta sitä voisi itselleen hankkia. Lähimpänä tällaista yhteisluetteloa lienee BTJ:n AllFons -palvelu ja suomenkielisen kirjallisuuden osalta kansallisbibliografia Fennica. Tulevaisuudessa ehkä sitten Melinda ja KDK, kunhan ne saadaan kasattua. Molemmat ovat sitoutuneet avoimeen dataan. Esimerkiksi Saksan kansalliskirjasto on kunnostautunut datansa saatavuuden osalta.

Googlen Knowledge Panel
Tässä vielä taustaa, tilannekatsaus sekä näkemyksiäni kirjastojen avoimeen (bibliografiseen) dataan:
Vaskin osalta tilanne on tällä hetkellä se, että alkuperäisen, itse kätilöimäni avoimena datana julkaisun jälkeen dumppia ei ole päivitetty ja avoin data ei ilmeisesti ole strategista toimintaa Vaskissa. En ole siellä enää töissä, joten parhaiten ja virallisesti asiaan osaa organisaation näkökulmasta vastata palvelujohtaja Ulla-Maija Maunu (sähköposti muotoa etunimi.sukunimi@turku.fi). Jos kirjastojen bibliografisesta datasta olisi uudempia versioita olemassa, ne olisivat tuolla http://data.kirjastot.fi/data.html:ssä, joka on kirjastojen yhteinen, simppeli ”datarepositorio”. Olen lähettänyt Vaskin datan myös Datahubiin.
Pääkaupunkiseutua ja joitain muita poikkeuksia lukuunottamatta muissakin Suomen yleisissä kirjastoissa data asustaa järjestelmäpalvelua tarjoavan Axiellin siipien suojissa. Kirjastot saavat omat datansa sieltä käyttöönsä Axiellin kirjastojärjestelmien kuten Auroran, PallasPron tai Origon kautta sekä niihin liittyvien web-liittymien kautta, sekä SRU-ohjelmointirajapinnalla johon pääsy tuppaa nyt Auroraan siirtymisen myötä olemaan rajoitettua. Pääsyn omaan raakaan dataansa kirjasto voi ostaa Axiellilta kuten marras-joulukuussa 2012 tekemässäni PIKI-tietokannan siivousmenetelmät -hankkeessa tehtiin (kts. projektinhallintatyökalun+työpäiväkirjan issue #3325). Axiellilta voi kysellä toimitushalukkuutta, -aikoja sekä -hintoja, ja katsoa lisäksi yllä mainitun PIKI-casen raportin talousosiota.
Axiellin Origo-järjestelmää käyttävät kirjastot ovat hyvässä asemassa, sillä ne voivat itse ottaa bibliografisen datansa ulos MARC-muodossa. Myös akateemisissa kirjastoissa, AMK:ien kirjastoissa sekä Kansalliskirjastolla on myös aika hyvät oltavat, koska ne pystyvät siirtelemään (ainakin bibliografista) dataansa ulos Voyager ja Aleph-järjestelmistään aika kitkattomasti.
Kansalliskirjaston liidaaman Kansallinen Digitaalinen Kirjasto -hankkeen on ollut tarkoitus saada datat liikkeelle kirjastojen omista järjestelmistä, ja se onkin edellytys koko KDK:n toiminnalle. Sama pätee EU:n Europeanaan. Lyhyesti sanoen sekä KDK että Europeana molemmat pyrkivät yhdistämään kirjastojen (sekä arkistojen ja museoiden) haut yhteen weppisivustoon. Syksyllä 2010 Turkuun lähtiessäni toivottiin OAI-PMH haravointirajapintaa yleisten kirjastojen bibliografisen datan siirtelyyn, mutta tietojeni mukaan tilanne on edelleen sama kuin Turusta lähtiessäni 2012 kesällä, eli Axiell ei valitettavasti ole saanut sitä vielä toimitettua. Kansalliskirjasto jo ostikin kaikille yleisille kirjastoille ja maksettua hintaa voi kysellä Kansalliskirjastolta tai Opetus- ja kulttuuriministeriöstä (KDK:n blogikirjoitus aiheesta ei valitettavasti ole enää saatavilla, valitettavaa ja hieman ironista sinänsä). Aihetta käsitellään Vaski-kirjastojen KDK-asiakasliittymän piloinnin loppuraportissa.
Tuo on siis tilanne käytännön datan liikuttelun kannalta. Helsingin alueella Helsinki Region Infoshare on kunniakkaasti edistänyt avoimen datan etenemistä, ja sen toiminta on nyt vakiintumassa osaksi Helsingin kaupungin Tietokeskusta. Siitä on tietenkin vielä paljon, paljon matkaa siihen, että virastojen, kuten Helsingin kaupunginkirjaston data oikeasti liikkuisi niin näppärästi kuin sen pitäisi. Helsingin kaupunginkirjastolla voinee jutella Jussi Vehviläisen ja Antti Pakarisen kanssa, HRI:llä Ville Melonin ja Tietokeskukselta löytynee joku myös.
Paljon puhuttujen immateriaalioikeuksien osalta tilanne on selvä, sillä kirjasto on itse tietokantansa sisällön ylläpitäjä (ei Axiell eikä sisällöntuottaja BTJ tai Kirjavälitys), ja näinollen myös immateriaalioikeuksien omistaja (Tekijänoikeuslaki 49 §). Lisäksi tekijänoikeuslaki takaa sille jolla on oikeus käyttää tietokantaa myös oikeuden tehdä siitä kappaleita (25 j § mom. 4), ja erikseen kumoaa lisenssiehdot jotka pyrkivät haittaamaan tätä (25 j § mom. 5). Lisäksi joku keskeinen oikeus päättyy 15 vuoden päästä tietokannan yleisölle saattamisen jälkeen (49 § mom. 2), mutta minulle on hieman epäselvää tarkalleen mikä.
Kollegiaalisia terveisiä sinne Googlelle lähettäen
Mace
Helsingin kaupungin tietokeskuksessa (ml. Helsinki Region Infoshare) urkkimassa
Olin huhtikuun 23. tutustumassa Helsingin kaupungin tietokeskuksen toimintaan. Hyvä että töissä kehotetaan nuuskimaan vähän muualla, Kirjasto 10:stä on oltu esim. Kaupunginkirjaston tapahtuma- ja markkinointiyksikössä, Arabian ja Tapanilan kirjastoissa ja hankinnassa.
Olen käynyt Ympärätalossa sijaitsevassa Tietokeskuksen kirjastossa jokusen kerran in-cognito nuuskimassa, ja tunnen Tietokeskuksen ja Forum Viriumin yhteistä Helsinki Region Infoshare -hanketta (HRI) sen voimakkaan roolin vuoksi, jonka se on ottanut suomalaisessa avoimen datan (so. open data) parissa tässä parin vuoden ajan. Lämpimiä terveisiä sinnepäin!! Muutoin Tietokeskus on ollut minulle sangen tuntematon elin.
Helsingin kaupungin tietokeskuksen historia yltää peräti sadan vuoden päähän ja tuoreimman vuosikertomuksen (varo PDF) mukaan siellä on hyvä meininki.
Helsingin kaupungin tietokeskus on tilaston, tutkimuksen ja arkistotoimen asiantuntija- ja vastuuorganisaatio. [Se] hankkii, tutkii, välittää ja säilyttää tietoa Helsingistä ja sen alueista – nykyhetkestä, menneisyydestä ja tulevaisuudesta.
Tietokeskuksen, tuttavallisemmin Tieken webbisivut löytyvät osoitteesta http://www.hel.fi/hki/Tieke/fi/Etusivu, ja kaupungin Helmi-intrassa on heillä oma osionsa myös. Tietokeskuksessa on oma kirjasto, jonka olemassaolo oli minulle jonkinlainen mentaalinen hyppylauta tutustumiskäynnille. Kirjastossa työskentelee kolmisen henkilöä, Tiekessä kokonaisuudessaan joku viitisenkymmentä. Kyselin kyllä kaikkien kirjastoihmisten koulutus- ja työtaustat mutta valitettavasti unohdin ne jo. Tietokeskuksen kirjasto palvelee sekä tietokeskusta itseään, mutta on myös avoin kaikille. Avoimuus on näin yleisen kirjaston piirissä kasvaneen kannalta hieman erilaista, sillä Tietokeskus on lukittujen ovien takana. Anyways niille jotka haluavat siellä käydä, sisäänkäynti on Ympyrätalon nurkalla. Kirjaston henkilökunnan mukaan tietopalveluhommia hoidetaan pitkälti sähköpostitse. Kirjaston kokoelmaa käyttää lähinnä Tietokeskuksen oma väki, joskin tutkijoiden ja muiden tyyppien kiinnostus kirjastoon tilattuja lehtiä (varo PDF) kohtaan jättää toivomisen varaa. Minun on ulkopuolisena vaikea arvioida miten hyvin Tietokeskus kirjastoaan hyödyntää, ja millainen rooli kirjastolla todellisuudessa on. En sen tarkemmin tivannut Tietokeskuksen henkilökunnalta. Sinällään kirjasto sijaitsee fyysisesti hyvällä paikalla, Tietokeskuksen pitkän, kaarevan käytävän varrella.
Tietokeskuksen kirjaston tietokanta löytyy verkosta, ja järjestelmänä on PrettyLib. Yksi mietittävä asia on, olisiko hyvä että Tietokeskuksen kirjaston kaltaiset kirjastot olisivat mukana HelMetissä tm. alueellisessa konsortiossa… Vaskissahan niitä on ollut, samoin PIKissä. Ja (Me)linda ja KDK -yhteydet tulevat mieleen myös. Ovat kuitenkin mukana suomalaisten erikoiskirjastojen verkostossa.
Tapasin Tietokeskuksella myös HRI:n Ville Melonin sekä Hami Kekkosen. Siihen liittyykin mukavia uutisia, nimittäin kolmivuotisen HRI -projektin hartiavoimin puskemat avoin data -jutut juurrutetaan Tietokeskukseen. Tämä on tietenkin hieno homma, ja auttaa meitä muita virastoja saamaan datamme liikkeelle. Helsingin kaupunginkirjastolta onkin jo jonkin verran dataa liikkeellä, ja katalogista löytyvää, muidenkaan julkaisemaa dataa ei tarvitse kauaa selailla ennenkuin tulee ideoita miten sitä voisi käyttää omiin tarpeisiin. HRI:n ylläpitämä datakatalogi varmaankin siirtynee Tietokeskuksen haltuun. Rönsynä todettakoot, että paraikaa Gentissä meneillään olevassa ELAG -konferenssissa (Twitterissä #elag2013) oli työpaja kirjastojen suhteesta tutkimusdataan, ja siellä Joss Winn puhui datakatalogiohjelmisto CKANista ja sen kehittymisestä. ELAGin videotaltionnit tulevat nettiin ensi viikolla.
Avoin data on monille tätä lukeville varmaan suunnilleen tuttu ilmiö, josta lisää esim. HRI:n sivuilla. Datan avaaminen on helppoa ja pakollista (ja hauskaa), ja HRI johdattelee kädestä pitäen. Avoin data helpottaa datan käyttöä sekä oman viraston ulkopuolella (esim. Tietokeskuksessa tai tutkimuksessa), sekä myös viraston sisäpuolella (esim. luettelointitoimiston ulkopuolella).
HRI:n lisäksi Tietokeskuksella käynnissä ehkä mielenkiintoisinta oli kaupunkitutkimuksen tutkimusohjelma Tietoa Stadista. Sitä on tehty muutaman vuoden välien (nyt 2010-2015).
Kaupunkitutkimusosaston toiminnan päälinjat ja keskeiset tutkimushankkeet määritellään kaupunginhallituksen hyväksymässä Helsingin kaupungin tutkimusohjelmassa. Tutkimusohjelma tehdään joka kolmas vuosi, ja sen keskeisenä tavoitteena on paitsi suunnata kaupungin tutkimusvoimavarat tehokkaasti ja tuloksellisesti, myös aktivoida, koordinoida ja konkretisoida Helsingin harjoittamaa tutkimusyhteistyötä.
Sisällysluettelo tässä (sori kopipeistattu joten näyttää vähän pahalta)
- TILASTO- JA TUTKIMUSTOIMINNAN STRATEGISET SUUNNAT VUOSILLE 2011–2015 11
- TIETO PÄÄTÖKSENTEON TUKENA 11
- TILASTO- JA TUTKIMUSTOIMINNAN ORGANISOINTI 12
- VAHVISTUVA KORKEAKOULUYHTEISTYÖ 13
- SEUTUYHTEISTYÖ JA LAAJENEVA TIETOPALVELU 14
- TIEDON SAANNIN TURVAAMINEN JA YHTEISTYÖ TIEDON TUOTTAJIEN KANSSA 15
- KANSAINVÄLINEN TOIMINTA 15
- TIETOJEN KÄYTETTÄVYYS JA JULKAISEMINEN 16
- HELSINKI-TIEDON KESKEISET TEEMAT 18
- 2. HELSINGIN KAUPUNGIN TILASTO-OHJELMA 2011–2013 21
- HELSINKI-TILASTON VAKIINTUNEET TUOTTEET JA PALVELUT 21
- PERUSTIETOVARANNOT JA TILASTOJULKAISUT 21
- TIETOKESKUKSEN YLLÄPITÄMÄT TIETOJÄRJESTELMÄT JA PAIKKATIETOJEN KEHITTÄMINEN 25
- TIETO- JA ASIANTUNTIJAPALVELUT 26
- ASIANTUNTIJOIDEN VERKOSTOT JA YHTEISTYÖKUMPPANIT 27
- HELSINKI-TILASTON KEHITTÄMISHANKKEET VUOSILLE 2011–2013 28
- ASUMINEN, KAUPUNKIRAKENNE JA YMPÄRISTÖ 28
- HYVINVOINTI, TERVEYS JA PALVELUT 32
- KUNTATALOUS, TYÖMARKKINAT JA KILPAILUKYKY 35
- PERUSTIETOVARANTOJEN KEHITTÄMINEN 36
- TIETOVARANTOJEN AVAAMINEN, HALLINTA JA KÄYTETTÄVYYDEN PARANTAMINEN 37
- HELSINKI-TILASTON VAKIINTUNEET TUOTTEET JA PALVELUT 21
- 3. HELSINGIN KAUPUNGIN TUTKIMUSOHJELMA 2011–2013 38
- 3.1 ASUMINEN, KAUPUNKIRAKENNE JA YMPÄRISTÖ 39
- 3.2 DEMOKRATIA JA HALLINTO 45
- 3.3 HYVINVOINTI, TERVEYS JA PALVELUT 48
- 3.4 KAUPUNKIKULTTUURI 55
- 3.5 KUNTATALOUS, TYÖMARKKINAT JA KILPAILUKYKY 59
Ohjelma löytyy netistä (varo PDF), ja on kiinnostavaa luettavaa. Siitähän selviää mitä tietoa Helsingistä on tiedossa, eli metatietoa siitä mitä tietoa meillä on tulevaisuudessa. Ohjelma on kehitetty koko Helsingin kaupungin laajuisena yhteistyönä, joten kaupunginkirjastollakin on ollut mahdollisuus vaikuttaa ja osallistua siihen. Ohjelmaa lukiessa selviää millaisten toimijoiden kanssa Tieke tekee tutkimusyhteistyötä. Linkkaan tässä nyt tilaisuuden tultua Jaani Lahtisen tammikuiseen luentoon Lainaustiedot kirjaston johtamisen työkaluna.
Tietokeskuksen muista julkaisuista mainittakoot Helsingin tila ja kehitys 2013 (varo PDF), neljännesvuosittain julkaistava Kvartti, sekä Helsingin seudun aluesarjat -tietokanta (sis. raakaa dataa)
Vierailuni päättyi eläväiseen kierrokseen kaupunginarkistossa, joka on myös osa Tietokeskusta. Kiitos vieraanvaraisuudesta ja virka-avusta Tietokeskukseen!
Muistutus: metadata on sontaa
Cory Doctorow listasi vuoden 2001 esseessään Metacrap: Putting the torch to seven straw-men of the meta-utopia seitsemän syytä miksi metadata on sontaa emmekä elä meta-utopiassa kuten jotkut ehkä haluaisivat:
- Ihmiset valehtelevat
- Ihmiset ovat laiskoja
- Ihmiset ovat tyhmiä
- Mahdoton tehtävä – tunne itsesi
- Skeemat eivät ole neutraaleja
- Mittarit vaikuttavat tuloksiin
- On useampi kuin yksi tapa kuvailla jotain
(via @brinxmat, Defining/Defying reality: the struggle towards relevance in bibliographic data)
Kuka nää on luetteloinu?
Jos kirjallisuutta luetteloitaisi ja kuvailtaisi kuten digitaalisia pelejä luetteloidaan ja kuvaillaan, kaikilla kirjoilla olisi sisällönkuvailuna asiasanat kirjat, kirjallisuus sekä selluloosa. Huomautuskentässä voisi kertoa mitä vaaditaan käyttämiseen, esim. ”valot, vähintään yksi käsi, lukutaito 2000-luvun suomen kielellä”. Toisessa huomautuksessa voisi mainita että lainausoikeuden on myöntänyt Suomen tekijänoikeuslaki. Oheisessa kuvassa olevan teoksen nimeke olisi jotain tämän tyyppistä: Bibliografnen valvonta [Painettu aineisto] : Johdatus luetteloinnin ja sisällönkuvailun menetelmiin : Kirja. Kannessa mainittuja tekijöitä ei olisi olemassakaan eikä tekijät olisi muutenkaan mitenkään merkittävä asia. Poikkeuksena voisivat olla elämäkerrat, joiden tekijöinä olisi ehkä ne henkilöt/bändit josta ko. teos kertoo.
Aineistolajit eivät ole aineistolajeja, sisällönkuvailu ei kuvaile sisältöä, nimeke ei kerro nimekettä, tekijöitä ei kirjata ensinkään… onkohan kirjastojen luettelointisäännöt ja sovellusohjeet pitkäaikaissäilytyksen piirissä? Tästä datasta ei nimittäin tulevaisuuden ihmiset ota kyllä mitään tolkkua ilman niitä. LOL olisikin hauska joutua joskus päättelemään datasta että mitä oikeastaan sillä oli tarkoitus kuvata. Jos esim. Vaskia on uskominen, keskeisin kulttuurin kyseisen osa-alueen tekijä on Metallica, joka on todellisuudessa vaari-ikäinen power-rokkia soittava yhtye, jonka huippuvudet sijoittuvat minun ikästeni varhaisnuoruuteen.
Olen miettinyt ja suorastaan seuraillut pelien luettelointia muutama vuosia Vaskissa, HelMetissä, PIKIssä, Aallossa sekä Fennicassa, tilanne vaikuttaa onneksi olevan hitaasti paranemaan päin. Mistä nää tietueet oikein tulee? BTJ:ltä? Alalla on paljon kaikenlaisia hauskoja työ- ja ohjausryhmiä, ja niihin osallistuminen onkin mainio mahdollisuus saada kaffea ja ehkä pullaakin neljästi vuodessa. Mikä työryhmä ohjaa pelien luettelointia?
Ja tietenkin avauduin myös Kirjasto-kaapelilla:
Moi, tietääkö joku onko olemassa jotain tahoa joka yhtään kattoisi konsoli- ja tietskapelien yms. luetteloinnin perään? Sekä bibliografisessa kontrollissa että sisällönkuvailussa olis vielä skarpattavaa, ja ennenkaikkea yhtenäistettävää muiden julkaisujen luetteloinnin kanssa. BTJ:ltä nää tietueet kai tulee, mutta onko tähän jotain ohjausryhmää tai jotain?
Jos alkaisi viimein – about 30 vuoden jälkeen – kirjaamaan peleihin tekijät (joo pelit asuu tietokoneessa, mutta kyllä ne on ihminen ihan oikeeasti tehny) ja vaikka joku yhteinen ontologia pelityypeistä, ni päästäis jo ihan kivaan alkuun.
Yliopistossa mulle opetettiin että just tässä me ollaan ihan mielettömän hyviä.
Jälkiajatuksia kirjastojen avoimen datan semmasta Jyväskylässä
[kieltämättä asiaan liittymätön, mutta dubstepin tahtiin skänkkäävä kissa 3D:nä]
Torstaina puitiin Jyväskylän kaupunginkirjaston emännöimänä ja Antti Poikolan fasilitoimana kirjastojen suhdetta avoimeen dataan. Tapahtuman muistiinpanot voi, ja kannattaa syynäillä yhteisestä muistiosta. Antti myös videoi alustukset (Antti Poikola, Antti Pakarinen, Petri Tonteri ja minä, 1 tunti 12 min.) ja työpajailun jälkeisen loppukeskustelun (40 min).
Täydentelin muistiota vielä, esim. näkemystäni BTJ:n suhteesta tietokantojemme omistukseen immateriaalioikeuksien näkökulmasta, muutamia ilmassa olevia ideoita ja silmäilin muutenkin muistiinpanoja torstaita hahmottaakseni. Seminaarissa keskustelu pyöri varsinaisen avoimen datan ympärillä toki, mutta kuten noista muistiinpanoistakin ilmenee, monesti tuli esille sekin, että meillä itsellämme ei ole pääsyä omiin datavarantoihimme tai mielenkiintoinen data tuntuu jatkuvasti valuvan näppiemme läpi. Käyttöideoita on vaikka kuinka paljon. En näe perinteisillä perusjärjestelmätoimittajillamme kovin kaksista roolia tässä, joten ei muuta kuin aloite omiin käpäliin vaan! 🙂
Sangen selvä tahtotila asiasta on: datat auki. Olisi tietenkin hyvä saada tarkasteltaviksi ne argumentit ja ongelmat miksi datamme ei ole avointa, ja sitten ratkoa ne.
Nyt on sopivasti myös se aika vuodesta kun kirjastoissa koostetaan tilastoja OKM:lle ym. toimittamista varten. Noita tilastoja on aika paljon, ne ovat hyvin kattavia, julkisia ja niihin on vieläpä avoin käyttöliittymä osoitteessa http://tilastot.kirjastot.fi. Avointa dataa nuo tilastot eivät kuitenkaan ole, sillä varsinainen data ei ole koneellisesti saavutettavassa muodossa. Tulipa mieleen, että nyt kun Kirjastot.fi rakentelee paraikaa uutta versiota kirjastotietokannastaan (josta tulee muuten mahtava) ja myös koneellisesti saavutettava, saataisikohan myös nuo tilastot mukaan?
Yksi mietintämyssyssä pidettävä näkökulma on tämä: suomalaiset kirjastot eivät ole kokeneet asiakseen avata dataansa, mutta muutamat muut toimijat ovat: miten me kirjastot voisimme näitä muiden nyt meidänkin saatavillemme antamia datoja hyödyntää?
Bibliografinen data on blääh, meillä on parempaakin
Mitä Lukas sanoi, bibliografinen metadata ja kuvailutiedot eivät ole kiinnostavinta dataa mitä meillä kirjastoilla on. Se on itseasiassa aika tylsää faktojen luettelemista ja se voidaan tuottaa, säilöä ja ylläpitää keskitetysti, ja jopa ostaa kuten tapana onkin (BTJ:ltä).
Bibliographic metadata as such describe publications, in the broadest sense, providing information about title, authors, subjects, editions, dates, urls, but also physical attributes like dimensions, number of pages, formats, etc. This type of information, in FRBR terms: Work, Expression and Manifestation metadata, is typically shared among a large number of libraries, publishers, booksellers, etc. ‘Shared’ in this case means ‘multiplied and redundantly stored in many different local systems‘. It doesn’t really make sense if all libraries in the world publish identical metadata side by side, does it?
Se mikä sensijaan oikeasti on mielenkiintoista, on paikallinen käyttödata sekä niteistä ja kokoelmista kertova data.
Currently, library data that is really unique and interesting is administrative information about holdings and circulation. After having found metadata about a potentially relevant publication it is very useful for someone to know how and where to get access to it, if it’s not freely available online. Do you need to go to a specific library location to get the physical item, or to have access to the online article? Do you have to be affiliated to a specific institution to be entitled to borrow or access it?
Usage data about publications, both print and digital, can be very useful in establishing relevance and impact. This way information seekers can be supported in finding the best possible publications for their specific circumstances.
Tästä on Suomessakin ollut puhetta tietyissä piireissä. Mitään kehitystä tähän suuntaan ei ole kuitenkaan otettu eikä toistaiseksi ole näkyvissäkään. Ehkä sitten, kun yhteisluettelo kansallinen metadatavaranto (”Melinda”), KDK:n asiakasliittymä, Axiell Arenan kansalliset ulottuvuudet tai jokin vastaava valmistuu ja teostaso voidaan kokonaan siirtää veke kaikista kirjastoista ja tehdä haut yhteen indeksiin (ja rajata halutuin ehdoin, esim. kuuluuko teos oman kirjastoni kokoelmaan), voidaan ruveta miettimään tällaisia asioita.
Lukekaa Lukaksen kirjoitus Local library data in the new global framework, jossa Lukas kertoo paikallisdatan merkityksestä tarkemmin ja myös esittelee malleja miten homman voisi toteuttaa.
Kaksi avoin data -sovellusta tällä viikolla: tuplakontrolli ja VuFind
Turun ja naapurikuntien kunnankirjastojen Vaski-kirjastokimppa julkaisi aineistotietokantansa avoimena datana vähän aikaa sitten. Avoimen datan idea on, että hyödyllinen annetaan esteettä kaikkien käyttöön. Tällainen ajattelu sopii erinomaisesti kirjastoihin. Yksi hauska puoli avoimessa datassa on se, että data on silloin myös meidän itsemme käytössä. Tämä ei ole ollenkaan itsestäänselvää – normaalisti voimme itsekin käsitellä MARC-tietueitamme vain yhdellä työkalulla, nimittäin kirjastojärjestelmällämme. Vaskissa käytämme Axiellin PallasProta, jolla ei voi tehdä kaikkea. On tärkeää päästä dataan käsiksi monin eri tavoin, ja monien eri tahojen toimesta.
Tässä kaksi casea, joissa kuluneella viikolla hyödyin siitä, että minulla (kuten kakikilla maailman ihmisillä) on esteetön pääsy luettelointidataamme.
Case 1: tuplakontrollia
Täällä Vaskissa me valmistaudumme vaihtamaan PallasPron toiseen Axiell-tuotteeseen, Auroraan. Samassa tietokantaamme tulee mukaan lisää kirjastoja, ja siirrymme FinMARC -luettelointiformaattista MARC21:een. Anna valvoo ja suunnittelee sitä, yhdessä muiden luetteloijien ja Axiellin kanssa.
Vaski, kuten muutkin kirjastotietokannat ovat sangen sotkuisia monellakin tapaa. Esimerkiksi yhdestä teoksesta saattaa olla useita luettelointitietueita (ns. tuplia (tai tripliä (tai quadruplia (ad nauseaum)))). Ne ovat tietokannan käytön kannalta ärsyttäviä, ja niitä yritetään nyt siivoilla pois.
Tein Annalle tällaisen Perl-ohjelman, joka etsii tuplia ISBN-koodin perusteella (joka on tallennettu kenttään 021‡a
):
#!/usr/bin/perl # lists ISBN-codes which appear in more than one MARC record use MARC::Batch; my $file = "vaski-kunnostettu.mrc"; my $batch = MARC::Batch->new('USMARC', $file); $batch->strict_off(); # First, let's create a magnificient hash or arrays, with ISBNs as keys, and # lists of record ids as values while ($record = $batch->next()) { for my $field ($record->field('021')) { my $isbn = $field->subfield('a'); push(@{$recsperisbn{$isbn}}, $record->field('001')->data()); } ++$i; } # then let's see through the hash, and print all the ISBNs which appear in more # than one record, and list all the records ids per ISBN too while (my ($key, $value) = each(%recsperisbn)) { if (@$value > 1) { print($key, ": "); foreach $recid (values($value)) { print($recid,","); } print("\n"); } }
Tämä ohjelma käy järjestyksessä läpi kaikki tietueemme, ja muodostaa kaikista esiintyvistä ISBN-koodeista listan missä kaikissa tietueissa se esiintyy. Lopuksi se tulostaa kaikkien sellaisten tietueiden tunnisteen (kentästä 001
), joiden ISBN esiintyy useammassa kuin yhdessä tietueessa. Näitä löytyi reilu 15 000. Anna arvioikoot, mitkä niistä voisi yhdistää keskenään. Yllä oleva Perl-ohjelma on rakennettu MARC::Record
ja MARC::Batch
-ohjelmointikirjastojen päälle, jotka ovat ilmaisia, standardin mukaisia ja avointa lähdekoodia.
Case 2: verkkokirjaston pystyttäminen
Toinen tämänviikkoinen näpertelyn kohde on VuFind. Se on täysiverinen verkkokirjasto-ohjelmisto, verrattavissa esim. KDK-hankkeessa pilotoitavana olevaan ExLibriksen Primoon. Hakumoottorina VuFind käyttää Solria. Vain paras on kyllin hyvää! Sanomattakin selvää, että sekä VuFind että Solr ovat avointa lähdekoodia ja vapaasti käytettävissä.
Taustajärjestelminä VuFind voi suoraan käyttää Alephia, Voyageria, Innovativen Milleniumia, avoimen lähdekoodin eXtensible Catalogia, Kohaa ja Evergreeniä, OCLC PICAa ynnä muita. Kuten erittäin hyvin tiedämme, me suomalaiset yleiset kirjastot olemme marginalisoituneita kansainvälisistä kollegoistamme omine Axiell-järjestelminemme, mutta VuFindin ja Axiellin järjestelmien väliin voi kyllä rakentaa yhteyden. Tämä tapahtuu laatimalla ohjelma, jota VuFindissa kutsutaan ILS -ajuriksi. Toisessa päässä, eli Axiellin kirjastojärjestelmän päässä käytetään Axiell Web Services -rajapintaa, joka on useiden suomalaisten Axiellin tuotteita käyttävien kirjastojen käytettävissä.
Suomessa VuFind on käytössä ainakin Helsingin yliopiston Viikin kampuskirjastossa, jonka palvelu on nimeltään eViikki. Maailmalta löytyy paljon kirjastoja, jotka ovat valinneet VuFindin.
En perjantaina jaksanut alkaa säätämään virallisen tietohallinnon kanssa tai ehdottelemaan mitään toimiryhmien perustamista ja kerran kuukaudessa pidettäviä pullakahvikokouksia, joten laitoin omin nokkineni palvelimen pystyyn Amazonin EC2 -pilveen. Se oli asiaan jo ennalta tutustuneena oikeastaan pöyristyttävän helppoa ja siihen meni alle tunti. VuFindin olen aiemmin asentanut omalle läppärilleni, mutta nyt pystyttämääni palvelimeen indeksoin myös Vaskin bibliografisen datan ja katsoin järjestelmää muutenkin tarkemmin. Datamme on FinMARCia, mutta olen konvertoinut sen itse MARC21:ksi Kansalliskirjaston ylläpitämillä konvertointisäännöillä sekä USEMARCON-ohjelmalla (kiitos Ulla, Ere ym.). Näitä Axiellkin käyttää kun teetätämme heillä konvertointityötä.
Hyvältä ja selkeältä näyttää toi VuFind kyllä 🙂
Laadukas viikko takana 🙂
Nyt uusiksi se hyllyluokitusjärjestelmä
Trip to old fortress in Lieto, and KDK
Yesterday a dozen or so people from Turku City Library bicycled to Lieto, to a historical site called Vanhalinna. It’s a pretty weird looking big rock sticking out of the flat ground, a bit like Uluru or something. Anyway, there used to be an important fortress when these parts of the world were coming to iron age. The big hill used to be and island of the archipelago. But now the sea has retreated quite a bit and a new fortress was built around the 13th centuy. This new fortress is the Turku Castle.
Being a little new here at Turku City Library, i learned that this is an annual tradition here to bicycle to some interesting site nearby in the springtime, and that’s fantastic of course (kuka tietää mitä on ”tyhy-toiminta” englanniksi?)
There is also a mansion next to the big rock. The site is administered by a foundation, and part of the Turku University. They have an interesting museum there, with several historical exhibitions and art exhibitions too.
Museums and museum-people fascinate me (remember, they are our sisters and brothers), so i had a little chat with a member of the staff there (aargh i didn’t catch her name). I asked about their cataloguing work, and she told me so far they have catalogued objects, and also would like to catalogue all the buildings in the area. We talked some stuff about education to become librarians and museum-people. Then we also talked about collection management in museums and libraries… and soon we were talking about KDK, (Kansallinen digitaalinen kirjasto, National Digital Library of Finland). KDK is a bit special because in addition to libraries, it has museum and archive colletions in it too, all in a unified user interface… it’s a bit like a national Europeana really. Anyway i told her about those KDK and Europeana, and she said they are now converting their database so they can join Musketti, a database system for finnish museums… then KDK too. This is great, because i am currently working here in Turku to prepare KDK so that it will be suitable for the Vaski-consortia in this area and for finnish public libraries in general. I want to help the Linnavuori museum-people to join KDK if i just can!
The bicycling trip was about 20km, so it’s a great little daytrip if you want to visit a nice, interesting site close to Turku.
Thanks to Krisse, our excellent guide who told us a lot of interesting stuff about the site, thanks the museum-person for chats and also to everyone who joined the tour.
Tiesitkö tämän MARCista: salainen kolmas indikaattori
Harva tietää, että MARC -luettelointiformaattissa kullakin kentällä on todellisudessa kolme indikaattoripaikka. Tyypillisesti kirjastoammattilaisille, jopa luettelointia päätyönään tekevillekin kerrotaan vain ensimmäisestä kahdesta indikaattorista. Vain harvat saavat koskaan kuulla kolmannesta indikaattorista.
Oletko huomannut, että kentän numerokoodin ja indikaattoreiden jälkeen on miltei poikkeuksetta tyhjä sarake? Se on todellisuudessa se paikka, jonne piilotettu kolmas indikaattori on tallennettu.
Kolmas indikaattori, jonka käyttö kuvataan erillisessä, aiemmin vain todella harvojen luettelointiammattilaisten käsiin annettavassa dokumentissa. Usein tieto kolmannesta indikaattorista onkin kulkenut suullisena perimätietona, niinsanottuna hiljaisena tietona. Tämän salaperäisen indikaattorin käyttö vaihtelee eri kentissä eikä ole varmaa missä kentissä se edes on määritelty, mutta yleensä sitä käytetään kuvailemaan luetteloijan sieluntilaa luettelointihetkellä: arvo 0 tarkoittaa että luetteloija kyseistä kenttää täyttäessään oli nälkäinen, 1 että hän oli hyvin, hyvin väsynyt, 2 että hän oli päihtynyt ja arvo 3 että hän pilaili.
Kiinteämittaisissa kentissä ja nimiössähän ei indikaattoreitä käytetä, mutta hatarien ja vahvistamattomien tietojeni mukaan niihin saattaa olla piilotettuna dataa luettelointiformaatin, siis MARCin itsensä kehittäjien mahdollisista sieluntiloista.
Datat auki hallituksen päätöksellä, jos ei muuten

Hei kirjasto: avaa datas tai ne avataan (kuva Arja Lento / YLE, sori et förasin)
Avoin data (l. Open Data) etenee Suomessakin. Twitteristä sattui silmiin juuri Ehdotus valtioneuvoston periaatepäätökseksi julkisen sektorin digitaalisten tietoaineistojen saatavuuden parantamisesta ja uudelleenkäytön edistämisestä (52KB PDF). Kymmensivuisen tekstin tiivistelmä:
Periaatepäätöksen linjaukset esittävät tarvittavat toimenpiteet julkisten tietovarantojen saatavuuden ja uudelleenkäytön lisäämiseksi yhteiskunnan kaikilla alueilla. Linjaukset sisältävät kehittämistoimet tietopolitiikan ja lainsäädännön selkeyttämiseksi, käyttöä mahdollistavien rakenteiden ja käytänteiden luomiseksi sekä palvelu- ja sovelluskehityksen edistämiseksi.
Tietopoliittisilla linjauksilla tavoitellaan sitä, että julkisen sektorin digitaaliset tietoaineistot ovat avoimesti saatavilla ja uudelleenkäytettävissä yhtenäisin, selkein ja kaikille tasapuolisin käyttöehdoin. Tietoaineistoja tarjotaan kustannustehokkaasti, jolloin kansantalouden kokonaisedun kannalta tietoaineistot ovat pääsääntöisesti maksuttomia käyttäjälle. Samalla budjetoinnin ja tulosjohtamisen kautta on huolehdittava tietoaineistojen laadusta ja ylläpidosta.
Koko yhteiskunnan käyttöön luotavan tietoinfrastruktuurin avulla voidaan tietoaineistoja tarjota tehokkaasti. Hallinnonalojen tulee tunnistaa ja kuvata tietoaineistonsa uudelleenkäyttöä varten. Tietosisältöjen yhtenäiset kuvailutiedot ja palveluhakemistot helpottavat tiedon käyttöä. Luovutettavissa olevat tietoaineistot saatetaan koneluettavassa muodossa ja avoimilla rajapinnoilla käyttäjille. Tietoaineistojen tarjontaa ja käyttöä edistämään tulee luoda tarvittavat tukipalvelut. Avoimen tietoinfrastruktuurin kehittäminen ja ylläpito turvataan pitkäjänteisellä rahoituksella.
Palvelu- ja sovelluskehityksen edistämiseksi tarvitaan yhteistyömalleja ja kannustimia. Julkisessa hallinnossa kehitetään avoimen tiedon kulttuuria ja tuetaan kehittäjäyhteisöjen toimintaa. Alan tutkimusta ja kansainvälistä yhteistyötä tulee vahvistaa. Kokeilevaan toimintaan on panostettava erityisesti laajaa kysyntää edustavien tietoaineistojen avaamiseksi ja yhtenäisten käytänteiden luomiseksi.
Teksti on vielä luonnosvaiheessa. Suomessa kirjastot ovat lähteneet erittäin heikosti mukaan datansa avaamistalkoisiin (lue: “datan piilottelun lopettamistalkoisiin”). Jos dataansa ei halua auki, niin nyt vähän äkkiä kampanjoimaan tätä hallituksen periaatepäätöstä vastaan… jos rahkeita riittää. Henkilökohtaisesti en usko että kukaan tätä trendiä sinänsä vastustaa, vaan jahkailu on johtunut siitä, että kirjastolaiset ei vieläkään ymmärrä mitä avoin data tarkoittaa, emmekä ole ottanut asiaksemme selvittää. Katsokaas alkajaisiksi vaikka avointa dataa käsittelevät kirjoitukset Sorvipenkin äärellä -blogista, Kirjastot.fi:n Labsin blogista ja tästäkin blogista. Noh, ei se mitään, asia etenee ilman meidän omaa ymmärrystä ja tahtoa ei tarvita jos asia tulee hallitusohjelmaan tai muutoin säädellään meidän ulkopuolelta.
Kirjaston bibliografisen datan avaamisen ensiaskeleet ovat nämä:
- ilmoita luetteloijille aikeista, jotta tietävät
- juttele Labsin kanssa
- dumppaa tietokanta
- lähetä dumppi kirjastojen avoimeen datavarantoon data.kirjastot.fi
- viesti (Suomi.fi, Kirjasto-kaapeli, Kirjastolehti, lehdistö)
- profit!
Kohta 3 sujuu Origosta muistiinpanojeni mukaan näin: Aineistonhallinta
->Vienti
->ei hakuehtoja->valitse kaikki->Hyväksy valinta
. Tiedostomuodoksi ISO-2709 ja tallenna johonkin omalle tietokoneelle. Yritän muistaa tehdä opetusvideon joskus kun olen Origon äärellä. Dumppaaminen kestää Varsinais-Suomalaisessa, keskikokoisessa kirjastossa kolme neljä tuntia. Ei tiedostokaan ole suuri, Vaski-tietokanta on 763MB.
PallasPro-asiakkaat voivat tilata dumpin Axiellilta (älä maksa liikaa (tonni on liikaa)), tilauskoodi moihaluttaistietokantadumppiosakohteineeniso2709siirtoformaatissajamerkistökoodauksenavaikkapamarc8
. Mitenkäs se Voyagerista, Primosta ja muista järjestelmistä käy?
Euroopan yhteisen digitaalisen kirjaston Europeanan Data Provider -sopimuksessa (Europeana Aggregators’ Handbookin liitteenä, s. 44) on myös sovittu, että Europeanaan toimitettava data avataan (kts. artikla 4, Licence of rights for Metadata from Data Provider to
Third Parties, PDF:n s. 47). Epä-kaupallisuus -poikkeuksesta ollaan luopumassa, kuten Tapani vastikään kirjoitti Kansallisen digitaalisen kirjaston (KDK) asiakasliittymän blogissa, otsikolla Europeanan reunoilta. Ja KDK:honkin liittyy omat sopimuksensa, jossa tällaisista asioista sovitaan. KDK -pilotoinnissa meitä on vajaa tusina, seuraavassa KDK-aallossa kymmeniä lisää.
Miten me kirjastoalalla hoidettaisi toi valtioneuvoston periaatepäätöksen luonnoksen neljäs kappale? Asiakas-workshoppeja MARCista? Auts.
Helsingin Sanomat on tarttunut mahdollisuuteen keräillä vielä PR-pisteitä Open Data -buzzista julkaisemalla kustantamovertailunsa tuloksen datat (csv).
Helsingin Sanomat vertaili kustantajien kirjallista laadukkuutta antamalla pisteitä niiden julkaisemien kotimaisten kaunokirjojen saamille palkinnoille, ehdokkuuksille, myyntitilaston kärkisijoille ja käännöksille vuosina 2000–2010.
Tämä jos mikä kiinnostanee kirjastolaisia. Näitä voisi leipoa yhteen esim. kirjastojen kuvailudatan kanssa ja sitä kautta katsoa vaikkapa risteävätkö palkituimpien teosten asiasanat kirjastoon lainatuimpien teosten asiasanojen kanssa. Tämä edellyttää sitä, että lakkaamme piilottelemasta dataamme asiakkailta ja yhteiskunnalta, ja myös itseltämme ja kollegoiltamme.
Avoimen Dataan liittyvien, ilmaisten PR-pisteiden jako päättyy, kun hommasta tulee normaalitoimintaa, ja asiaahan siis odotellaan seuraavaan hallitusohjelmaan. Pistäkääs siis töpinäksi.
Hoi Tampere/PIKI, ette varmasti kerkeä avoimeksi dataksi bibliografisine datoinenne ennen Turkua/Vaskia :^) Kymppi vetoa!
Kenttä 245, kenen keksintö?
Kenenhän idea tää MARCin kenttä 245
on (kts. formaatin lisäksi mm. monografioiden kuvailusäännöt (PDF), osio 1. Nimeke- ja vastullisuusalue)? Viimeksi tänään KDK:n Primo -koulutuksessa hämmästeltiin tätä ihmeellistä kenttää. Mahtaako tätä blogia seurata joku, joka osaisi hieman valottaa koska tämä kenttä keksittiin, miksi ja mitä ongelmia sen oli tarkoitus ratkaista sekä miten 245 on aikojen saatossa kehittynyt?
Olis kiva kuulla tästä, laittakaahan kommenttia tuohon alle jos 245
herättää muistoja tai tunteita.
HelMet-tietue b1915995 (xrecord)
245 10 Bibliografinen valvonta :|bjohdatus luetteloinnin ja sisällönkuvailun menetelmiin /|cVesa Suominen, Jarmo Saarti, Pirjo Tuomi
HelMet-tietue b1752703 (xrecord)
245 10 Suomalaiset luettelointisäännöt. Monografioiden kuvailu / [Kansallinen luetteloinnin ohjausryhmä]; [julkaisija:] Helsingin yliopiston kirjasto
HelMet-tietue b1380128 (xrecord)
245 10 Tutkielma hallitusvallasta :|btutkimus poliittisen vallan oikeasta alkuperästä,laajuudesta ja tarkoituksesta /|cJohn Locke ; suomennos ja esipuhe Mikko Yrjönsuuri
HelMet-tietue b1551077 (xrecord)
245 10 Taru sormusten herrasta. 2 : Kaksi tornia / [suom. Kersti Juva ja Eila Pennanen ; runot suom. Panu Pekkanen] /|cJ. R. R. Tolkien
Kopioluettelointi on ehkä hajoamassa
Tuli tuossa sattumalta esiin, että kirjastojen välinen kopioluettelointi (aka. poiminta) nähtävästi menee ainakin vähän rikki seuraavaksi pariksi vuodeksi. En vielä tässä vaiheessa tiedä asiasta tarpeeksi (kuten ensimmäisen virkkeen epämääräisyys antaa jo ymmärtää) ja tästä on ehkä jossain keskusteltu jo, mutta otanpa asian kuitenkin varmuuden vuoksi esiin.
Saattaa olla ehkä syytä kiinnittää huomiota siihen, että kun yleiset kirjastot pikkuhiljaa vaihtavat Axiellin PallasProsta ja Origosta Auroraan ja kun samalla vaihtuu myös metadataformaatti FinMARCista MARC21:een, eriytyy Suomi kahteen kopioluetteloinnin maailmaan, jotka ovat keskenään erilaisia formaatin eroista johtuen.
En tiedä onko tämä ongelma, MARC mikä MARC, ja kopioluetteloidessa jokatapauksessa kopsattavia tietueita muokataan paikallisesti. MARC21:stä (Auroroista) vanhempiin PallasProihin ja Origoihin kopsailu (ja toisinpäin) tullee kuitenkin muuttumaan työläämmäksi, kunnes kaikilla lopulta on MARC21. Voi toki olla, että Aurorassa itsessään on jo olemassa mahdollisuus pyytää tietueita muissakin muodoissa kuin MARC21:nä, se olisi hienoa.
Tässä olisi vielä aikaa toimia ja kenties ideoida joku keskitetty helpotuskeino. FinMARC↔MARC21 -muunnoshan onnistuu koneellisesti Kansalliskirjaston USEMARCON -ohjelmalle laatimilla muuntosäännöillä. En tiedä olisiko mitään järkeä rakennella jotenkin keskitetysti härveli, joka tekisi muunnoksen automaattisesti poiminnan yhteydessä? Index-Datan YAZ Proxyä voisi ehkä käyttää, tai rakennella YAZ-kirjastojen päälle oman gatewayn joka esim. USERMARCONia käyttäen murjoisi kopioitavat tietueet läpi Kansalliskirjaston muuntosäännöstöstä.
Oliskohan tollaiselle tarvetta? Yhteisluettelo sitten aikanaan poistaa tällaiset haasteet lopullisesti. Jos tämä nyt osoittautuu merkittävästi työllistäväksi asiaksi, niin positiivisena asiana nähtäkööt se, että se jouduttaa yhteisluettelon rakentamista.
Asia tuli esiin, kun eräästä toisesta maakuntakirjastosta oltiin yhteydessä minuun, kun sekä Pirkanmaan PIKI:stä että meiltä Varsinais-Suomen Vaskista kopioluetteloiunti oli lakannut toimimasta. Syy on ilmeisesti kuitenkin eri kuin yllä kuvasin.
⋮ // ***245+248 ALKAA TÄSTÄ*** 245I1 | = 0) Then RegMatch(1) Else S; RegReplaceTable('pieni-isoksi-merkkijonon-alussa.tbl'); If (%000/7/ = 'p' And RegFind('[Aa]rkisto') < 0) 'Arkistoaineisto'; '[' + S + ']' 245$b | 1', Strict); If (NextSub($a, '=1') = 'a') ReplaceOcc ('$a' By ' ;$b', '=2', Strict); ReplaceOcc ('$a' By ' ; ', '>1', Strict); If (NextSub($a, '=1') != 'a' And Not ExistsIn(S, $b)) ReplaceOcc ('$r' By ' =$b', '=1', Strict); Replace ('$r' By ' = ', Strict); Replace ('$t' By '. ', Strict); ReplaceOcc ('$c' By ' / ', '>1', Strict); Replace ('$c' By ' /$c', Strict); If (ExistsIn(S, $c)) Replace ('$d' By ' / ', Strict); ReplaceOcc ('$d' By ' / ', '>1', Strict); Replace ('$d' By ' /$c', Strict); Replace ('$e' By ' ; ', Strict); If (PreviousSub($n, '=1') = 'h' Or PreviousSub($p, '=1') = 'h') MoveBefore('np', $h, 'np', '', '', ' :| /| ;|.| ='); If ($c Precedes $p And PreviousSub($p, '=1') = 'n') ReplaceOcc ('$p' By ', ', '=1', Strict); If ($c Precedes $p And PreviousSub($p, '=1') != 'n') ReplaceOcc ('$p' By '. ', '=1', Strict); If ($c Precedes $p And PreviousSub($p, '=2') = 'n') ReplaceOcc ('$p' By ', ', '=2', Strict); If ($c Precedes $p And PreviousSub($p, '=2') != 'n') ReplaceOcc ('$p' By '. ', '=2', Strict); If ($c Precedes $n) Replace ('$n' By '. ', Strict) Else Replace ('$n' By '.$n') // Info: Käsitellään 248 248$g | 1', Strict) Else ReplaceOcc ('$D' By ' / ', '>1', Strict); RegReplace ('($D.*)$B', '\\1 : ', 'g'); RegReplace ('($D.*)$R', '\\1 = ', 'g'); RegReplace ('($D.*)$C', '\\1. ', 'g'); If (Exists(@245$d) Or Exists(@248$d)) Then { while (RegFind ('$D.*$E') >= 0) { RegReplace ('($D.*)$E', '\\1 ; ', 'g'); }; } Else { while (RegFind ('$D.*$E') >= 0) { RegReplace ('($D.*)$E', '\\1 / ', 'g'); }; } // Info: Jos $n/$p on ennen $b:tä tai $b:tä ei ole, siirretään $n/$p $a:n perään If (RegFind('$b.*$[np]') < 0) MoveAfter('np', $a, 'np', '', '', ' : | / | ; |. | = '); // Info: G:n (n) ja H:n (p) vlimerkit Replace ('$G' By '.$G', Strict); // Info: Siirretään g ja h oikeille paikoille If (PreviousSub(@245$n, '>=1') != 'c' And PreviousSub(@245$p, '>=1') != 'c' And ExistsIn(S, $c)) MoveBefore('GH', $c, 'np', '', '', ' :| /| ;|.| =', 'BR'); If ((Not ExistsIn(S, $n)) And (Not ExistsIn(S, $p)) And (Not ExistsIn(S, $b))) MoveAfter('GH', $a, 'np', '', '', ' :| /| ;|.| =', 'BR'); Replace ('$G' By '$n'); Replace ('$H' By '$p'); If (ExistsIn(S, $c)) { If (Exists(@245$d)) Then Replace ('$D' By ' ; ', Strict) Else Replace ('$D' By ' / ', Strict); } Else Replace ('$D' By ' /$c', Strict); If (Not ExistsIn(S, $b)) ReplaceOcc ('$B' By ' :$b', '=1', Strict); If (Not ExistsIn(S, $b)) ReplaceOcc ('$R' By ' :$b', '=1', Strict); Replace ('$B' By ' : ', Strict); Replace ('$R' By ' = ', Strict); Replace ('$C' By '. ', Strict); If (ExistsIn(S, $b)) MoveBefore('h', $b, 'h', '', '', ' :| /| ;|.| =') Else If (ExistsIn(S, $c)) MoveBefore('h', $c, 'h', '', '', ' :| /| ;|.| ='); For (OCC From 1 To 3) While (PreviousSubIn(S, $n, '=OCC') = 'c' Or PreviousSubIn(S, $p, '=OCC') = 'c') { If (PreviousSubIn(S, $p, '=OCC') = 'c') { If (RegFind(S, '$c.*\\.$') < 0) ReplaceOcc('$p' By '. ', '=OCC', Strict) Else ReplaceOcc('$p' By ' ', '=OCC', Strict); } Else ReplaceOcc('$p' By ', ', '=OCC', Strict); If (RegFind(S, '$c.*\\.$') < 0) ReplaceOcc('$n' By '. ', '=OCC', Strict) Else ReplaceOcc('$n' By ' ', '=OCC', Strict); }; RegReplaceTable('pieni-isoksi-osakentan-alussa.tbl') Z48 | 245 | If (RegFind(D, '\\.\$') < 0) D + S Else D; Pvalimerkitys(); // ***245+248 PÄÄTTYY TÄHÄN*** ⋮
Voihan tämän tehdä käsinkin, mutta voisi olla kiva että tietokone tekisi nämä luetteloijan puolesta.
Abstrakti silmäys kahteen kirjastoon (sis. emansipatorista ATK-nostatusta)
Tämä kirjoitus käsittelee ATK:ta. Uskon että automaattisella tietojen käsittelyllä olisi kirjastoille annettavaa. Olen kaavaillut jotain menetelmää visualisoida kirjastokokoelmia. Olen onnistunut keräämään aiheesta muutaman datasetin, mutta varsinainen työ on jäänyt tekemättä, uloslukien analyysi Helsingin kaupunginkirjaston aihepakettien ajallisesta kattavuudesta. Sitäpaitsi en tiedä tilastoanalyysistä yhtikäs mitään. Mutta pyrkimyksenäni on ollut todistaa, että sitä voidaan tehdä heti kun haluamme.
Minusta tällainen on tärkeää.
Tänään jostain syystä innostuin, ja laadin kuvatukset kahden suunnilleen saman kokoisen Varsinais-Suomalaisen yleisen kirjaston kokoelmien luokkien jakautumisesta.
Kirjasto #1
Suurimmat luokat ovat
- 84.2 (suomenkielinen kaunokirjallisuus)
- 85.3 (sarjakuvat)
- 85 (sadut. kuvakirjat. sarjakuvat)
- 85.1 (sadut)
- 82.2 (suomenkieliset runot)
- 99.1 (elämäkerrat. muistelmat)
Kirjasto #2
Toisen kirjaston kokoelma näyttää tältä, ja suurimmat luokat ovat
- 84.2 (suomenkielinen kaunokirjallisuus)
- 85.22 (suomenkieliset kuvakirjat)
- 78.8911 (rock)
- 85.32 (suomenkieliset sarjakuvat)
- 78.891 (popmusiikki)
- 85.12 (suomenkieliset sadut)
Näistä on leikattu pois kaikki luokat, joissa on alle 100 tietuetta. Voisi olla hyödyllisempää rajoittaa esim. luokan syvyyden perusteella vaikkapa pääluokkiin tai yhteen desimaaliin. Huomaa, että tässä olevien kuvajaisten värit eivät korreloi toistensa kanssa, vaikka vertailua ajatellen se olisi erittäin mukavaa. Lisäksi pikaisesti laatimani kuvajaiset ovat karseita lukea (voit kuitenkin avata kuvat isompina niitä klikkaamalla) ja ohjelmakoodissakin olisi paljon kehitettävää… itse asiassa laatimani ohjelma on erittäin karu, eikä edes piirrä noita kaavioita automaattisesti vaan tein ne itse taulukkolaskentaohjelmassa. Mutta kaavioiden tekeminen ohjelmallisesti ei todellakaan ole mikään ongelma. Niitä voisi laatia esim. GC-ohjelmointikirjastoa (ilmainen ja avointa lähdekoodia) tai gnuplotia (ilmainen ja avointa lähdekoodia) käyttäen. Molempiin löytyy tietenkin Perl-rajapinta (ilmaisia ja avointa lähdekoodia).
Käyttäjäystävällisyyden vuoksi nuo yleisen kymmenluokituksen (YKL) numeeriset kentät voisi suoraan automaattisesti muuntaa luokkien nimiksi; se onnistuisi ykl.kirjastot.fi -palvelua käyttäen. Kuvioiden tuijottelu olisi hauskempaa.
Käytin tähän MARC-siirtomuodossa olevia tietokantadumppeja, ensimmäisessä on noin 200 000 tietuetta ja toisessa 280 000. Molemmat sisältävät osakohteet. Poimin kummastakin dataläjästä 054‡a -kentät ja laskin eri arvojen määrät. Tuon datan käsittelyyn menee pieneltä, kohta pari vuotta vanhalta miniläppäriltäni noin 15 minuuttia yhteensä.
Mitä näistä voidaan päätellä? Ei ehkä mitään. Mutta ehkä jotain. Ainakin voidaan päätellä se (no tämänhän kaikki jo varmasti tietävätkin), että kokoelmanhallinnan työkaluja voi kehittää itse helposti ja ilmaiseksi. Ideoita ja työkaluja riittää niin paljon kuin haluaa. Lisäksi voidaan päätellä, että luetteloinnin on oltava hyvää, jotta tässä — tai tiedonhaussa yleensäkään on mitään järkeä. Mutta senkin me tiedämme jo erittäin hyvin.
Tuollaiset kuvajaiset voitaisi hyvin helposti (=automaattisesti ja halvalla) tehdä viikottain jokaiselle suomalaiselle kirjastolle. Ajan oloon nähtäisi miten kokoelmat ovat eläneet. Todella hyödyllistä olisi tehdä rinnalle vastaava analyysi asiakkaiden tekemistä lainoista ja katsoa miten ne korreloivat kirjaston kokoelmien kanssa.
Meillä on ollut kaikki tähän tarvittavat työkalut ilmaiseksi saatavilla vuosikausia. Vuosikymmeniä jopa! Itse käytin tällä kertaa Perliä (ilmainen ja avointa lähdekoodia), MARC::Record -moduulia (ilmainen ja avointa lähdekoodia), OpenOffice Calcia (ilmainen ja avointa lähdekoodia), Gimpiä (ilmainen ja avointa lähdekoodia), geditiä (ilmainen ja avointa lähdekoodia) sekä GNU/Linuxiin (ilmainen ja avointa lähdekoodia) perustuvaa Ubuntua (ilmainen ja avointa lähdekoodia). Koneelliseen käsittelyyn kehitetty MARC-luettelointiformaatti meillä on ollut olemassa 1960-luvulta.
Tätä ominaisutta et muuten löydä Axiell Aurora tai Innovative Millenium -järjestelmistä.
[edit 02.01.2011 katso myös Anna-Liisan Kirjasto-kaapelilla aloittama Tilastot kokoelmien hoidon tukena (credit: mace)]
Uusi kategoria: ”Avē amator! Moritūrī tē salūtant!”
Otin blogissani käyttöön uuden kategorian: Ave amator! Morituri te salutant! Tuohon kategoriaan laitan kirjoituksia, joissa käsittelen omalle alallemme läheisiä, jopa keskeisiä juttuja, joita tekevät aivan muut kuin me kirjastoammattilaiset.
Päällimmäisenä mieleen tulevat Open Data -puuhailijat, abandonware -ihmiset, reCAPTCHAn kehittäjät, avoimen lähdekoodin tekijät ja tukijat, EFFi, lukupiireihin osallistuvat, wikipedistit tietenkin, Open Library:n väsäilijät, Archive.orgin parissa toimivat, LibraryThingin loistavat tyypit, WikiLeaks, Creative Commonsin tukijat, warettajat ja piraatit, irkkaajat ja foorumeilla norkoilijat, vanhan liiton BASIC-aktivistit, kaupunginosayhdistysten kirjastoharrastajat, bookcrossaajat, erilaiset tutkijat ja kirjoittajat. Yleisesti ottaen kaikki, jotka rakkaudella ja antaumuksella käyttävät aikaansa ja resurssejaan maailman parantamiseen sellaisin keinoin, jotka minä katson ”kirjastomaisiksi”. Joukko on valtava ja yhä kasvamaan päin.
Avē amator! Moritūrī tē salūtant! on latinaa ja tarkoittaa ”Ole tervehditty, amatööri, kuolemaan menevät tervehtivät sinua!”.
Amatööri muodostuu kantasanasta amator, ja siis rakkaudesta. Suomen kielen harrastaja perustuu tietenkin hartauteen, siis omistautumiseen ja sielukkuutteen. Yksikään kirjastoalan ammattinimike ei perustu tällaisiin lähtökohtiin. Nykyisenlaisena tuntemamme yleisen kirjaston juuret ovat kuitenkin juuri tällaisessa kansalaistoiminnassa. TJEU.
Kävin läpi kaikki 224 blogikirjoitustani ja luetteloin niistä 47 tuohon kategoriaan. Niiden otsikot ovat tässä:
- Galleriat, kirjastot, arkistot, museot ja Wikipedia yhdessä ovat ❤
- Minkähänlaista olisi ihan oikea kirjastotyö pelien parissa?
- E-prujun lukija
- Kirjastoammattilainen Googlen käyttöliittymänä
- On elämä lainaa vainen
- Suomen kirjastoseura 100v
- Marcin on kuoltava
- Cory Doctorow: Näin kirja tuhotaan (niin&näin 65)
- HelMet ja Open Data
- Chic kirjastopeura pikkumustassaan
- Free Software Foundation–Hyvyyden puolesta, pahuutta vastaan
- Tavallinen ihminen: “Kirjasto on (kulttuurin) logistiikkafirma”
- Kohan suomennos on nyt jossain vaiheessa
- Digiaineiston arkistoinnista NY Timesissä
- Antti Eskola: Uhka, toivo ja vastarinta
- Kaukolainausta p2p-tyyliin
- Suomennetaas piruuttaan toi Koha
- Kirjapiraatin tunnustukset
- Kindle on oikeasti tietokone
- Barthes ei-lukuhalusta (ja kirjastosta)
- Annoin Wikipedialle 50€, anna sinÀkin
- Blogipikkujoulut tuloo!
- Historiallinen hetki kirjasto-kaapelilla
- Kiitos lainaamisesta ja vuokraamisesta
- reCAPTCHA on nerokas!
- WikiRakkautta
- Miten ihminen voi auttaa omaa kirjastoaan?
- Meistä on televisiosarjaksikin
- Linda harmittaa kansalaisia
- Avoimia oppiresursseja
- Avoin lähdekoodi, jakaminen ja riisto. Ja kirjastot tietty
- Lukupiiri nykyajan tyyliin
- Meanwhile on Wikipedia
- Erään e-kirjan tarina
- TTVK: Kirjojen vuokraus on kuin Pirate Bay
- Qaiku vastaa niinkuin jaikuun huudetaan
- Kirja(t) kiertoon pölyä keräämästä
- Haastatteluni Sula Pinta -podcastissa
- Muutama kirjastolaisia kiinnostava puheohjelma
- Re: Tulevaisuuden uhkakuva?
- Kirjastolaisten pyhät kirjat ja annotointi
- Re: Verta, leimoja ja kontaktimuovia
- Nimimerkit pois keskustelusta
- Sosiaalinen web on kaksisuuntainen katu
- Eilinen Jaikumiitti
- Kirjastojen asiakkailleen tarjoamat tietoverkot
- Jaiku
Kiitos Ulla Ikäheimolle avusta latinan kielen kanssa.
EuropenaLocal, KDK ja Europeana -läppää videolla
Syyskuun puolessavälissä pitämässämme EuropeanaLocalin kansallisessa kokouksessa tehtiin myös pari ohjelmaa Kirjastokaistalle. Ensinnäkin minä haastattelin Mary Rowlattia (05:45) siitä mitä Europeana ja EuropeanaLocal ovat ja miksi kirjastojen, museoiden ja arkistojen pitäisi olla siitä kiinnostuneita ja toisekseen Kirjastokaista jututteli EuropeanaLocal- sekä KDK-porukoita (04:45).
Blogissani on aiempia juttuja aiheesta tagilla europeanalocal. Lisäksi syyskuun kokouksessa pidetty keskusteluosuus tuli tallennettua videolle (31:45), joten laitoin senkin nettiin mikäli jotakuta kiinnostaa.
Marcin on kuoltava
Kirjastopiireissä alkaa olla jo lynkkausmentaliteetti: Marcin on kuoltava. Helsingissä kesällä pidettyssä ELAG 2010 -konferenssissa alkoi jo olla jengillä mitta aika täysi.
Tässä välissä keksittiin ARPANET, levykkeet, mikrotietokoneet, Internet, tietoyhteiskunta ja open linked data. Sosiaalidemokraattinen, pohjoismainen hyvinvointiprojekti tuli ja meni. Samoin CD-levy. Rakennettiin paljon hienoja kirjastoja, joille ei enää tehdä edes homeremontteja. Tuohon aikaan mahtuu helposti täysimittainen ura luetteloijana, vaikka olisi suoraan oppikoulun penkiltä alkanut luetteloinnin eikä olisi eläessään tehnyt päivääkään muuta työtä. Tieteenalammekin vaihtoi nimeään kahdesti. Kuhn, Derrida, Baudrillard, McLuhan. Suomeen syntyi se sukupolvi, joiden lapsista tulivat diginatiivit.
Onko edes mahdollista haaveilla maailmasta ilman Marcia? Millainen se edes voisi olla? Jotain tämän kaltaista kenties? En minä sinänsä Marcia vihaa erityisesti. Pois se minusta. Mutta olisi hauska haaveilla että meillä kirjastoilla olisi jotain vaihtoehtoja. Ihan edes leikillään. Jos Marcin tappaisi ihan vaan leikillään, niin millainen kirjasto rakentuisi? Unelmoin siitä, että kirjastot tekisivät internetistä jotenkin paremman paikan. Toisivat lisäarvoa, olisivat jotenkin merkityksellisiä. Ihan millä tahansa tavalla.
Mitä tapahtuisi, jos workshopattaisi sellaisten tyyppien kanssa jotka tietävät mitä käsitteet tietokone tai internet tarkoittavat, mutta jotka eivät koskaan olisi kuulleetkaan Marcista? (huom oikeesti tsekkaa noi linkit ja tee se päätelmä jonka niistä voi tehdä).
Vietän mielelläni Helsingin kaupunginkirjasto 150-vuotisjuhlaa. Marcin 150-vuotisjuhlan viettämisestä en tule nauttimaan.
Europeana Data Provider Agreement -suomennos
Suomennutimme EuropeanaLocal -hankkeen nimissä Europeana Data Provider Agreementin.
Käännös löytyy KirjastoWikistä, ja kaipaa vielä siivoilua ja kenties termien muuttamista (digitalisointi
→digitointi
tms.).
Europeana -toimiston kanssa asioidaan englannin kielisellä sopimuksella, joka on siis tuon Europeana Aggregators’ Handbookin liitteenä. Tämän suomennoksen tarkoitus on madaltaa muistiorganisaatioiden (l. kirjastojen, arkistojen ja museoiden) kynnystä lähteä mukaan viemään aineistoa Euroopan yhteiseen digitaaliseen kirjastoon Europeanaan. Ajattelin, että Europeana ja Euroopan komission on vähemmän pelottava jos asiasta päättävät voivat saada sopimuksesta edes viitteellisen version myös äidinkielellään.
Aineistoja toimitetaan ko. palveluun eri reittejä, mutta sopimus on yhteinen joten tämä suomennos palvelee myös Europeana Travelin, APENETin, KDK:n ym. kautta toimittavia suomalaisia organisaatiota.
Järjestämme 13. päivä Helsingissä kokoontumisen, jossa kerromme tarkemmin miten seudulliset sekä alueelliset aineistot saadaan toimitettua Europeanaan. Katsomme tuolloin myös tätä sopimusta.
Suomen EuropeanaLocal live
Ekat EuropeanaLocalin kautta toimitetut suomalaisaineistot on nyt näkyvillä Euroopan digitaalisessa kirjastossa Europeanassa. Kyseiset aineistot on pienen pieni määrä (50 kpl) teoksia Helsinki-kokoelmasta, jotka digitoitutettiin Kansalliskirjaston digitointikeskuksessa. Käy tarkastelemassa miltä ne näyttävät Europeanassa (kansikuvia lataaminen Europeanaan on tätä kirjoittaessa vielä meneillään).
Vaikka olen kirjoittanut (tilittänyt?) aiheesta aiemminkin, niin vielä jankattakoot, että EuropeanaLocal on eräs Europeanan lukuisista satelliittiprojekteista, jotka keräävät aineistoa tähän Yhteen Suureen Digitaaliseen Kirjastoon. Mukana ovat kaikki EU:n jäsenmaat, Suomesta EuropeanaLocalia edustaa Helsingin kaupunki, käytännössä kaupunginkirjasto. Vielä vuoden verran, kesään 2011 asti jatkuvassa hankkeessa rakennetaan keinot, joilla muistiorganisaatiot eli kirjastot, arkistot ja museot voivat toimittaa aineistojaan Europeanaan. Lisätietoa EuropeanaLocalin omilta sivuilta ja KirjastoWikistä.
Helsingin kaupunginkirjasto on tässä vaiheessa siis toimittanut nuo muutamat Helsinki-kokoelman teokset ikäänkuin pesämunaksi ja samalla todistetaan että homma toimii. Katso esimerkiksi Juhlaruno Helsingin suomalaisen tyttökoulun rakennuksen vihkiäisissä 27.09.1844 (sama teos HelMetissä).
Muuta EuropeanaLocalin kautta toimitettua aineistoa on niinikään vaatimaton joukko aiemmin digitoitua musiikkia. Se ei tosin ole edes alueellisesti tai seudullisesti merkittävää, vaan mukana siksi, että Helsingin kaupunginkirjastolla olisi edes jotain annettavaa. Tarkoitus oli saada myös Rikhardinkadun kirjastossa sijaitsevan RikArt -taiteilijakirjakokoelma, mutta niiden toimitus on toistaiseksi viivästynyt RikArtin sivustopäivityksen vuoksi. Uskon että mukaan saadaan saadaan ajan mittaan muutakin aineistoa (ehkä Sinun aineistojasi 😉
Europeanaan kulkee aineistoja monia muitakin reittejä pitkin kuin EuropeanaLocalia, esim. Kansalliskirjasto on vienyt suuren määrän vanhoja sanomalehtiä. Tulevaisuudessa tämän kaltainen toiminta tapahtunee pitkälti Kansallisen Digitaalisen Kirjaston KDK:n siipien suojissa.
EuropeanaLocal etsiikin paraikaa sopivia aineistoja maailmalle vietäväksi. Tämän satelliittihankkeen fokuksena ovat siis muistiorganisaatioiden paikallisesti- tai seudullisesti arvokkaat, digitoidut tai syntyjään digitaaliset kulttuuriperintöaineistot. 13.09.2010 järjestämme Helsingissä tapahtuman, jossa asiasta voidaan tarkemmin keskustella ja sopia jatkosta. Luonnollisesti sitä ennenkin ovat yhteydenotot erittäin tervetulleita. Yhteystiedot löytyvät KirjastoWikistä.
Briefly in english (skipping the fundamentals of EuropeanaLocal)
The first materials to make it to the European digital library Europeana via our national EuropeanaLocal -process are finally live. The first items are 50 digitized publications of the Helsinki-collection, quite a typical local collection of Helsinki city library. We have also submitted a small amount of digitized classical music to Europeana, but they’re not really within the scope of EuropeanaLocal. Submitting of a collection of artists’ books called RikArt has unfortunately been postponed for now. We are holding our national meeting on 13.9.2010, and hope to get more contributions then.