E-kirjat kotiinkuljetettuina

E-kirjojen kotiinkuljetus O'Reillyn kirjakaupasta Dropboxiin

E-kirjojen kotiinkuljetus O’Reillyn kirjakaupasta Dropboxiin

Tänään tiistaina oli Kirjasto 10:ssä puolitoistatuntinen e-kirjakoulutus kirjastosedille ja -tädeille. Kuulimme miten hankalaa kaikki käyttöjärjestelmä+lukuohjelma+tiedostomuoto+drm -hässäkkä on, kuinka on olemassa liikaa standardeja, HTML5 tuo vuorovaikutteisuuden e-kirjoihin, suomalaiset kustantajat eivät vieläkään ole lähteneet e-kirjoihin, sosiaalinen lukeminen on pop ja pilvilukeminen tulee. Noniin…

Meanwhile on the internet: tein marras- joulukuussa PIKI-kirjastoille MARC-muotoisen datan analyysi- ja siivoushommia, ostin tuoreeltaan julkaistun Bad Data Handbookin ja huomasin että mahtavan O’Reilly Median verkkokaupasta saa e-kirjansa kotiinkuljetettuina suoraan Dropboxiin.

Miettikääpä sitä.

Advertisement

Kirjastotietokantojen laatua käsittelevä tohtorisväikkäri

Törmäsin Cycling for libraries -yhteisön kautta sattumalta väitöskirjaan Latvian yliopistosta vuodelta 2007, Baiba Mūzen Bibliotēku elektroniskie katalogi un to kvalitāte.

Olisko kellään kokemusta PallasPron verkkokirjaston logien penkomisesta?

What's this then?

Onkohan kellään tietoa PallasPro-Intro -verkkokirjaston hakulogien tonkimisesta? Siinä ei käsittääkseni ole minkäänlaista raportointityökalua sinänsä, mutta ainakin sellaisilla kirjastoilla joilla on pääsy oman verkkokirjastonsa (aka näyttöluettelon aineistoluettelon aka OPACin) webbipalvelimeen on mahdollisuus tutkia sen logeja. Meidän (siis Vaskin) verkkokirjasto esittäytyy näin:

Server: PallasPro-Intro3 (liw3srvr kirjasto 13.6.2011 klo 12.10.03 HP-UX B.11.00 U II 2.0)

Onko kellään kokemusta tällaisen palvelimen logien tonkimisesta? Hakulausekkeethan eivät PallasPro-Introssa näy hakutulossivun URLissa vaan HTTP-headerissa. Onko tähän jotain työkaluja olemassa? Apachen logien tonkimiseen on vaikka mitä työkaluja, mutta tämä liw3srvr on mulle tyystin tuntematon.

Mikäli PallasPro-Intro juttelee taustajärjestelmän kanssa SRU:lla, tuon rajapinnan tarkkailu olisi toinen herkullinen paikka nuuskia mitä asiakkaat etsivät. Webbipalvelimen logista näkyy tosin kaikkea muutakin hauskaa.

Unelma: hakutuloksia seurattaisi systemaattisest päivittäin, ja tietoa hyödynnettäisi luetteloinnissa ja luetteloinnin apuvälineiden (esim. sanastot) kehittämisessä, kokoelmapolitiikassa, tapahtumien järjestämisessä ja käyttöliittymäsuunnittelussa. Näen asian niin, että tuohon PallasPro Intron hakulooraan asiakkaat kertovat tuhansia kertoja päivässä mitä he haluavat. Logien tutkiminen on tämän viestinnän kuuntelua. Näiden seuraaminen, tutkiminen ja julkaisu (sekä datana että jalostetusti) voisi minun mielestäni olla arkipäiväistä kirjastorutiinia.

Aloitin säikeen myös Kirjasto-kaapelilla.

Vaskin asiasanat, jotka eivät ole YSAssa

Sanaston pengontaa

Kävin läpi Vaski-kirjastojen aineistotietokannan ja etsin asiasanat, jotka eivät esiinny tesauruksessa. Ohessa lista yleisimmistä:

esiintymien lkm termi
202 sotaromaanit
108 Lieto-kokoelma
100 korjausoppaat
66 eräkirjat
38 matkakirjat
29 sisustusoppaat
27 Suomen historia
23 kansanmusiikki: Venäjä
23 jouluaskartelu
22 posliinimaalaus
21 viihdetaiteilija : Suomi
21 salapoliisiromaanit
20 Yhdistyneet kansakunnat
20 kirjasto- ja informaatiopalveluala
20 1980-LUKU
18 vaateompelu
17 rock and roll
16 MURRENÄYTTEET
16 itämaiset taistelulajit
15 sosiaali- ja terveydenhuolto
15 rajavartiolaitos
15 paperiaskartelu
15 laivaluettelo
15 DVD-elokuvat
14 tiedeakatemiat
14 Suomen taideyhdistys
14 piirroselokuvat
13 tabulatuurinotaatiot
13 ranskalainen keittiö
13 nuorten aikuisten kirjat
13 Jeesus Kristus
13 äänentoistotekniikka
13 šamanismi
12 YKSINLAULU
12 vauvanhoito
12 Titanic
12 tilastollinen tutkimus
12 punk rock
12 kaupunkihistoriat
12 historia : 1900-luku
12 arabialainen musiikki
12 1960-luku
11 tšekin kieli
11 säveltäjät : Suomi
11 rentoutuminen
11 muodin historia
11 kuultokudos
10 varastaminen
10 Uusi testamentti
10 taitelijat
10 seminaarit (kokoukset)
10 samanismi
10 rockmusiikki
10 kiinalainen keittiö
10 1800-LUKU

Ohjelman (kts. alla) antamista tiedoista näkee myös, että esim. asiasana muodin historia (jota ei ole YSAssa) esiintyy Vaskin tietueissa Ppro853_137785, Ppro853_541141, Ppro853_541143, Ppro853_541144, Ppro853_541145, Ppro853_541146, Ppro853_541634, Ppro853_561083, Ppro853_561086, Ppro853_561087 sekä Ppro853_561088.

Eri asiasanoja joilla on vain yksi esiintymä Vaskissa löysin 1761 kappaletta. Kymmesti esiintyviä asiasanoja on kahdeksan kappaletta. Miten tällaista dataa olisi parasta havainnoillistaa? Ideoita vastaanotetaan.

Vaski on FinMARC 1998 -muotoa ja kyseisen standardin mukaan kentässä 652 olevat asiasanat ovat peräisin Yleisestä suomalaisesta asiasanastosta, eli YSA:sta (kansainvälisessä MARC21:ssä asia ilmaistaan hieman toisin, kuvaamalla asiasanakenttien osakentässä ‡2 mikä sanasto on kyseessä, tyyliin 650 #7 ‡a bibliografinen valvonta ‡2 ysa).

Tein aiemmin pienen työkalun jolle voi antaa yksittäisiä MARC-tietueita ja se kyselee ONKI-palvelun ohjelmointirajapintaa (APIa) käyttäen ovatko tietueen asiasanat YSO-ontologiassa. Kun YSA julkaisiin vastikään avoimena datana, tuli nyt tekemäni massakäsittely helpommaksi. Työn voi nykyään tehdä omalla koneella, pommittamatta ONKIn rajapintaa noin suurella kyselymäärällä.

Prosessi

Noukin ensin YSA:n SKOS-muotoisesta tiedostosta varsinaiset sanat (prefLabel ja altLabel) tekstitiedostoon yhdeksi pitkäksi, pitkäksi listaksi. 14.6.2011 lataamassani tesauruksessa oli 36991 termiä.

Sekä MARC-data että sanasto ovat saatavilla myös XML:nä, jonka käyttäminen olisi oikeaoppisempaa, mutta en nyt jaksanut säätää niiden kanssa sillä XML:n käsittelytyökalut ovat minulle aika tuntemattomia. Sensijaan olen tottunut operoimaan unixin komentoriviltä ja opettelen myös Perliä.

Tässä kirjoittamani Perl-kielinen ohjelma jota käytin:

#!/usr/bin/perl

use MARC::Batch;

my $file = "vaski-kunnostettu.mrc";
my $batch = MARC::Batch->new('USMARC', $file);
my $sanasto = "~/ysa.lista.alt_too";

$batch->strict_off();
while (my $record = $batch->next()) {
        for my $termi ($record->subfield('652', 'a')) {
        if (system("grep -q -i \"$termi\" $sanasto")) {
            print($termi, ";", $record->field('001')->as_string,"\n");
        }
    }
}

Kuten ehkä huomaat, tämä on hyvin kaukana elegantista. Ensinnäkin käsiteltävät tiedostot on nimetty ohjelman sisällä ja toisekseen kukin termi etsitään sanastosta käyttäen ulkoista ohjelmaa. Tämä aiheuttaa yhden forkin per asiasana, joka on huono asia. Oikeasti vertailu pitäisi tehdä tämän ohjelman sisällä, lukemalla asiasanat tiedostosta yksiulotteiseen taulokkoon tai listaan. Mutta toimii tämä näinkin, kun huonoa ohjelmistosuunnittelua voi korvata prosessoriteholla 🙂 Miniläppärini (joka on ainoa käyttämäni työväline) rouskutteli tätä useita tunteja.

Mutta tämän ei olekaan tarkoitus olla eleganttia. Tämän on tarkoitus osoittaa kirjastoammattilaisille, että me itse voimme ottaa aloitteen käsimme sen sijaan, että odottelemme että järjestelmätoimittajamme tekee kivoja asioita puolestamme (sitä on turha odotella).

Vielä pari huomiota laatimani menetelmän puutteista: se ei huomioi asiasanaketjuja, ja tuon kaltainen huoleton merkkijonojen etsintä johtaa vääriin tuloksiin mikäli etsittävä epäkelpo asiasana esiintyy osana kelpoa asiasanaa. Tälle asialle pitäisi todella tehdä jotain.

Mitä välii?

Ymmärtääkseni kaikkien 652-kentässä olevien termien pitäisi olla peräisin YSA:sta. Näin sanoo myös FinMARC -formaatti. Asiasanoja joita ei YSAssa ole, ei pitäisi käyttää ainakaan kyseisessä kentässä. Kuten tiedämme, ei asiasanasto kuvaa kaikkia maailman ilmiöitä. Siksi paikallisille sanastoille onkin tarvetta.

Minua paremmin luettelointiin perehtyneet tietänevät mitä sisällönkuvailussa oikeasti kuvaillaan. Jossain lienee sovittu, onko sisällön lisäksi aiheellista kuvailla muotoa. Esim. Vaskissa käytetään termejä ”Nintendo Wii”, ”sotaromaanit” ja ”elämäkerrat” kuvailemaan muotoa. Nämä teokset eivät kerro Nintendon Wii-peleistä, sotaa kuvaavista romaaneista tai elämäkertojen kirjoittamisesta, vaan ovat niitä. Ehkä tämä on ookoo – en jaksa nyt lueskella luettelointisäännöstöä asiaa tarkistaakseni enkä muista ulkoa mitä siellä sanotaan. Mutta ei ole vaikea nähdä että tämä on problemaattista. Ihmettelin samaa asiaa aiemmin, kun mietin minkähänlaista olisi “ihan oikea kirjastotyö” pelien parissa?

Mainiot luetteloijat ovat arvatenkin tämän muoto vs. sisältö -asian ratkaisseet jollain sopimuksella (joka siis lienee kirjattuna luettelointisääntöihin). Käytännössä ainakin Vaskissa kuvaillaan surutta sekä muotoa että sisältöä 652 -kentässä.

Tässä on muitakin mielenkiintoisia puolia: MARC-tietueessa ei esimerkiksi ole mitään tietoa siitä, mitä YSAssa on ollut tietueen luontihetkellä. YSA muuttuu ajan myötä, kenties osa nyt listaamistani termeistä on ollut kyseisen luetteloijan käyttämässä YSA:n versiossa luettelointihetkellä… MARC-tietueesta itsestään puuttuu tällainen tekninen metadata.

Kirjoitusvirhe luetteloinnissa on fataali virhe, ja teos katoaa kyseisen aiheen kannalta mustaan aukkoon. Varsinaisia kirjoitusvirheitä löysin Vaskista onneksi vain ihan muutaman.

Monet löytämäni, YSA:n ulkopuoliset termit ovat hyvin käytännöllisiä ja olen oikeasti onnellinen että niitä on tietueisiin luettelointisääntöjen vastaisesti tallennettu. Tämä kertoo sanaston puutteellisuudesta ja myös luokitusjärjestelmän puutteista, sekä kirjastoihmisten omatoimisista ongelmanratkaisupyrkimyksistä. Se on tietenkin aivan oikein. Nämä itse keksityt termit voisi eristää omaan sanastoonsa, jolla YSAa täydennetään, ellei ole YSAn tarkoituksenmukainen ylläpito ole mahdollista. Lisäksi meillä on käytettävissämme useampia sanastoja YSAn rinnalla ja niitä olisikin hyvä käyttää MARC-tietueen sellaisissa paikoissa, jotka eivät ole YSAlle varattuja.

Kirjaston tietokanta kertoo runoudesta, kun siltä kysyy

Näin sitä runoutta kustannetaan

Kaukomieli-blogia pitävä mainio Matti Lassila on taas hääräillyt Open Dataksi avatun HelMet-aineiston kimpussa. Nyt syntyi  kuvaelmaa siitä, mitä kirjaston aineistotietokanta kertoo suomalaisen runouden kustantamisesta ja julkaisemisesta. Käykäähän hämmästelemässä, ja painostakaa samalla Kansalliskirjasto avaaman kansallisbibliografiamme Fennica. Sen avoin selailukin on vain väliaikainen hanke.

 

Haluan kiinnittää huomionne siihen pieteettiin, jolla Kaukomieli-blogissa aina esitellään käytettyjä menetelmiä.

Tämä on hyvin inspiroivaa; ajattelen klassisia brittiempiristejä, jotka seisoivat luonnon äärellä ja esittivät sille häikäilemättä ja systemaattisesti kysymyksiä. Näin se merkityksen uuttaminen sinänsä merkityksettömästä datasta käy toimeliaalta ja uteliaalta. Terveiset ja kiitos Kaukomielelle.

Muutama viite tekstinkäsittelytyökalujen vaikutuksesta kirjoittamiseen (ei tissejä)

Rasmus Malling-Hansenin kirjoitusaparaatti, vm. 1878 (Kuva Wikimedia Commonsista, kiitti tyypit)

Turun yliopiston digitaalisen kulttuuritutkimuksen perusopintojen aineistonkeruun harjoituskurssin kolmantena tehtävänä oli omaa aihetta käsittelevien tekstien etsiminen. Aiheenanihan on siis tekstinkäsittelytyökalujen vaikutus tekstin tuottamisen prosesseihin.

Kokoamani aineisto koostuu muutamasta artikkelista. Keskeisin niistä on Jacques Derridan dialogi The Word Processor teoksessa Paper Machine–Cultural memory in the present (Stanford Uni. Press, 2005, ISBN 9780804746205, englanniksi kääntänyt Rachel Bowlby). En itse valitettavasti puhu ranskaa. Englannistettuja Derridan tekstejä kokoava Paper Machine -teos löytyy Google Booksista, ja kyseinen dialogi on niin lyhyt, että sen voi lukea sieltä kokonaisuudessaan. Olen lukenut kirjan aiemmin, ja kyseinen teksti on inspiroinut minua nyt meneillään olevassa tutkimuksessa. Teoksen tuossa osiossa ei valitettavasti ole lähdeluetteloa, joten sen kaivelu ns. ”helmenkasvatusstrategialla” ei ole mahdollista. Toki varsinaisessa tekstissä on muutamia vinkkejä eteenpäin.

Tuossa dialogissa Derrida käsittelee omaan tyyliinsä tekstinkäsittelyvälineitä yleensä ja reflektoi myös omaa, henkilökohtaista suhdettaan niihin kirjailijana.

Kyselin viitteitä sosiaalisen median kautta, sillä työni kautta minulla on aikamoinen liuta tuttuja jotka ovat opiskelleet kirjallisuudentutkimusta. Kyselin Facebookissa

Hoi tyypit, onkos kirjallisuudentutkimuksen opintojen myötä tullut vastaan mitään tekstiä, jossa olisi pohdittu tekstinkäsittelytyökalujen vaikutusta tekstin tuottamiseen?

Ja Twitterissä

Kyselin myös Turun yliopiston digitaalisen kulttuurintutkimuksen Digiryhmä -sivulla ja olen kirjoitellut blogiini pari tekstuaalitieteitä sivuavaa juttua, ml. tämän kurssin edellinen tehtävä, jossa muotoilimme tutkimuskysymystä.

Ajattelin, että sosiaalisen median kautta voisi herua viitteitä olemassa olevaan aineistoon tästä aiheesta. Vaikka tämä ”sorsastuskausi” (sorsastus=crowdsourcing) olikin sangen lyhyt, sain muutaman mainion viitteen eteenpäin. Kiitos niistä kuuluu Matti Lassilalle, Hanna Saariolle sekä Kimmo Tuomiselle ja ne ovat seuraavat:

  • Veijo Meri: esseekokoelma Julma prinsessa ja kosijat (Otava, 1986 ISBN 951-1-08998-6)
  • James Hartley, Michael Howe, Wilbert McKeachie: Writing through time–longitudinal studies of the effects of new technology on writing, julkaistu British Journal of Educational Technology -journaalissa (vol 32, issue 2, sivut 141-151, maaliskuu 2001, (DOI 10.1111/1467-8535.00185)
  • Salomon, G., Kosminsky, E, & Asaf, M. (2003). Computers and Writing. In T. Nunes & Bryant,P. (Eds.) (2003). Handbook of children’s literacy. (pp. 409-442). London: Kluwer.

Näitä en vielä lukenut, mutta silmäilin uteliaisuuttani mitä muita samaan aiheeseen liittyviä viitteitä Google Scholar antaa tuon viimeisimmän viitteen perusteella. Diapsalmata -sivusto näyttää mielenkiintoiselta ja relevantilta. Päädyin sinne, sillä siellä on juttu Nietzschen rakkauslaulusta legendaariselle kirjoituskoneelleen. Diapsalmatan kirjoittamista käsittelevissä postauksissa on mainittu myös tuo Derridan The Word Processor. Toinen, jo aiemmin seurailema sivusto on if:book.

Nämä, ja näiden lähdeluettelot ruokkoamalla saisi varmasti enemmän aineistoa kuin jaksaisi lukea. Pitäydyn tässä tehtävässä kuitenkin näissä lähteissä ellei minulle enää lähetetä jotain erityisen kiinnostavia viitteitä. Diapsalmatan ja if:bookin kaiveluun on syytä varata vielä pari tuntia aikaa.

Koko tämän aineistonkeruuprosessin aikana kirjoitin noin 3 Facebook-postausta, viitisentoista kommenttia Facebookissa sekä pari blogikommenttia Diapsalmataan sekä The Atlanticissa olleeseen, paljon huomiota keränneeseen Nicholas Carrin Is Google making us stupid -kolumniin. Facebookin ulkopuolelle lähinnä laittelin suoria linkkejä Derridan tekstiin.

Muutama teksti digitaalisesta pelaamisesta

Etnografiaa Tilt to Liven parissa

Turun avoimessa yliopistossa harrastamiani digitaalisen kultturin opintoja varten laadittu pieni miniessee. Vaikka teksteissä ja omassa kirjoituksessani käsitellään pitkälti pelaamista, toivon etteivät asiaan perehtymättömät saa tästä sellaista kuvaa että ”digitaalinen kulttuuri” missään määrin tarkoittaisi samaa kuin pelaaminen.

Tekstit löytyvät alta sekä Zotero-viitteidenhallintatyökalustani.

Luettavana olleet tekstit tarjoavat muutamia akateemisia näkökulmia digitaaliseen kulttuuriin. Teksteistä keskeisin on Kallio, Mäyrä, Kaipainen: Pelikulttuurin monet kasvot–Digitaalisen pelaamisen arkiset käytännöt Suomessa. On mielenkiintoista tutustua joihinkin alan analyysimenetelmiin sekä kuvauksiin (perusteluineen) miten menetelmät on kehitetty.

Kallion, Mäyrän ja Kaipaisen artikkelissa esitellään tutkimuksen yhteydessä rakennettu analyyttinen malli pelaamisen tarkasteluun. Se on nimetty InSoGa -malliksi (intensity, socialibility, games). Tässä mallissa tarkastelun kohteena eivät ole pelit, vaan pelaaminen sekä mitä se pelaaville ihmisille merkitsee.

Kuten artikkelin alussa sanotaankin, on sekä artikkelin että varsinaisen International Study of Games Cultures -tutkimuksessa näkökulma juuri kulttuurintutkimuksellinen. Tämä oli miellyttävää luettavaa, sillä digitaalista kulttuuria ei ole lähkökohtaisesti eristetty omaan lokeroonsa. Sitä tarkastellaan sen sijaan yleisen kulttuurintutkimuksen piirissä.

Digitaalisen pelaamisen arkiset käytännöt Suomessa -artikkeli kuvailee monenlaisia pelaamisen tapoja. Kirjoittajat tähdentävät myös että sama ihminen pelaa hyvin erilaisin tavoin riippuen ajankohdasta, paikasta ja pelistä. He eivät lähde pelaajien niputtamiseen tiukkoihin lokeroihin vaan pelaajien tai pelien luokittelun sijaan kuvailevat todellakin erilaisia pelaamismentaliteetteja ja -käytänteitä. Digitaalinen pelaaminen on sangen arkinen asia, eikä sitä tässä ole sen kummemmin hämmästelty.

Sosiaalisesta pelaamisesta on artikkelissa erityisen hyviä huomioita, esimerkiksi että peleissä on tärkeää että ne ovat jo entuudestaan tuttuja tai eivät vaadi sen kummempaa opettelua. Sosiaalisesta pelaamisesta kirjoitetaan myös, että fyysisesti samassa tilassa jaettavia pelejä pelataan miltei poikkeuksetta tuttavien, ystävien ja sukulaisten kanssa. Aidossa verkkopelaamisessa pelikaverit ovat sensijaan yleensä tyystin tuntemattomia pelin ulkopuolelta. Erilaista sosiaalisuutta käsitellään tietenkin myös Jari Multisiltan tekstissä Web 2.0. Sosiaalisen median yhteisölliset sovellukset, mutta erityisesti sosiaalisuus peleissä kiinnosti minua nyt.

Radio Flare REDUX iPhonella

Paavilaisen, Korhosen ja Saarenpään teksti Pelaaminen matkapuhelimella nyt ja tulevaisuudessa maalailee myös monia (matkapuhelimilla pelattavista) mobiilipeleissä olevia mahdollisuuksia erilaiseen vuorovaikutukseen muiden pelaajien kanssa. Omien kokemukseni mukaan mobiilipeleissä tällainen tosin rajoittuu lähinnä omien suoritusten (pisteiden tai muiden saavutusten) julkaisemiseen Facebookissa ja Twitterissä sekä mahdollisuuteen lisätä muita pelaajia kavereikseen. Tällaisesta alkeellisuudesta johtuen mobiilipelaamisen sosiaalisuuden saralla tuntuu siis olevan paljon varaa monipuolistumiseen; tutkimushankkeiden ulkopuolella ei vielä ole nähty mitään kovin ihmeellistä (vastikään julkaisu Shadow Cities voi tosin olla jotain hienoa ja tietenkin on geokätkentä).

Niinsanotusta satunnaispelaamisesta on Kallion, Mäyrän ja Kaipaisen artikkelissa myös mielenkiintoisia juttuja. Tehdyn haastattelututkimuksen mukaan vain 8% vastaajista mielsi itsensä ”pelaajaksi”, vaikka yli puolet ovat jonkinlaisia pikkupelejä pelanneet. Tämä osoittaa minusta hienosti, miten arkipäiväistä digitaalinen pelaaminen todellisuudessa on; ei sitä välttämättä sen kummemmin tule ajatelleeksi. Vastaavia analogioita löytyy vaikkapa internetin käyttöä kartoittaessa.

InSoGa -malli pystyy kuvaamaan pelaamistilanteita laidasta laitaan. Olisi ehkä yleistettävissä muillekin kulttuurintutkimuksen alueille tai toimia ainakin pohjana myös muiden ilmiöiden selittämiseen. Siihen tutustuminen on siis hyvä alku opinnoille.

Artikkeli on erittäin raikasta luettavaa. Monesti kuulee että pelaamisesta, pelaajista ja peleistä toistellaan myyttejä, jotka on opittu jostain muualta kuin oman kokemuksen kautta. Kallion, Mäyrän ja Kaipaisen artikkelia voi suositella jokaiselle kulttuurista aidosti kiinnostuneelle.

Myös Riikka Turtiaisen artikkeli Realistisuuden ylistys: pelaan jalkapalloa – olen mies tarjoaa muutamia herkullisia näkökulmia. Keskeisin näistä on tietenkin sukupuolinormien ruotiminen, joka siis on artikkelin varsinainen aihe. Mutta Turtiainen viittaa myös Aki Järvisen käyttämään termiin ”televisualismi”, joka sai minut mietteliääksi. Samasta puhutaan myös Mariosofia -kirjassa. Televisualismilla tarkoitetaan sitä, että esimerkiksi pelikonsolilla tai tietokoneella pelattavat jalkapallopelit eivät yritä antaa vaikutelmaa jalkapallosta sinänsä, vaan television urheilulähetyksestä hidastuksineen, selostuksineen ja kuvakulmineen. Simulaatio ei siis pyrikään olemaan suora; jalkapallon sijasta simuloidaan penkkiurheilua. Tämä tuntuu pätevän erityisesti urheilupeleihin. Turtiainen kirjoittaa sanan ”realistisuus” merkityksestä. Nämä pelit ovat kyllä erittäin realistista mediaurheilua (sen kaikkine kieroutumineen), mutta eivät realistista jalkapalloa.

Sukupuoliroolien tarkastelu jalkapallopeleissä saatteli minut tarkastelemaan miten konsolilla tai tietokoneella pelaamista tavanomaisesti on kuvattu sanoma- ja aikakausilehdissä, oman alani julkaisuissa ja keskusteluissa, mainoksissa ja niin edelleen. Minkälainen on käsitys pelaavasta ihmisestä? Kuten Turtiaisen käsittelemissä tietokonepeleissä jalkapalloilija on sosiaalinen konstruktio, niin samoin sellainen on myös itse tietokonepelaaja. Tutkimuksista (mukaanlukien Kallion, Mäyrän ja Kaipaisen artikkeli) tiedämme, että pelaamista harrastavat todellisuudessa erittäin kirjavat joukot kaikenlaisia ihmisiä.

Analyysi Helsingin kaupunginkirjaston aihepakettien ajallisesta kattavuudesta

Kirjasto on kertomus. Nimenomaiseen kertomukseen sisältyy väite, että kirjasto tuo esille kirjallisuuden (ym. julkaisujen) niin kutsuttua pitkää häntää. Siis pitämällä käytössä ja nostamalla esiin aineistoa, johon ei yksittäisinä julkaisuna kohdistu suurtakaan mielenkiintoa, mutta joka on määrällisesti laajaa.

Viime viikolla tuli mieleen, että Helsingin kaupunginkirjaston aihepakettien tonkiminen toisi tähän ehkä jotain valoa. Aihepaketit ovat sikäli mielenkiintoinen tutkimuskohde, että niiden laatimista ei ole keskitetysti juuri ohjattu; päin vastoin laatijoilla on vapaat kädet vinkata haluamaansa aineistoa, ja koko henkilökunta on pakettien kokoamiseen tervetullut. Näin voitaisi ajatella, että aihepaketit heijastavat kirjastoammattilaisten omaa näkemystä tällaisesta vinkkaamisesta ja aineiston esiin tuonnista, eikä organisaation näkemystä.

Koodasin ihmeellisillä bash-taidoillani pari loitsua, jotka käyvät hakemassa aihepakettien web-sivut kaupunginkirjaston julkaisujärjestelmässä asustavasta aihepakettiarkistosta, tonkivat niistä linkit pääkaupunkiseudun näyttöluetteloon HelMetiin ja käy vielä poimimassa sieltä ns. xrecord-tiedostot, jotka ovat XML-muotoisia MARC 21 -tietueita. Sieltä löytyy kenttä 260‡c, eli Julkaisu-, jakelu- jne. aika. Työkalusettinä minulla on perinteinen unix-varustus tyyliin sed, wget ja libxml:ään nojaava xpath. Logiikka on toteutettu bashillä. Oikeasti minun pitäisi opetella Perl-ohjelmointia juuri tällaista toimintaa varten.

Toivoin tällä tutkimuksella osoittavani, että toisin kuin yleensä tykätään toisella, kirjastolaiset oikeasti nostaisivat näissä paketeissa esille lähinnä uutta materiaalia. Ajattelin etukäteen, että ehkä 80% kohdistuisi viiden edellisen vuoden aikana julkaistuun aineistoon. Valitettavasti (tai siis onneksi) jouduin pettymään, sillä läpikäymäni aihepaketit todellakin nostivat esiin suuren määrän vanhempaa aineistoa!!

Kävin läpi vain vuosien 2010 ja 2009 aihepaketit. Tältä vuodelta on 16 aihepakettia, viime vuodelta 43. Tekemäni työkalu löysi näistä suoria viitteitä teoksiin 186 ja 747 kappaletta.

Alla tulos:

Vaikka painoa kertyykin huomattavasti viiden edellisen vuoden julkaistulle aineistolle vuonna 2009, ei käyrä ole ollenkaan niin jyrkkä kuin olin kuvitellut. Paljonkos se kirjan keskimääräinen aika kirjakaupan hyllyllä onkaan? Jotain 6 kuukautta tai jotain?

X-akselin otsikot ovat tässä aika pientä tihrua, mutta akselilla on sata vuotta julkaisuja vuodesta 1910 alkaen. Suurempi, paremmin luettava versio kuvasta löytyy Flickristä. Nyt nappaamani datat sekä työkalun saa minulta jos haluaa. Tai voin jatkaa työtä jos se jotakuta kovasti kiinnostaa ja siitä olisi kirjastoaatteen ja maailman hyvyyden kannalta iloa.

Mistään käyttämistäni työkaluista ei kiitos kuulu järjestelmätoimittajillemme (Innovative Interfacesin Millenium, Sinisen Meteoriitin Meteor). Ne eivät tarjoa mitään työkaluja tällaiseen tietojen ynnäilyyn eri lähteistä. Kiitos kuuluu sen sijaan avoimen lähdekoodin kansainväliselle yhteisölle, joka on kymmeniä vuosia herkeämättä tuottanut joustavia, tehokkaita, ilmaisia ja vapaita työkaluja, joita ilman maailma olisi erittäin erilainen kuin on. Kiitos.

Samalla menetelmällä ja tekemieni työkalujen avulla voi piirrellä erilaisia graafeja. Esim. käppyrän voisi rajoittaa vain tieto- tai kaunokirjallisuuteen tai vaikka musiikkiin. Myös aiempien vuosien käppyrät voisi piirtää. Aihepaketteja on nyt yhteensä 209, vuodesta 2006 lähtien. Tekemäni työkalusetti ei ole todellakaan täysautomaattinen (tosin tämä proof-of-concept todistaa, että työkalun voisi kehittää sellaiseksi), mutta pointti on, että meillä kirjastoilla on kaikenlaista dataa, jota voimme tutkia jos haluamme. Tämän tekemiseen meni noin yksi työpäivä, mukaan lukien tämä blogikirjoitus.

Ajallinen näkemys pitkään häntään on yksi tapa katsoa asiaa. Jos myös kirjastojen lainaustilastot olisivat saatavilla (kuten niiden pitäisi olla), voitaisi vastaavalla tavalla selvittää vaikkapa kuinka paljon kirjastolaiset nostavat esiin aineistoa jota ei lainata paljoakaan.

Digiaineiston arkistoinnista NY Timesissä

levykkeitä

"floppy disks for breakfast" by Blude@Flickr

The New York Timesissä on Patricia Cohenin kompakti, mutta mielenkiintoinen kirjoitus alunalkaen digitaalisen sisällön arkistoinnista. Otsikko on Fending Off Digital Decay, Bit by Bit. Emoryn yliopistossa on Salman Rushdie -näyttely, ja siellä on esillä hänen alkuperäisiä tekstejään sekä paperilla, että tiedostoina ja näyttelyssä kävijät pääsevät näkemään ja kopeloimaan Rushdien tietokonetyöpöytää sellaisena, kuin se hänellä itsellään oli; siis kurkistamaan hänen työskentelyprosessiinsa. Artikkelissa vertailukohtana esitetään näyttelyyn rekonstruoitu Dickensin työpöytä, jonka ääreen kävijät voivat istahtaa vanhaan tuoliin ja kokeilla vanhalla mustekynällä kirjoittamista.

Digitaalisen aineiston säilyttämiseen liittyy monia kysymyksiä, sekä vanhoja että uusia. Antiikkisten tiedostomuotojen avaaminen on näistä keskeisimpiä; pitäisikö tiedostot avata vielä kun teknologia on yleistä ja halpaa ja siirtää aika-ajoin modernimpaan muotoon, vai pitäisikö nimenomaan pyrkiä alkuperäisen muodon säilyttämiseen ja tinkiä käyttökelpoisuudesta. Samalla tulee esitettyä arkistoinnin peruskysymys siitä, että pitäisikö alkuperäiset uudelleenjärjestellä vai jättää alkuperäiseen järjestykseensä. Digitaalisessa ympäristössä alkuperäisestä voidaan onneksi luoda loputtomasti identtisiä kappaleita, joten kakku voidaan sekä syödä että säästää.

Kysymys alkuperäisyyden tavoittelusta on esillä myös fyysisia teoksia digitoitaessa: onko digitoitavana varsinainen sisältö joka halutaan saattaa koneluettavaan muotoon (OCR:ään riittävä digitointi) vai pitäisikö pyrkiä tuottamaan digitoitavasta teoksesta niin hyvä facsimile eli näköispainos että esim. paperin kuidut näkyvät tarkasti. Paljon riippuu siitä, ovatko mielenkiinnon kohteena esineet (esim. bibliofetisistinen näkökulma) vai sisältö (tavallinen näkökulma).

NY Timesin artikkelissa mainitaan myös eräs itseäni paljon kiinnostava aspekti digitaaliseen sisältöön, joka liittyy luomisprosessiin itseensä:

“If you’re interested in primary materials, you’re interested in the context as well as the content, the authentic artifact,” Ms. Farr said. “Fifty years from now, people may be researching how the impact of word processing affected literary output,” she added, which would require seeing the original computer images.

It may even be possible in the future to examine literary influences by matching which Web sites a writer visited on a particular day with the manuscript he or she was working on at the time.

Esim. undo-historian näkeminen voisi olla tulevaisuudessa mielenkiintoista. Oman kokemukseni mukaan digitaalisesti (so. tietskalla) tekstin muodostumissuunta on enemmänkin sisältä ulos tai raa-asta kypsään, eikä välttämättä alusta loppuun. Olisiko jollakulla tähän liittyviä viitteitä? Pitäisikö ihan oikeasti harkita niitä (yleisen!!!) kirjallisuustieteen opintoja?

Katso NY Timesin sivuun upotettu 5 minsan video, joka tarjoaa pienen kierroksen kyseiseen Salman Rushdie näyttelyyn.

(via jotain, en enää muista mistä 😦 )

Erään e-kirjan tarina

Seuraa tarina e-kirjoista. Tarina ei tietenkään ole sinänsä kovin mielenkiintoinen, mutta nostaa esiin muutamia e-kirjoihin liittyviä ongelmakohtia jotka ovat kaikki kyllä olleet tiedossa ennenkin.

Sattuipa eräänä päivänä kaukaisessa, kaukaisessa maassa niin, että kirjastosetä halusi tehdä hieman kokoelmanhallintatyötä. Kirjastojärjestelmästä oli tehty tietokanta-ajo siten, että kaikenlaista mielenkiintoista dataa aineistosta oli tallennettu Excel-muotoiseen tiedostoon. Kirjastosedän Excel-taidot olivat hieman ruosteessa ja nyt suunnitteilla olleet toimenpiteet datan kanssa olivat hänelle hieman uudentyyppisiä. ”Mikä avuksi?”, ajatteli kirjastosetä. ”Noh, joku Excel-aiheinen kirja olisi varmaan hyvä tapa lähestyä asiaa”, hän tuumi  ja myhäili tyytyväisenä siitä, että lähestyi asiaa kirjastolaiselle sopivasta tulokulmasta, julkaisujen kautta. Suoritettuaan kenelle tahansa kirjastoammattilaiselle intuitiivisen, tarkennetun haun s:tilastot* and s:excel HelMet-tietokantaan, nousi hänen kasvoilleen yllättynyt hymy–kahdesta tuloksesta nimen perusteella relevantimpi oli e-kirja! Pienoinen epäilys kuitenkin häilähti kirjastosedän mielessä, sillä oli epävarmaa mitä tuleman piti.

Käden käänteessä kirjastosetä kuitenkin tunnistautui  pääkaupunkiseudun kirjastoyhteistyön HelMetin e-kirjatoimittajan Ellibsin sivustolle kirjastokorttinsa numerolla ja siihen liittyvällä salasanalla. Nyt hän pääsi lukemaan teoksen esittelytekstiä, joka kirjastojärjestelmän sivuilta puuttui. Korvaukseksi tästä lisätiedosta oli odotettavissa kyseisen, ulkopuolisen toimittajan käyttöehtoihin sitoutuminen. ”Enpä nyt vaivaa päätäni niillä”, ajatteli kirjastosetä ja kiinnitti sen sijaan huomiota siihen, että kyseisen ulkopuolisen toimittajan järjestelmässä teos oli luokiteltu kategoriaan systeemityö. ”Tämähän vastaa HKLJ:ssä luokkaa 627.71 systeemityö.” HelMetissä teoksen luokka oli kuitenkin 627.733 taulukkolaskentaohjelmat ja asiasanoina Ellibs, sähkökirjat, Excel, atk-ohjelmat, taulukkolaskenta sekä tilastot. Muodollisesti pätevä kirjastosetä ei tästä hätkähtänyt. Tiesihän hän toki, että tiedontallennus on systemaattista, mutta tiedonhaku ja -hankinta luovuutta vaativaa työtä.

Suuremmaksi huoleksi osoittautui,  että Ellibsin sivu ilmoitti e-kirjan lukuun tarvitaan Adobe Digital Editions -ohjelma. ”Tämähän onkin muuttunut aikaisemmasta”, kirjastosetä huomasi, ”eikä ADE:tä taida olla käyttämälleni, kotimaiselle GNU/Linux käyttöjärjestelmälle”. Ja näin asia todella olikin: Adobe ei ollut tehnyt Digital Editionsista Linux-versiota suunnitelmiensa mukaisesti eikä ohjelmaa kukaan muukaan ole saanut tehtyä.

Lueskeltuaan internetin englanninkielisiä keskustelupalstoja vartin verran kirjastosetä oli luopua toivosta saada e-kirja käyttöönsä,  sillä tarvittavaa Adobe Digital Editionsia -ohjelmaa ei näyttänyt kertakaikkiaan olevan saatavissa millekään hänen käytettävissään olevalle tietokoneelle. Painettua versiota ei kirjasta pääkaupunkiseudun kirjastoissa ollut, vain tuo e-kirja. ”Katsompa huvikseni, saisinko e-kirjan lainaksi jostain muualta”, kirjastosetä ajatteli ja siirtyi käyttämään muutamaa, suullisena perimätietona aikojen saatossa oppimaansa verkkopalvelua. ”No täältähän teos löytyy suoraan luettavaksi, eikä asentelua tarvita. Ja kappas, tämän lystikkään vertaisverkkopalvelun kautta näyttää löytyvän peräti 19 henkilöä, jotka ovat halukkaita lainaamaan kirjan minulle.”

Kirjastosetä ei tietenkään oikopäätä ruvennut lataamaan kirjaa vaikka tiesi olevansa vain yhden hiirenklikkauksen päässä haluamastaan teoksesta. Tarinamme päättyy tähän, ja siirrymme itsekin pohtimaan samoja kysymyksia joiden parissa kirjastosetä yhä tänäkin päivänä pyöriskelee…:  olisiko hänen pitänyt valita käyttöjärjestelmänsä toisin, olisiko HelMet -kirjastojen pitänyt valita e-kirjatoimittajansa toisin, olisiko Ellibsin pitänyt valita tekninen järjestelmänsä toisin, olisiko kirjoittajan pitänyt valita julkaisijansa toisin, olisiko julkaisijan pitänyt valita tiedostomuotonsa toisin vai olisiko kirjastosedän pitänyt valita kiinnostuksenkohteensa alunperinkin aivan toisin? Olisiko kirjastosedän intresseissä ollut lainata kirja Mininovan tai muiden vastaavien vertaisverkkopalvelujen kautta? Miksi hän ei lainaisi kirjaa vertaisverkosta vai olisiko parempi lukea kirja suoraan verkosta kuten Scribdissä? Millä motiivilla jotkut ihmiset tätäkin kirjaa haluavat verkon kautta lainata? Miksi ylipäätään kukaan haluaa lainata kirjojaan toisille?  Entä miksi kirjasto antaa kirjoja lainaksi? Miksi teoksen lukeminen itse valittua kautta olisi paheksuttavaa tai laitonta, kun HelMet-kirjastot ovat kuitenkin lunastaneet Ellibsiltä käyttöoikeuden kyseiseen teokseen ja tarjoavat sitä omille asiakkailleen (vaikka se onkin rikki)?

(Seeding: 20)

Hauskanpidon vastakohta on narraatio

Tämän vuoden MindTrekista (katso tunnelmia myös Jaikusta, Technoratin blogihausta tai camping-painoitteisia valokuviani) ei jäänyt paljoakaan mieleen; erityisesti ensimmäinen päivä oli pettymys. Yahoo!n Mark Davis kuitenkin jutteli ihan kirjastolaisen mielestä mielenkiintoisia juttuja Flickrin tageista ja mitä suuresta määrästä tägejä ja niiden yhdistelystä voidaan päätellä. Davis puhui tageista ja niiden tutkimisesta erityisesti Flickrin kartta-sovelluksen yhteydessä.

Ehkäpä aika peruskauraa tiedonlouhinnan ja informaation kontekstin kanssa työskenteleville, mutta mitä kaikkea tuon kaltaista työtä kirjaston asiasanotetun aineiston kanssa tehdään tai voitaisi tehdä?

Pelejä käsittelevässä paneelissa mietittiin yhdessä vaiheessa, että mitä se pelaaminen oikeastaan on. Negaatio ja vastakohtaparien muodostaminen ovat aina hyviä tulokulma käsitteiden määrittelyyn. Paneelin mutistessa ääneen että mikähän mahtaisi olla yhdessä tekemisen, kilvoittelun, leikittelyn, hauskanpidon ja interaktiivisuuden (siis pelien, sekä paidea että ludus) vastakohta, huikkasi joku irvileuka että “narraatio”! Salillinen ihmisiä naurahti.

Paikalla tuskin oli tuolloin kirjastolaisia koska en huomannut kenenkään pyörtyvän. Oma maailmankuvani nytkähti ainakin hieman. Erittäin herkullinen näpäytys tarinankerronnan, esittämisen, monologien, tekstin, kirjojen, kaunokirjallisuuden ja muunlaisen kuuntelemattomuuden maailmassa eläville. Kuten meille kirjastolaisille.