Vaskin asiasanat, jotka eivät ole YSAssa

Sanaston pengontaa

Kävin läpi Vaski-kirjastojen aineistotietokannan ja etsin asiasanat, jotka eivät esiinny tesauruksessa. Ohessa lista yleisimmistä:

esiintymien lkm termi
202 sotaromaanit
108 Lieto-kokoelma
100 korjausoppaat
66 eräkirjat
38 matkakirjat
29 sisustusoppaat
27 Suomen historia
23 kansanmusiikki: Venäjä
23 jouluaskartelu
22 posliinimaalaus
21 viihdetaiteilija : Suomi
21 salapoliisiromaanit
20 Yhdistyneet kansakunnat
20 kirjasto- ja informaatiopalveluala
20 1980-LUKU
18 vaateompelu
17 rock and roll
16 MURRENÄYTTEET
16 itämaiset taistelulajit
15 sosiaali- ja terveydenhuolto
15 rajavartiolaitos
15 paperiaskartelu
15 laivaluettelo
15 DVD-elokuvat
14 tiedeakatemiat
14 Suomen taideyhdistys
14 piirroselokuvat
13 tabulatuurinotaatiot
13 ranskalainen keittiö
13 nuorten aikuisten kirjat
13 Jeesus Kristus
13 äänentoistotekniikka
13 šamanismi
12 YKSINLAULU
12 vauvanhoito
12 Titanic
12 tilastollinen tutkimus
12 punk rock
12 kaupunkihistoriat
12 historia : 1900-luku
12 arabialainen musiikki
12 1960-luku
11 tšekin kieli
11 säveltäjät : Suomi
11 rentoutuminen
11 muodin historia
11 kuultokudos
10 varastaminen
10 Uusi testamentti
10 taitelijat
10 seminaarit (kokoukset)
10 samanismi
10 rockmusiikki
10 kiinalainen keittiö
10 1800-LUKU

Ohjelman (kts. alla) antamista tiedoista näkee myös, että esim. asiasana muodin historia (jota ei ole YSAssa) esiintyy Vaskin tietueissa Ppro853_137785, Ppro853_541141, Ppro853_541143, Ppro853_541144, Ppro853_541145, Ppro853_541146, Ppro853_541634, Ppro853_561083, Ppro853_561086, Ppro853_561087 sekä Ppro853_561088.

Eri asiasanoja joilla on vain yksi esiintymä Vaskissa löysin 1761 kappaletta. Kymmesti esiintyviä asiasanoja on kahdeksan kappaletta. Miten tällaista dataa olisi parasta havainnoillistaa? Ideoita vastaanotetaan.

Vaski on FinMARC 1998 -muotoa ja kyseisen standardin mukaan kentässä 652 olevat asiasanat ovat peräisin Yleisestä suomalaisesta asiasanastosta, eli YSA:sta (kansainvälisessä MARC21:ssä asia ilmaistaan hieman toisin, kuvaamalla asiasanakenttien osakentässä ‡2 mikä sanasto on kyseessä, tyyliin 650 #7 ‡a bibliografinen valvonta ‡2 ysa).

Tein aiemmin pienen työkalun jolle voi antaa yksittäisiä MARC-tietueita ja se kyselee ONKI-palvelun ohjelmointirajapintaa (APIa) käyttäen ovatko tietueen asiasanat YSO-ontologiassa. Kun YSA julkaisiin vastikään avoimena datana, tuli nyt tekemäni massakäsittely helpommaksi. Työn voi nykyään tehdä omalla koneella, pommittamatta ONKIn rajapintaa noin suurella kyselymäärällä.

Prosessi

Noukin ensin YSA:n SKOS-muotoisesta tiedostosta varsinaiset sanat (prefLabel ja altLabel) tekstitiedostoon yhdeksi pitkäksi, pitkäksi listaksi. 14.6.2011 lataamassani tesauruksessa oli 36991 termiä.

Sekä MARC-data että sanasto ovat saatavilla myös XML:nä, jonka käyttäminen olisi oikeaoppisempaa, mutta en nyt jaksanut säätää niiden kanssa sillä XML:n käsittelytyökalut ovat minulle aika tuntemattomia. Sensijaan olen tottunut operoimaan unixin komentoriviltä ja opettelen myös Perliä.

Tässä kirjoittamani Perl-kielinen ohjelma jota käytin:

#!/usr/bin/perl

use MARC::Batch;

my $file = "vaski-kunnostettu.mrc";
my $batch = MARC::Batch->new('USMARC', $file);
my $sanasto = "~/ysa.lista.alt_too";

$batch->strict_off();
while (my $record = $batch->next()) {
        for my $termi ($record->subfield('652', 'a')) {
        if (system("grep -q -i \"$termi\" $sanasto")) {
            print($termi, ";", $record->field('001')->as_string,"\n");
        }
    }
}

Kuten ehkä huomaat, tämä on hyvin kaukana elegantista. Ensinnäkin käsiteltävät tiedostot on nimetty ohjelman sisällä ja toisekseen kukin termi etsitään sanastosta käyttäen ulkoista ohjelmaa. Tämä aiheuttaa yhden forkin per asiasana, joka on huono asia. Oikeasti vertailu pitäisi tehdä tämän ohjelman sisällä, lukemalla asiasanat tiedostosta yksiulotteiseen taulokkoon tai listaan. Mutta toimii tämä näinkin, kun huonoa ohjelmistosuunnittelua voi korvata prosessoriteholla🙂 Miniläppärini (joka on ainoa käyttämäni työväline) rouskutteli tätä useita tunteja.

Mutta tämän ei olekaan tarkoitus olla eleganttia. Tämän on tarkoitus osoittaa kirjastoammattilaisille, että me itse voimme ottaa aloitteen käsimme sen sijaan, että odottelemme että järjestelmätoimittajamme tekee kivoja asioita puolestamme (sitä on turha odotella).

Vielä pari huomiota laatimani menetelmän puutteista: se ei huomioi asiasanaketjuja, ja tuon kaltainen huoleton merkkijonojen etsintä johtaa vääriin tuloksiin mikäli etsittävä epäkelpo asiasana esiintyy osana kelpoa asiasanaa. Tälle asialle pitäisi todella tehdä jotain.

Mitä välii?

Ymmärtääkseni kaikkien 652-kentässä olevien termien pitäisi olla peräisin YSA:sta. Näin sanoo myös FinMARC -formaatti. Asiasanoja joita ei YSAssa ole, ei pitäisi käyttää ainakaan kyseisessä kentässä. Kuten tiedämme, ei asiasanasto kuvaa kaikkia maailman ilmiöitä. Siksi paikallisille sanastoille onkin tarvetta.

Minua paremmin luettelointiin perehtyneet tietänevät mitä sisällönkuvailussa oikeasti kuvaillaan. Jossain lienee sovittu, onko sisällön lisäksi aiheellista kuvailla muotoa. Esim. Vaskissa käytetään termejä ”Nintendo Wii”, ”sotaromaanit” ja ”elämäkerrat” kuvailemaan muotoa. Nämä teokset eivät kerro Nintendon Wii-peleistä, sotaa kuvaavista romaaneista tai elämäkertojen kirjoittamisesta, vaan ovat niitä. Ehkä tämä on ookoo – en jaksa nyt lueskella luettelointisäännöstöä asiaa tarkistaakseni enkä muista ulkoa mitä siellä sanotaan. Mutta ei ole vaikea nähdä että tämä on problemaattista. Ihmettelin samaa asiaa aiemmin, kun mietin minkähänlaista olisi “ihan oikea kirjastotyö” pelien parissa?

Mainiot luetteloijat ovat arvatenkin tämän muoto vs. sisältö -asian ratkaisseet jollain sopimuksella (joka siis lienee kirjattuna luettelointisääntöihin). Käytännössä ainakin Vaskissa kuvaillaan surutta sekä muotoa että sisältöä 652 -kentässä.

Tässä on muitakin mielenkiintoisia puolia: MARC-tietueessa ei esimerkiksi ole mitään tietoa siitä, mitä YSAssa on ollut tietueen luontihetkellä. YSA muuttuu ajan myötä, kenties osa nyt listaamistani termeistä on ollut kyseisen luetteloijan käyttämässä YSA:n versiossa luettelointihetkellä… MARC-tietueesta itsestään puuttuu tällainen tekninen metadata.

Kirjoitusvirhe luetteloinnissa on fataali virhe, ja teos katoaa kyseisen aiheen kannalta mustaan aukkoon. Varsinaisia kirjoitusvirheitä löysin Vaskista onneksi vain ihan muutaman.

Monet löytämäni, YSA:n ulkopuoliset termit ovat hyvin käytännöllisiä ja olen oikeasti onnellinen että niitä on tietueisiin luettelointisääntöjen vastaisesti tallennettu. Tämä kertoo sanaston puutteellisuudesta ja myös luokitusjärjestelmän puutteista, sekä kirjastoihmisten omatoimisista ongelmanratkaisupyrkimyksistä. Se on tietenkin aivan oikein. Nämä itse keksityt termit voisi eristää omaan sanastoonsa, jolla YSAa täydennetään, ellei ole YSAn tarkoituksenmukainen ylläpito ole mahdollista. Lisäksi meillä on käytettävissämme useampia sanastoja YSAn rinnalla ja niitä olisikin hyvä käyttää MARC-tietueen sellaisissa paikoissa, jotka eivät ole YSAlle varattuja.

8 thoughts on “Vaskin asiasanat, jotka eivät ole YSAssa

  1. Kiinnostavaa. Oletko kartoittanut HelMetin? Minä olen syypää moneen HelMetin asiasanaan, jota ei YSAssa ole – tosin nopeasti rupesin sijoittamaan ne yleiseen huomautuskenttään 500, mikä tietysti muuttaa asian. Ks. esim. http://www.helmet.fi/recor​d=b1694535~S9*fin ja , joissa on paljon ad hoc -asiasanoja 500:ssa. Ehdin kuitenkin sijoittaa (tai sijoituttaa silloin kun minulla ei ollut tunnuksia itselläni) niitä myös asiasanakenttään. Silloin ei pk-seudulla käytetty 652:ta eikä ilmoitettu asiasanan lähdettä.

    Muoto ja sisältö sotkeentuivat silloinkin, kun muodolle ei ollut eikä näköjään ole omaa kenttää. Ei sitä mitenkään ratkaistu, todettiin vain asia.

    Asiasanoituksen metodologiasta voisi joskus herätellä juttua. Minulla on se vaikutelma, että usein pyritään löytämään asiasanoja, jotka kattavat KOKO TEOKSEN. Jos kyseessä on hyvin laajasisältöinen teos, suuri(n) osa sisällöstä jää avaamatta. Sellaiset pitäisi indeksoida LUKU LUVULTA, mikä on kaiken kukkuraksi paljon helpompaakin kuin koko teokselle soveltuvien sanojen keksiminen.

    En tällä tarkoita kokoomateoksia, joiden sisältö kai sentään nykyisin jo avataankin? Tarkoitan yllä linkatun Hobhousen tapaisia.

  2. Moikka Anna-Liisa. En ole kartoittanut HelMetiä, vaikka se olisi toki mahdollista. Sillä ajatuksella julkaisin tuon ohjelmani tuossa, että sitä käyttäen joku muu voi käydä läpi muiden kirjastojen aineistoja. Laitoin ohjelman myös GitHubiin saataville.

    HelMetin tietueethan ovat nykyään saatavilla verkosta sellaisenaan avoimena datana, joten työn tekeminen on sekä helpompaa kaikille kirjastoammattilaisille, että muillekin ihmisille. Voin minäkin noita ajoja tehdä, jos kysyntää (ja omaa intopinkoa) riittää.

    HelMetissä on jostain syystä tapana jättää ilmoittamatta käytetty sanasto kokonaan, siis näin

    650 #4 ‡a valta

    vaikka MARC21 -formaatti tosiaan kannustaa mainitsemaan sanaston tyyliin

    650 #7 ‡a valta ‡2 ysa

    No tässä on tietenkin se hyvä puoli, että jos ei ilmoita käyttävänsä mitään sanastoa, ei kukaan tule kertomaan että termit eivät esiinny sanastossa. Koneellisen käsittelyn kannalta tämä on ikävää tosin, koska termit jäävät merkityksettömiksi merkkijonoiksi, ilman mitään kontekstia. Täällä pk-seudun ulkopuolella puhummekin, että HelMet ei ole MARC21 -muotoista, vaan MARC21-Hel -muotoista :^) Veikkaan, että HelMetin tapa jättää sanastot mainitsematta kokonaan on konversion peruja.

    Huomautuskenttiinkin sijoittaminen on problemaattista hakemisen kannalta, sillä huomautukset ovat ns. ”monimutkaisen haun” sekä relevanssialgoritmin kannalta (sekä mahdollisesti käyttöliittymän kannalta, jos se opastaa hakutuloksen laatimista) eri asia kuin asiasanat… kuten mainitsitkin. Mutta tokihan se tieto pitäisi jonnekin laittaa.

    MARC21:n tyyli mainita käytetty sanasto jokaisen asiasanan esiintymän yhteydessä on ilmaisuvoimainen. FinMARC sallii vain 14 sanastoa (kentät 650690) sekä lisäksi on 692698 ”kirjastokohtaisille asiasanoille”. Sekä FinMARC että MARC21 sallivat kyllä ns. ”hatusta keksityt” asiasanat (eli avainsanat). FinMARCissa 652 ei ole niille oikea paikka, ja toisaalta MARC21:kin rajoittaa käytettäviä asiasanastot näihin. Tästä päästäisikin avoimeen, linkitettyyn dataan, mutta ehkei mennä siihen nyt🙂

  3. Kiitos, mielenkiintoinen kirjoitus🙂 Itse yritän jo käyttää Allsoa, ja olen huomannut että ontologian käyttö vaatii vielä ihan toisenlaista ajattelua. Usein pyrin esim valitsemaan sekä muuttuvan että pysyvän termin, jotta löytyvyys olisi parempi.

  4. Kiitti Jessica! Olisi kiva kuulla lisää reflektioitasi tuosta luettelointihomman erilaisuudesta sanaston vs. ontologian kanssa🙂

    Vaskin verkkokirjasto muuten opastaa hakijaa tuossa asiasanakentässä. Se näkyy perustuvan oikeasti käytössä oleviin asiasanoihin, eikä YSAan ja/tai muihin kontrolloituihin sanastoihin. Kirjoita esim. asiasana-hakukenttään sotaromaa niin verkkoliittymä tarjoaa ”sotaromaani” ja ”sotaromaanit”, jotka molemmat ovat YSAn ulkopuolisia, kontrolloimattomia termejä.

  5. Huomasin nyt Helmet-aineistoa rouskuttaessani, että verrattain moni YSA:sta löytymätön asiasana löytyy kyllä Kaunokista, mm. asiasanat ’sotaromaanit’ ja ’salapoliisiromaanit’. Päädyin tekemään tarkastuksen molempiin sanastoihin ja merkkaan aineistoon löytyvätkö termit sanastosta vai ei.

    Koitan pitää aineiston XML-muodossa mahdollisimman pitkälle, että nyt yhdellä prosessointiurakalla saisin ainaiseksi aineiston, jota voi käyttää myös muihin tarkoituksiin. Vajaan 700000 tietueen käsitteleminen on aikamoinen urakka, homma näyttäisi etenevän nyt kutakuinkin 10000 tietueen tuntivaihtia – eli jos etenemisvauhti pysyy samana, kokonaisuudessaan prosessointi ottaisi ~ 70 tuntia. Mopokone on mopokone🙂

  6. Hienoa kuulla Matti, kiitos. Tarkistatko myös muut osakentät kuin ‡a? Itse tarkistin vain sen, eli asiasanaketjujen komponenteistä vain ensimmäinen tarkistetaan. Tein tämän ratkaisun säästääkseni koneaikaa jottei tämä blogikirjoitus venyisi syksyyn asti😉

    Sulla taitaa sentään olla vähän rivakampi kone kuin oma miniläppärini, mutta XML:n käsittely on vastaavasti raskaampaa hommaa.

    Formaatin mukaan 652 ei ole oikea paikka Kaunokin termeille. FinMARCissa Kaunokin termit merkitään näin:

    654 ## ‡a termi

    ja MARC21:ssä näin

    650 #7 ‡a termi ‡2 kaunokki

    Näistä murehtiminen on tietenkin aivan muiden ihmisten heiniä kuin minun, nimittäin luetteloijien sekä heidän ohjaus- ja yhteistyöelintensä. Omia heiniäni on sensijaan osoittaa kirjastoammattilaisille sekä kertomalla että esimerkein, millainen työkalu tietokone on🙂

  7. Hei, muutama kommentti:

    – listassa on mukana asiasanoja, jotka on yksinkertaisesti viety väärään kenttään (mm. henkilönnimiä, yhteisönnimiä, kohdenimekkeitä). Näille formaatissa on oma kenttänsä (600. 610, 640). YSAssa ei ole tarkoituskaan olla yhteisönnimiä, henkilönnimiä eikä nimekkeitä
    – osa listan sanoista on selvästi kaunokirjallisuuden asiasanoituksessa käytettyjä sanoja, jotka pitäisi viedä Kaunokin kenttään (654).
    – listassa näkyy olevan myös sanoja jotka ovat olleet YSAssa jo 80-luvulta lähtien (tsekin kieli, samanismi, YSAssa hattuässän kanssa), Mistähän syystä nämä ovat tulleet mukaan tähän listaan?
    – vuosiluvuista sen verran, että vaikka vuosilukuja ei ole YSAssa niitä voi käyttää YSAn sanoina YSAn kentässä
    – YSAssa on vapaa indeksointi tietyissä sanaryhmissä (esim. kielet, kansat, ammatit jne.) , joka tarkoittaa sitä että ko. sanaryhmiin kuuluvia sanoja voi käyttää YSAn kentässä vaikka niitä ei YSAsta löytyisikään. Uskon, että näitäkin sanoja on runsaasti mukana VASKIsta löydetyssä aineistossa.
    – Finmarc-formaatissa on oma kenttänsä (692-698) niille asiasanoille jotka eivät ole minkään asiasanaston sanoja. Koska lähtökohtana on ollut että mikään asiasanasto ei voi olla riittävä, formaattiin on varattu kenttä, johon voi viedä asiasanastoihin kuulumattomia termejä.
    – ontologiat: en suosittele YSOn enkä Allson käyttämistä indeksointityössä. Ne eivät ole ajan tasalla ja sitä paitsi niistä puuttuvat kaikki maantieteelliset nimet.
    – YSAan voi lähettää uusia termiehdotuksia, osoite on vesa-lista@helsinki.fi.

    Terveisin
    Eeva Kärki
    Yleinen suomalainen asiasanasto
    Kansalliskirjasto

  8. Moikka Eeva, kiitos kommentistasi.

    Kävin siis läpi vain kentän 652, jossa nimenomaan formaatin mukaan pitäisi olla vain YSA-termejä. Kuten molemmat mainitsimme, noille YSAn ulkopuolisille termeille on kullekin omat paikkansa MARCissa. Tämän kaltaisen analyysin pohjalta ne voitaisi löytää ja siirtää oikeisiin paikkoihinsa.

    Alla kommentteja tarkempiin huomioihisi:

    Vuosilukujen käyttöä 652:ssa ei ole mainittu FinMARC-formaatissa. Tämänkaltaiseen perimätietoon minulla ei ole pääsyä koska en oikeasti tee luettelointityötä, vaan nojaan lähinnä olemassa (ja saatavillani) oleviin dokumentteihin sekä kollegoihini.

    Suhuässä ja muut merkistön käsittelyyn liittyvät jutut ovat tiedossa. Tätä tehdessäni minulle oli tärkeämpää osoittaa kirjastokollegoilleni millainen laite tietokone on (=ohjelmoitava työkalu), eikä tuottaa täydellisesti toimivaa ohjelmaa. Tällaisten asioiden hiomiseen menee liikaa aikaa, haluan tuoda esille aivan toisen tyyppistä, nopeisiin ja näppäriin työkaluihin perustuvaa tietojenkäsittelyajattelua kirjastoalalle. ”Iisakin kirkkoja” meillä on jo liikaa ja niitä rakennelkoot muut. Ne eivät ole minun heiniäni; en ole ohjelmistokehittäjä vaan kirjastoammattilainen. Olin merkistön suhteen huolimaton, mutta minusta oli tärkeämpää julkaista lista tällaisena kuin tehdä uusia ajoja (ajo taisi muistaakseni kestää noin 10 tuntia miniläppärilläni; varsinaisen työkalun kehittämiseen meni pari tuntia).

    Luetteloijia on varmasti monenlaisia; toiset ottavat säännöstön ja formaatin prikulleen, toiset suhtautuvat liberaalimmin; kunhan näitä sanoja nyt on jossain asiasanakentässä niin löytyvät hakemalla, sehän tässä on pääasia.

    Vaskissa esiintyy kymmenesti asiasana taitelijat [sic.], ei taiteilijat joka on oikea toki termi sekä YSAssa että suomen kielessä.

    Terveisiä Kansalliskirjastoon, olisi mukava kuulla joskus teidän tietokantahuoltotyöstänne sekä siinä käytetyistä työvälineistä.

Vastaa

Täytä tietosi alle tai klikkaa kuvaketta kirjautuaksesi sisään:

WordPress.com-logo

Olet kommentoimassa WordPress.com -tilin nimissä. Log Out / Muuta )

Twitter-kuva

Olet kommentoimassa Twitter -tilin nimissä. Log Out / Muuta )

Facebook-kuva

Olet kommentoimassa Facebook -tilin nimissä. Log Out / Muuta )

Google+ photo

Olet kommentoimassa Google+ -tilin nimissä. Log Out / Muuta )

Muodostetaan yhteyttä palveluun %s