
reCAPTCHA
En ole aivan varma kuinka monella eri tavalla tämä on mahtavaa (äkkiseltään mieleen tulee ainakin neljä), mutta reCAPTCHA on spämmintorjuntamenetelmä blogeihin ym. webbiin, joka samalla auttaa kirjojen digitoinnissa.
Homma menee näin: monien blogien kommenttilaatikoiden tai muiden webissä täytettävien lomakkeiden ohessa on sellainen tehtävä, jossa pitää kirjoittaa jokin vaikeasti luettava sana tai muutama pieneen tekstilaatikkoon. Idea on se, että tietokone on huono lukemaan tuollaisia vääristeltyjä tekstinpätkiä, mutta ihminen on luontaisesti sellaisessa erittäin hyvä. Tarkoitus onkin erotella ihmiset koneista kun ei haluta että mikään tietokoneohjelma käy täyttelemässä noita lomakkeita, yleensä roskapostin lähetystä varten. Tällaisen nimi on captcha.
Noniin, on olemassa sivustoja jotka tarjoavat näitä captcha-palikoita joita sivun ylläpitäjät voivat upottaa omille sivuilleen. Tyypillisesti juuri blogeihin, mutta myös erilaisiin äänestyksiin ja palvelujen rekisteröitymislomakkeisiin niitä laitetaan. Luis von Ahn katseli päivänä eräänä oman palvelunsa tilastoja ja mietti, että vaikka palvelu tehokkaasti estää roskapostin ja muun kuran lähettämistä webiin, joka kerta kun ihminen täyttää tuollaisen captcha-testin, hän tavallaan haaskaa 10 sekuntia elämästään. Ja kun sadat miljoonat ihmiset täyttelevät testejä päivittäin, aikaa valuu hukkaan todella paljon. Noh, Luis keksi että jos tuo captcha ei olisikaan joku koneen luoma tekstinpätkä niinkuin ennen, vaan sellainen sana jota kone ei ymmärtänyt kirjaa digitoidessa, voitaisi roskapostia vastaan taistelevia ihmisiä käyttää samalla tekstintunnistuksen oikolukemiseen. Siitä syntyi reCAPTCHA. Lainaus webbisivulta:
But if a computer can’t read such a CAPTCHA, how does the system know the correct answer to the puzzle? Here’s how: Each new word that cannot be read correctly by OCR is given to a user in conjunction with another word for which the answer is already known. The user is then asked to read both words. If they solve the one for which the answer is known, the system assumes their answer is correct for the new one. The system then gives the new image to a number of other people to determine, with higher confidence, whether the original answer was correct.
Paraikaa meneillään on vanhojen New York Timesien digitoinnin oikoluku. Olen toki nähnyt noita captcha-palikoita vuosikausia, mutta en ole aiemmin tiennyt tästä oikoluku-aspektista. Tämä on sellaista kirjastotyötä jossa minä haluan olla osallisena!
Lähteenä CBC:n Spark jakso 91. Much love ❤