3 vastausta artikkeliin ”Kirjastot ja linkitetty tieto

  1. Kommentteja Eetu Mäkelän blogikirjoitukseen Kirjastot ja linkitetty tieto

    Aluksi on todettava että tämä kommenttipuheenvuoro ei ole Kansalliskirjaston virallinen vastaus Eetulle, vaan minun, Laila Heinemannin ja muutamien muiden kollegojeni näkemys asiasta.

    Hankkeet

    Eetun puheenvuorosta voi helposti saada virheellisen kuvan siitä, mikä avoimen linkitetyn tiedon status on kirjaston käynnissä olevissa hankkeissa.
    Metatietovarannon osalta Eetun väittämä ”- – Ensinnäkin, hankkeen pohjaksi on otettu jälleen nimenomaan tieteellisten kirjastojen MARC-yhteistietokanta. Lisäksi hankkeen yhteisluetteloa kehitetään ExLibriksen suljetun järjestelmän sisällä, josta syystä kaikkien tällä hetkellä mukana olevienkin tahojen täytyy käyttää ExLibriksen ohjelmistoja. – -” viittaa nykytilaan, josta olemme pyrkimässä pois, ei hankkeen tavoitetilaan. Tällä hetkellä yhteisluettelo LINDA toimii todellakin MARC-pohjaisena ExLibriksen suljetun kirjastojärjestelmän sisällä. LINDA – jonka historia ulottuu vuoteen 1992 – on kuitenkin vain pohja varsinaiselle hankkeelle. Juuri tästä syystä emme enää puhu yhteisluettelohankkeesta, jossa vain laajennetaan LINDAn katetta, vaikka toistaiseksi ollaankin vielä menossa vasta tässä vaiheessa. Hankkeen varsinainen pihvi on tulevaisuudessa ja siksi puhumme nykyään yhteisluettelon sijasta metatietovarannosta.
    Metatietovarannossa kyse on konseptista, ei järjestelmästä, ja pyrkimyksenä on nimenomaan rakentaa tietovarantoa, joka on riippumaton yksittäisistä järjestelmistä ja formaateista. Työtä tehdään tiiviissä yhteistyössä uuden kirjastojärjestelmän hankkeen kanssa ja toisaalta luettelointipuolen RDA-hankkeen kanssa. Tavoitteena on optimaalinen alusta tietoelementtien linkittämiselle.

    Mitä tulee datan avoimuuteen, kaikki mukana olevat kirjastot ovat ilmaisseet halunsa antaa metatiedot avoimeen käyttöön. Ongelman muodostavat kaupalliset toimijat, jotka tuottavat osan tietovarannon datasta ja joilla luonnollisesti on asiassa taloudellinen intressi. Myös tästä kuviosta käydään jatkuvasti neuvotteluja tavoitteena avoin data. Muissa maissa on vastaavia haasteita, esimerkiksi The British Library ostaa osan kansallisbibliografian tietueista kaupalliselta toimijalta, ja näiden metatietojen CC0-jakelu nostaisi hankintahinnan moninkertaiseksi.

    Uuden kirjastojärjestelmän hankkeen Aineiston kuvailu ja kokoelmien hallinta –työryhmän aineistot löytyvät osoitteesta https://wiki.helsinki.fi/pages/viewpage.action?pageId=77175536

    Työryhmässä on jäseniä useista eri kirjastoista, eli sen linjaukset ovat kentän yhteinen tahtotila. Työryhmä on julkistanut seuraavanlaisen manifestin:
    ”Kuvailun tavoite on tarkoituksenmukainen tiedonhakuympäristö, jossa käyttäjä voi löytää, tunnistaa, valita, saada käyttöönsä tietoa ja aineistoja. Tämän tavoitteen mahdollistaa funktionaalista kuvailua eli FRBR-mallia toteuttava RDA-kuvailustandardi.” Toisin sanoen tavoitteena on rakentaa metatietovarannolle soveltuva alusta tietoelementtien linkittämiselle.

    FinnONTO:n osalta Eetun toteamus ”On myös ollut puhetta siitä, että projektin päättyessä yleinen suomalainen ontologia ja mahdollisesti sen tukipalvelut siirtyisivät kansalliskirjaston hoteisiin.” on understatement. Kansalliskirjasto on käynyt vuosien ajan enemmän tai vähemmän aktiivisesti neuvotteluja opetus- ja kulttuuriministeriön ja valtiovarainministeriön kanssa pysyvän keskitetyn rahoituksen saamisesta sekä YSO:n kehittämiselle, myös ontologiatyön kansalliselle koordinoinnille sekä niin sanotun ONKI-palvelun ohjelmisto- ja laitteistoalustan ylläpidolle. Yhdessä Aalto-yliopiston semanttisen laskennan tutkimusyksikön ja muiden muistiorganisaatioiden kanssa olemme huolehtineet siitä, että sanastopalvelut (ontologiat, tesaurukset, nimiauktoriteetit, jne.) ovat näkyvästi esillä julkishallinnon metatietoarkkitehtuurissa.

    Vuosien työn jälkeen prosessi on edennyt ratkaisuvaiheeseen: VM päättää palvelun tukemisesta näillä näkymin marraskuun alussa, sen jälkeen kun asiaa on käsitelty hallinnon ja aluekehityksen ministerityöryhmässä 18.10 ja Julkisen hallinnon tietohallinnon asiantuntijaryhmässä eli JUHTA:ssa 25.10. Toteutuessaan ontologiapalvelu olisi ensimmäinen toteutusvaiheeseen päässyt osa julkishallinnon metatietopalvelusta. Jos ja kun palvelu syntyy, toivomme että tiivis yhteistyö tutkijayhteisön kanssa jatkuu. Tällöin ONKI-järjestelmän palveluita kyetään kehittämään tutkimuksen ja käytännön hedelmällisenä yhteistyönä.

    Eetun digitaalisen kirjaston asiakasliittymää koskevat kommentit ovat erityisen mielenkiintoisia siksi, että hän on itse osallistunut hankkeen työryhmiin ja on sen vuoksi ns. sisäpiirin jäsen, hyvin perillä tehtyjen valintojen perusteista.

    Kuten Eetu toteaa, hankkeen vaatimusmäärittelyssä ei ole ontologioiden tai linkitetyn datan tukemista koskevia vaatimuksia. Niitä ei sieltä erityisesti poistettu, vaan niitä ei sinne (muistaakseni Eetun tahdon vastaisesti) otettu, koska tällä erää ei ole olemassa hankkeelle soveltuvia hakujärjestelmiä jotka tukisivat ontologioita. Tällä tarkoitetaan muun muassa sitä, että hakija voisi helposti laventaa tai kaventaa hakua liikkumalla ontologian käsitehierarkiassa ylös ja alas; ontologioiden käsitteet sinällään indeksoidaan aivan kuten tesaurusten termit. Kehittyneemmät menetelmät avoimen linkitetyn datan tukemiseksi käytännön hakujärjestelmissä ovat paljolti vasta suunnitteluvaiheessa.

    Yleisesti ottaen asiakasliittymän vaatimusmäärittelyä ohjasivat toisaalta muistiorganisaatioiden tarpeet, toisaalta pragmatiikka – emme halunneet tehdä sellaisia vaatimuksia, joita ei tukenut yksikään sovellus, tai jotka olisivat suosineet yhtä ohjelmistotoimittajaa. Kun järjestelmä perustuu avoimeen lähdekoodiin, siihen on periaatteessa mahdollista itse rakentaa esimerkiksi ontologiatuki, jos ja kun palvelua käyttävät organisaatiot niin toivovat.

    Olen Eetun kanssa vahvasti eri mieltä asiakasliittymän vaatimusten laadintaprosessista. Minusta arkistot, museot ja koko kirjastokenttä olivat siinä vahvasti mukana; on muiden väheksymistä väittää että Kansalliskirjasto olisi kaapannut projektin. Ja Nelliä koskevat vaatimukset olivat jotakin aivan muuta kuin se, mitä asiakasliittymältä perusteellisen valmisteluprosessin päätteeksi edellytettiin. Lopuksi todettakoon että hanketta ei ole käynnistetty uudestaan. Kun Primo-sovelluksen pilotoinnin tulos oli ettei järjestelmä soveltunut Kansallinen digitaalinen kirjasto –hankkeen tarpeisiin, Ex Libriksen kanssa tehty sopimus purettiin, ja ryhdyttiin sopeuttamaan VuFind-sovellusta Suomen oloihin. Muiden kaupallisten järjestelmien toimittajien kanssa ei tässä vaiheessa keskusteltu, koska tiedettiin, etteivät niiden asiakasliittymäohjelmistot olisi soveltuneet meille Primoa paremmin – pikemminkin päinvastoin.

    Linkitetty data kirjastoissa

    Aluksi haluan kiittää Aalto-yliopiston Semanttisen laskennan tutkimusryhmää ontologioiden ja avoimen linkitetyn datan parissa tehdystä tutkimuksesta. Kirjastot ja muut muistiorganisaatiot ovat jo nyt hyötyneet tästä, ja uskon että Linked Data Finland –projekti tuo meille lisää etuja – kunhan vain salto mortale tutkimuksesta käytäntöön saadaan hankkeiden päätteeksi tehtyä.

    Eetu listaa kirjoituksessaan useita Kansalliskirjastojen hankkeita. Tästä, ja muutamista väitteistä (”Tiedot käännetään MARC-tietueista lennossa”) voi saada sen kuvan, että MARC-datan muuntaminen avoimeksi linkitetyksi dataksi olisi helppoa. Tämä ei pidä paikkaansa; pilottihankkeet ovat olleet haastavia ja niissä on tarvittu sekä syvällistä MARC-formaatin että tekniikan tuntemusta. Esimerkiksi British Libraryn hankkeessa on ollut mukana talon sisältä huipputason MARC-spesialisti ja teknistä osaamista, minkä lisäksi osa teknisestä työstä ulkoistettiin TALIS Group –yritykselle, joka valitettavasti on sittemmin lopettanut avoimeen linkitettyyn dataan liittyneet palvelunsa.

    British Libraryn hankkeeseen liittyvistä haasteista saa hyvän kuvan tutustumalla kirjaston laatimiin alustaviin tietomalleihin kausijulkaisuille
    http://www.bl.uk/bibliographic/pdfs/bldatamodelserial.pdf
    ja monografioille
    http://www.bl.uk/bibliographic/pdfs/bldatamodelbook.pdf
    joita voi luonnehtia monimutkaisiksi.

    Kirjastojen hankkeissa ei ole ollut kovinkaan paljon yhteisiä nimittäjiä. Ainoa selvästi muualla tehdyn työn varaan rakentuva projekti on Dansk BiblioteksCenterissä, joka aikoo käyttää British Libraryssä kehitettyjä tietomalleja. Kongressin kirjaston BIBFRAME-hanke MARC-formaatin seuraajan kehittämiseksi auttanee kirjastoja yhdistämään voimansa ja välttämään pyörän keksimistä uudelleen. Muun muassa Deutsche Nationalbibliothek ja British Library ovat aktiivisesti mukana hankkeessa, ja osallistuivat 10.-11. lokakuuta pidettyyn Early implementers –kokoukseen. Siihen kutsuttiin vain kourallinen sellaisia kirjastoja, joilla on ollut omia open linked data -hankkeita.

    Kansallisen formaattivastuunsa vuoksi Kansalliskirjasto on luonnollisesti ilmoittautunut BIBFRAME-hankkeeseen mukaan. Sally McCallum (projektista vastuussa olevan yksikön vetäjä) tiedotti kirjastolle 5.10 seuraavaa:

    My staff are working now trying to massage our data into the new model so we can see how it might work, and after the meeting next week we are asking our experimenters to do the same for about a month.  After some revisions we hope to open the draft model and tools to all.   …  I must say that based on our work the past few weeks, you may not want to jump on experimentation until there are some tools out there and things settle down a little.  Simple as the model looks, there are LOTS of questions at this point. 

    Kansalliskirjaston strategiana on toimia kuten Sally McCallum suosittaa – odottaa, kunnes Kongressin kirjaston hanke on tuottanut mallin ja välineitä, joilla voimme tehdä kokeiluja suomalaisilla MARC 21 –tietueilla. Ellei jotakin yllättävää tapahdu, meidän tuskin tarvitsee odottaa enää pitkään. Ja toivon että näihin kokeiluihin saadaan myös Aalto-yliopiston Linked Data Finland –hanke mukaan.

    Mitä Eetun kirjoituksensa lopussa esittämiin haasteisiin tulee,

    1. Uskon että tulemme tekemään Kongressin kirjaston hankkeeseen liittyviä kokeiluja avoimella linkitetyllä tiedolla jo vuonna 2013, ja
    2. Kuten kommenttipuheenvuoron alussa on todettu, pyrimme ottamaan linkitetyn tiedon huomioon suurissa ja pienemmissäkin järjestelmähankkeissamme – ja yhteisiä järjestelmiä kehitettäessä kuuntelemme kaikkien käyttäjäorganisaatioiden näkemyksiä siitä, minkä ominaisuuksien kehittämistä priorisoidaan.

    Tähänastisesta yhteistyöstä Eetua ja muuta SeCon väkeä kiittäen,

    Juha Hakala
    Erityisasiantuntija, standardit ja IT
    Kansalliskirjasto

  2. Kirjasammon mallista

    Kirjastoissa on siis muunnettu kirjastojen tietokantadumppeja avoimen datan muotoon. Tietojärjestelmä voidaan myös lähtökohtaisesti rakentaa linkitetyn datan tekniikoilla. Tästä suomalainen esimerkki on Mäkelänkin mainitsema kaunokirjallisuuden verkkopalvelu Kirjasampo.fi, joka on rakennettu rdf-tietomallin mukaisesti. Kirjasammossa on sovellettu funktionaalista luettelointia ja sisällönkuvailussa on käytetty ontologioita. Tiedontallennuksessa käytetään annotaatioeditoria (SAHA) perinteisen kirjastojärjestelmän luettelointityökalun sijaan.

    Perusajatuksena on, että kirjastoissa oleva ja tarvittava kaunokirjallisuuteen liittyvä tieto ja tietämys, myös ns. hiljainen tieto, kerätään mahdollisimman kattavasti yhteen paikkaa. Sieltä sitä voidaan eri tavoin – rajapintojen kautta, linkittämällä, sopimusten rajoissa myös avoimen datan muodossa – käyttää muissa palveluissa. Järjestelmä on antanut mahdollisuuden sisältöjen aiempaa monipuolisempaan ja tarkempaan kuvailuun.

    Kuvailutyö on laajentunut kirjaesineen luetteloinnista teoksen sisältöjen esittämiseen ja kytkemiseen reaalimaailman ilmiöihin ja muihin fiktiivisiin teoksiin. Myös esimerkiksi teosten tekijöistä, päähenkilöistä ja kirjallisista ilmiöistä voidaan tallentaa lisätietoa, joka asemoi teoksen osaksi laajempaa kontekstia. Kirjasammossa nämä lisätiedot on toistaiseksi tallennettu manuaalisesti, mutta järjestelmä voitaisiin linkittää automaattisesti esimerkiksi DBpediaan, Wikipedian semanttisesti järjestettyyn versioon, jolloin Kirjasammon sisällöt rikastuisivat entisestään. Kirjasammon käyttöliittymässä ei voida vielä täysimääräisesti hyödyntää sen taustajärjestelmään tallennettuja monipuolisia ja runsaita kuvailutietoja. Esimerkiksi moninäkymähaku ja erilaiset selailutoiminnot puuttuvat toistaiseksi. Kehitystyötä tehdään kuitenkin koko ajan ja palvelun toiminnallisuuksia parannetaan.

    Kirjasammon metadata oli mukana toukokuussa 2011 järjestetyssä HS Open -työpajassa, jossa erilaisia kulttuurialan tietovarantoja louhittiin ja yhdisteltiin. Kirjasammon sisältöjen pohjalta havainnollistettiin esimerkiksi sitä, kuinka kirjallisuuden eri teemat (naisen asema, arkielämä, jatkosota) ovat esiintyneet romaaneissa eri aikoina. Yhdistämällä Kirjasammon dataa kirjallisuuden valtionpalkinnon saaneisiin teoksiin saatiin esille, mitä kirjallisuuden teemoja on palkittu eniten. Nämä ovat esimerkkejä siitä, kuinka kirjastojen tuottama metadata voi ulottua laajemmalle kuin omaan tietojärjestelmään. Tämä herättää tietysti myös kysymyksiä kirjaston metadatan luonteesta ja siitä, pystyykö sen varassa tekemään erilaisia johtopäätöksiä esimerkiksi tutkimuksen tueksi.

    Eetu Mäkelä kuvaa siirtymistä linkitetyn tiedon maailmaan ”valtaisaksi käsitteelliseksi hyppäykseksi”. Tästä todellakin on kyse. Pitkään on kartutettu erillisiä siiloja, tietovarantoja, jotka eivät ole vuorovaikutuksessa keskenään. Tietoa on siirrelty näiden siilojen välillä ilman, että se on olennaisella tavalla rikastunut. Linkitetyn tiedon maailmassa rakennetaan verkkoa, jossa tietoelementit kytketään toisiinsa muun muassa ontologioiden avulla. Kuvaillut ilmiöt on mahdollista kiinnittää aikoihin ja paikkoihin, jolloin litteästä kuvailusta tulee kolmiulotteista. Ontologioiden käyttöönotossa ei ole kyse siitä, että asiasanastot vain korvattaisiin uudella välineellä, vaan niiden myötä koko tiedonhallinnan infrastruktuuri ja näkemykset metadatan luonteesta ja mahdollisuuksista muuttuvat.

    Meneillään oleva ”jälkigutenbergilainen” mediamaailman murros sekä kulttuurin ja kulttuurituotteiden digitaalistuminen ovat vaatineet myös kirjastoja uudistamaan toimintaansa. Kuvailutietoja kuitenkin tuotetaan kuten ennen ja tallennetaan formaatilla, joka periytyy aikaan ennen Internetiä ja tietoverkkoja. Nyt on tullut aika räjäyttää siilot ja vapauttaa kirjastojen metadata osaksi verkon tietosisältöjä avoimen linkitetyn datan muodossa. On selvää, että uudenlaisen tekniikan käyttöönottoon liittyy haasteita, tarvetta oppia uutta ja kehittää osaamista. Näihin haasteisiin kirjastoissa kannattaakin tarttua mahdollisimman pian ja tehdä monialaista yhteistyötä niihin vastaamiseksi. Linkitetyn datan myötä kirjastojen läsnäolo verkossa vahvistuu, niiden kuvailutiedot rikastavat muita palveluita ja rikastuvat muiden palveluiden sisällöistä.

    Kaisa Hypén
    palvelupäällikkö
    kokoelmapalvelut & Kirjasampo-projekti
    Turun kaupunginkirjasto
    http://www.turku.fi/kirjasto
    http://www.kirjasampo.fi

  3. Kohti avointa linkitettyä tietoa

    Yhteenvetona käydystä keskustelusta toteaisin, että avoin linkitetty tieto kytkeytyy kirjastoinstituution tietohuoltotehtävään ja kilpailuasemaan vahvemmin kuin yleisesti ajatellaan. Kysymys on loppujen lopuksi siitä, onko kirjastoinstituutio mukana kehittämässä uuden ajan avoimen tietoyhteiskunnan perusinfrastruktuuria vai ei?

    Kirjastoinstituution perinteisen ydintoiminnan tulokset: tiedonjäsentämisen menetelmät, välineet ja osaaminen – kuten asiasanastot, luokitusjärjestelmät, yhteisten sääntöjen mukainen kuvailutieto – ovat jääneet ja jätetty kirjastojen suljettuihin haku- ja luettelointijärjestelmiin. Muut verkkomaailman toimijat Googlea myöten ovat siirtyneet hyödyntämään semanttista webiä ja liittyneet avoimen tiedon maailmaan.

    Tietohuollon perusinfran pelikenttä on muuttunut ja uudet pelaajat ovat astuneet kentälle. Semanttisen webin, ontologioiden ja avoimen tiedon tietomallin ja teknologian käyttöönotto ja kehittämistyö ovat hyviä esimerkkejä uudenlaisesta sektori- ja toimialuerajat ylittävän kehittäjäverkoston toimintatavasta ja sen tuloksista.

    Kansalliskirjasto ja Kirjastot.fi/Yleisten kirjastojen keskuskirjasto ovat olleet alusta alkaen mukana FinnOnto-projektissa ja -konsortiossa ja Kirjastot.fi jatkaa edelleen Linked data Finland -projektissa. Kokemuksemme mukaan FinnOnto-projektit ovat olleet käytännössä juuri se moottori, joka on vetänyt muistiorganisaatiot suljetuista informaatioympäristöistään avoimen linkityn tiedon maailmaan. FinnOnto-projekteissa on kehitetty ja edistetty uuden tietohuollon perustaa:

    – Tiedon jäsentäminen perusta: ONKI-ontologiapalvelut, RDF-tietomalli, avoin linkitetty tieto: http://onki.fi/fi/
    – Teknologian kehittäminen avoimen lähdekoodin pohjalta: Kulttuurisampo-arkkitehtuuri ja -rajapinnat, annotointipalvelut ja muut työvälineet, ym. http://www.seco.tkk.fi/services/
    – Verkostoituminen: semanttisesta webistä ja linkitetystä tiedosta kiinnostuneiden toimijoiden ja organisaatioiden verkottaminen ja kytkeminen kansainväliseen tutkimus- ja kehitystoimintaan.

    Tämän verkoston pitäisi pitkällä aikavälillä vahvistaa myös kirjastoinstituution toimintaedellytyksiä, kilpailuasemaa ja tietohuoltoprosessiensa järkeistämistä.

    Tiedämme kuitenkin kirjastoalan ulkopuolella ja sisäpuolella, että semanttinen web, linkitetty tieto tai ontologiat ovat olleet tähän asti perin vieraita asioita kirjastojen arkitodellisuudessa. Käytännössä semanttista webiä on sovellettu vain Kirjasampo.fi-palvelussa sekä osittain Kysy kirjastonhoitajalta -palvelun vastausliittymässä. Kirjasammon tiimi on lisäksi osallistunut KAUNO-ontologian kehittämiseen ja Labs.kirjastot.fi-projekti teki pioneerityötä kokoelmatietokantojen kuvailutietojen avaamisessa avoimena datana. Kansalliskirjasto on tuonut YSA:n ONKI-palveluun sekä tietysti ollut tiiviisti vaikuttamassa tietohuollon standardoinnissa ja mm. julkisen sektorin metatieto- ja muiden suositusten laadinnassa.

    Miten vastaamme haasteeseen? Modernilla tavalla toteutettu kansallinen metatietovaranto sekä KDK-kokonaisuus ovat muistiorganisaatioiden keskeinen panos digiajan tietohuollon infrassa. Metatietovarannon avulla ensinnäkin järkeistetään omien tietovarantojen metatiedon tuotanto ja jakelu. Toiseksi metatietovaranto avoimena linkitettynä tietona voi muodostaa perustan digitaalisen informaatioympäristön jäsentämiselle. Olennainen komponentti tässä on ONKI-ympäristö. Sen vuoksi on erittäin tärkeää, että ONKI-ympäristö siirtyisi tutkimusyhteisön ylläpidosta Kansalliskirjaston perustehtävien joukkoon. Kolmanneksi, parhaimmillaan metatietovaranto saavuttaa myös joukkovoimalla tuotetun avoimen tiedon ja sen tuottajat. Kirjastot eivät vielä olleet hienon Open Knowledge Festivalin keskiössä, mutta kenties joskus tulevaisuudessa?

    Matti Sarmela
    Kirjastot.fi

Leave a Reply

Your email address will not be published. Required fields are marked *