Library Blog

I&M2.0

SWIB15

Van 23 tot 25 november waren Maarten Meijer en Marina Muilwijk op het SWIB congres in Hamburg. SWIB staat voor Semantic Web in Bibliotheken en op dit congres wordt van alles besproken over Linked Open Data en RDF, maar ook over metadatakwaliteit en wat je met je data kunt doen.

Eén ding dat opviel was dat er nog maar weinig algemeen bruikbare tools zijn. Bij vrijwel alle presentaties werd verteld dat ze zelf software gebouwd hadden om te doen wat ze wilden. Soms zaten daar wel onderdelen bij die al bestonden, maar dan waren ze met zelfgemaakte software aan elkaar gekoppeld. Wat men wilde liep dan ook heel erg uit elkaar: het aanbieden van de hele catalogus als Linked Data, meertalige Linked Data, annotaties bij foto’s en geluidsbestanden mogelijk maken. Ook het soort data is zeer verschillend. Zo loopt er een project waarbij ze proberen ingewikkelde geneste tabellen uit 19e eeuwse publicaties machineleesbaar te maken. Maar ook één om met behulp van text-mining citaties te vinden in zinsneden als “gebaseerd op het onderzoek van Z uit 2011”.

Het gaat te ver om alle tools en projecten hier te noemen. Eentje wil ik toch niet onvermeld laten: de Chrome browser extensie EEXCESS. Deze extensie leest de tekst op de webpagina waar je op dat moment naar kijkt en probeert daar de belangrijkste woorden uit te halen. Op basis daarvan voert hij een zoekactie uit bij een aantal deelnemende organisaties (onder andere Europeana en het Rijksmuseum) om je “meer zoals dit” te tonen. Lees je bijvoorbeeld een pagina over de Janskerk, dan krijg je teksten en afbeeldingen van diverse Janskerken. Ze willen graag nog meer organisaties die hier metadata voor kunnen leveren.

Er was een workshop over Catmandu, een Unix-tool voor grootschalige (meta)dataconversie. Met name interessant voor de bibliotheek is de mogelijkheid MARC21 velden te converteren naar Linked Data RDF, maar het configureren van deze tool is wel complex.

Een ander opvallend feit: ondanks de slimme software is er vaak nog veel handwerk nodig, zeker als het gaat om de kwaliteit van metadata. Een computer kan niet altijd bepalen of de ene K. de Vries dezelfde is als de andere K. de Vries. Dat hebben we trouwens zelf ook gemerkt bij de experimenten met Linked Open Data die we deze zomer gedaan hebben. Als een publicatie als trefwoord “Utrecht” heeft, weet de computer niet of je daarmee de stad of de provincie bedoelt.

De voornaamste conclusie is dan ook: de data als Linked Open Data aanbieden is technisch niet zo heel moeilijk, maar om ze bruikbaar te maken moeten ze door menselijke experts gecontroleerd worden. Ook aan het conferentie-diner kwam ter sprake dat de status van Linked Open Data nog sterk fluctueert. De afgelopen jaren zakte de belangstelling in, nu trekt ’t weer aan.

Voor wie meer wil weten en geen bezwaar heeft tegen notities in telegramstijl is er een Google Docs document waar door diverse deelnemers aan gewerkt is:
https://docs.google.com/document/d/1qkpssjRruYJ-DSS26ZraELHxXKL_-YTiUljAiAcUGmE

Enkele overdenkingen van één van de sprekers zijn te vinden op https://brinxmat.wordpress.com/2015/11/26/swib15/

Een reactie to “SWIB15”

  1. MartinS

    Een observatie: het valt mij op, al bladerend door de SWIB 2015 Notes, dat als het gaat over de benefits-vraag (“waarom”) van Linked Open Data vooral antwoorden gegeven worden vanuit (beheers)technisch perspectief en niet vanuit het klantperspectief. Voorbeelden:
    Why linked open data:
    – global pool of shared data can be reused to describe resources to reduce cataloging effort
    – use of web and web-based identifiers to keep resource descriptions up to date, used by catalogers to enrich descriptions
    – linked data is more durable + robust than metadata formats depending on particular data structure
    en
    The key benefits of applying LD principles to datasets are:
    – better modelling of datasets as directed labelled graphs,
    – structural interoperability of heterogeneous resources,
    – federation of resources from different sources and at different layers including language annotation,
    – a strong ecosystem of tools based on RDF and SPARQL,
    – improved conceptual interoperability due to strong semantic models such as OWL and shared semantics due to linking and
    – dynamic evolution of resources on the web. (hè, hè, eindelijk!)

    Waarom is dit?

    Het gemis van het kunnen vertalen in klantbehoeften bij Linked Open Data projecten en hierbij opgeteld de wetenschap dat je flink moet investeren in mensenwerk om de metadatakwaliteit op voldoende niveau te krijgen, geeft misschien wel een verklaring waarom deze projecten zo moeilijk van de grond komen…

    Beantwoorden

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *