Library Blog

I&M2.0

Dr. Watson knows better

Hoeveel tijd kost het om bepaalde informatie te vinden over het gebouw ‘De Utrecht’ (nu Mediamarkt) of om uit te vinden of een treininterieur rondom een zijlijn van Hannover 1924 reeds afsluitbare coupé’s hadden ? Mij kostte het in ieder geval veel tijd waarbij ik nog geen absolute zekerheid heb over het tweede punt. Machine learning (ML) kan helpen om in de bijna 1 zettabyte veelal ongestructureerde data de relevante informatie en kennis te verschaffen. Deze week heb ik in het kader van de innovatieweek bij de KB een workshop bezocht ‘Machine learning in de bibliotheek’. ML is een complexe en vaak nog academische aangelegenheid maar de sprekers lieten enige fraaie praktische resultaten zien. Naast enige theoretische uiteenzettingen van o.a van de UvA sprongen de presentaties van Radboud Universiteit en IBM eruit.

IBM heeft een innovatiebudget van 6 miljard per jaar en 1 miljard gaat naar de supercomputer WATSON, genoemd naar één van de oprichters van IBM.
Daar waar de voorganger ‘Deep Blue’ Kasparov kon verslaan puur op brute rekenkracht kan WATSON andere trucjes. De computer kan leren en concepten herkennen.IBM heeft daar fraaie resultaten mee behaald o.a bij medicine en agriculture. WATSON heeft met gemak een graad in oncologie behaald en assisteert (of soms ‘corrigeert’) artsen in Amerikaanse ziekenhuizen op het gebied van oncologie. Daarbij leest en interpreteert WATSON ook nog eventjes alle nieuwe vakliteratuur met een snelheid van 800 pagina’s per seconde. Bij deze computer is er sprake van supervised learning. Daarbij wordt de computer getrained waarbij de input en bijbehorende output vaststaat. WATSON gebruikt daarbij o.a. het door IBM ontwikkelde opensource framework UIMA. Het goede nieuws is dat WATSON 30 dagen gratis te testen is als cloudplatform voor eigen experimenten. In I&O gaan we er in ieder geval naar kijken of dit praktische mogelijkheden biedt.

Een boeiende presentatie van Antal van den Bosch van Radboud concentreerde zich op het verrijken en corrigeren van bronnen via machine learning.
Databases waarbij menselijke interactie plaatsvind hebben nu eenmaal een fouttolerantie van 5% of zelfs meer. Hetzelfde geldt voor OCR teksten, iets waar wij zelf ook mee kampen. Zo werd een database bestand over alle stakingen in Nederland gekoppeld aan Delpher van de KB en werd aangetoond dat een aantal stakingen nooit heeft plaatsgevonden.

De KB zelf is momenteel druk bezig om ‘named entities’ te genereren bijvoorbeeld voor Delpher en willen daar ook machine learning voor gaan inzetten.  Een sprekend voorbeeld is ‘amstellaan stalinlaan vrijheidslaan’. Allemaal dezelfde fysieke straat in Amsterdam in verschillende tijden. En reeds in 1956 al felle protesten tegen de vrijheid : http://bit.ly/1jDBGCC

Omdat wij als bibliotheek veel data van diverse pluimage hebben is het absoluut noodzakelijk te kijken waar we ML kunnen inzetten. Duidelijk is dat vanwege de omvang en complexiteit dit altijd een samenwerkingsverband zal moeten zijn. En zoals de bijeenkomst afsloot: er is geen éénduidige ‘out of the box’ oplossing. Een ‘free lunch’ of victorie moment bestaat niet bij ML.
KB
https://www.kb.nl/ob/algemene-programmas/innovatieagenda/innovatieweek-kb

RADBOUD
http://antalvandenbosch.ruhosting.nl/
https://collab.iisg.nl/web/labourconflicts/search-database

IBM WATSON

http://www.theguardian.com/technology/2011/feb/17/ibm-computer-watson-wins-jeopardy
http://www.ibm.com/smarterplanet/us/en/ibmwatson/developercloud/services-catalog.html
https://uima.apache.org/
https://en.wikipedia.org/wiki/Supervised_learning

UvA
http://chri.stophr.be/

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *