Library Blog

Blog

Diensten voor text mining in de bibliotheek: verslag van het symposium bij de universiteitsbibliotheek Leiden.

Afgelopen maandagmiddag 22 september was ik in Leiden waar de resultaten werden gepresenteerd van een studie naar de mogelijke rol van de bibliotheek bij text mining, onder leiding van Isabel de Brouwer en Kurt de Belder. Intuïtief is dit direct een dienst die heel erg bij de bibliotheek hoort; informatie onttrekken aan geschreven text. Met een mooie term: ‘literature based discovery’. Er waren een aantal praatjes met voorbeelden van text mining: analyse van patronen van een dichter, analyse van ‘records’ van Ierse landverdelingen, analyse van karakteristiek woordgebruik van diverse politici, vergelijking woordgebruik tussen krant en tabloid en zelfs het voorspellen van stakingen op basis van nieuwsberichten. Bij text mining komt dan ook een portie statistiek kijken.

Wat betreft text mining tools was de conclusie dat er generieke tools zijn, maar dat per project toch vaak aanpassingen worden gedaan voor het specifieke doel.

Er werden heel expliciet rollen van de bibliotheek besproken:

– Het verder digitaliseren van de collectie
– Deze beschikbaar stellen (ook buiten de bibliotheek)
– Een basis expertise opdoen wat betreft text mining om onderzoekers op weg te kunnen helpen, en ondersteuning enkele basis text mining tools.
– API toegang verschaffen corpora
– Cursussen geven digital literacy, text mining
– Hard maken voor gunstige licenties voor text mining bij licentie onderhandelingen uitgevers
– Informatie overzicht verschaffen text mining projecten en tools

Al met al een interessante middag. Ik denk dat dit voor de UB ook een interessante dienst zou zijn om te bieden, ik ben in ieder geval overtuigd!

Met vriendelijke groeten,
Tessa Pronk

6 reacties to “Diensten voor text mining in de bibliotheek: verslag van het symposium bij de universiteitsbibliotheek Leiden.”

    • tepronk

      Leuk, interessante toepassing om de positie van kinderen door de jaren heen te belichten door tekst te analyseren.

      Beantwoorden
  1. Jan de Boer

    En de uitspraak over generieke tools en aanpassingen is heel herkenbaar. Onze ervaringen met de annotatietool als mogelijke dienst van de bibliotheek laten precies hetzelfde zien.
    Ik zie die tools als een soort lego. In de basis bestaan ze allemaal uit dezelfde stukken, het gaat er vooral om hoe je ze in elkaar zet en soms heb je daarbij een speciaal stukje nodig dat je nog niet had.

    Beantwoorden
    • Jan de Boer

      Maar van wat zijn wij leverancier? De bron (gescande werken) of een afgeleide daarvan (geOCRde tekst). Dit project van CLARIN (http://www.clarin.nl/node/440) zou een verbetering van de OCR-techniek moeten opleveren waarvan wij dan weer kunnen profiteren.

      Beantwoorden
  2. tepronk

    Ja optical character recognition de basis om woorden te kunnen herkennen bij het daarna text minen van de digitale versie. Maar wie weet is daar ook wel weer tooling voor: text eerst opschonen voor analyse. Toevallig was polimedia een van de voorbeelden op de middag trouwens.

    Beantwoorden

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *