Blog
‘Studenten verruilen de bieb steeds vaker voor Google’
Studenten harken veel te vaak werkstukken bij elkaar via zoekprogramma’s als Google. Dit valt te lezen in het artikel ‘Search engines and the production of academic knowledge’ dat verschenen is in het tijdschrift International Journal of Cultural Studies.
Je vindt het artikel hier: http://ics.sagepub.com/content/13/6/574.full.pdf+html
De auteur is gelukkig niet tegen het gebruik van Goolge (Scholar), maar pleit er terecht voor dat men zich veel meer bewust wordt van scheefheid in dekking en zoekresultataten, kortom dat men begrijpt hoe dit soort systemen werkt en wat het effect is van het feit dat wetenschappelijke informatieverspreiding niet plaats vindt in een omgeving zonder (comerciële, politieke e.d) belangen. Daar men ik het van harte mee eens, en daar ligt zeker ook een rol voor docenten informatievaardigheden.
Jammer is wel dat de auteur er blijk van geeft zelf de werking van Google Scholar niet goed te begrijpen, getuige deze cruciale alinea:
At first sight, Google Scholar adopts one of the basic academic values –
citation analysis – by letting algorithmic web spiders create indexes to a vast
web of academic materials. Like its parent engine, Google Scholar functions
as a ranking system based on semantic links to a vast reservoir of sources that
through their provenance might be considered academically sound. However,
Google Scholar’s algorithm works on the basis of quantitative citation analysis,
a process different from the one scholars use in their protected academic
universe, where citations are also scored according to their relative status and
weight in their specific professional disciplines. Ranking information through
Google Scholar is quite similar to Google Search in that it ranks sources on
the basis of popularity rather than truth-value or relevance. In the Scholar
context, there is no clear peer-review system or citation analysis system that
publicly lays out its ranking principles; there is only an algorithm – PageRank,
named after its inventor Larry Page – that takes the number of links and hits
as its basic units of ranking, but whose exact working is a well-kept trade
secret. PageRank is a quantitative rather than qualitative system: a source that
is well linked to other sources and is often clicked on thus gains in ranking,
regardless of the document’s status, relevance or value. As library scholar
Margaret Markland (2005: 25) observes: ‘Google equates “linking to a page”
as “assigning importance,” but this definition of importance may not necessarily
indicate quality.’
Dat klopt natuurlijk op een aantal punten niet echt.
@Jeroen. Als je schrijft: “Dat klopt op een aantal punten niet echt” zonder dat toe te lichten, ga je er dan van uit dat wij wel weten wat je bedoelt? Of betekent het dat je zelf ook niet precies weet wat er niet klopt aan de bewering van de auteur, omdat Google zo weinig transparant is?
Op het gebied van Google Scholar durf ik mezelf wel een leek te noemen, overigens. Vandaar graag meer uitleg.
Dit wordt dus toch gelezen! Ok, dan, puntsgewijs:
1) “… vast reservoir of sources that through their provenance might be considered academically sound”
>> Dit is maar de halve waarheid. Vor een deel worden publicaties in Google Scholar inderdaad opgenomen vanwege hun herkomst (bv sites van uitgeverijen waar Google een contract mee heeft, zodat zij full text artikelen mogen indexeren) maar een belangrijk deel wordt opgenomen op basis van hun structuur. Grotendeels los van de aard van de site wordt dan automatisch gekeken of de tekst op een webpagina sterk lijkt op de opbouw van een gemiddeld wetenschappelijk artikel: abstract-keywords-introduction-methods-analysis-discussion-conclusion-references.
2) “However, Google Scholar’s algorithm works on the basis of quantitative citation analysis, a process different from the one scholars use in their protected academic universe, where citations are also scored according to their relative status and
weight in their specific professional disciplines”.
>> Hier worden appels met peren vergeleken. Een zoekmachine wordt vergeleken met het waarderen van citaties, die disciplinespecifiek worden gewogen. Dat gebeurt inderdaad bij goede research assesssments (door bv. CWTS), maar niet in de systemen waarmee Google moet worden vergeleken (WoS/Scopus). Die doen namelijk helemaal geen relevantie ordening op basis van citaties, alleen op woordvoorkomen/frequentie en apart op citaties maar als je dat opgeeft. Overigens ben ik van mening dat peren lekkerder zijn, als ik dan toch ga vergelijken.
3) “Ranking information through Google Scholar is quite similar to Google Search in that it ranks sources on the basis of popularity rather than truth-value or relevance”.
>> Hoewel Google preciese details van de gebruikte relevance ranking algoritmes natuurlijk duister zijn is mij geen onderzoek bekend waarin wordt aangetoond dat ranking op basis van populariteit (in de zin van aantal views/clicks) wordt toegepast. In het PageRank algorithm speelt populariteit in die zin althans geen rol (wel natuurlijk populariteit bij makers van webpagina’s die een link maken of bij auteurs die iets citeren). Wat de auteur bedoelt met “truth value” is mij een raadsel. Er staat niet wat het is en het komt in het hele stuk verder niet voor. Het is in ieder geval niet een concept dat bij andere zoekingangen een rol speelt.
4) “In the Scholar context, there is no clear peer-review system or citation analysis system that publicly lays out its ranking principles”
>> Peer review en citatie-analyse heeft natuurlijk vrijwel niets te maken met relevantie orderning in wetenschappelijke zoeksytemen. Wel is het zo dat het wel of niet peer reviewed zijn van een tijdschrift als criterium voor opname door het ene systeem sternger wordt gehanteerd dan het andere. WoS is hier zeer streng, Scopus al iets minder en Google Scholar is niet streng. Dat heeft voordelen en nadelen. Mooi zou wel zijn als je in GS een zoekactie zou kunnen beperken op peer reviewed materiaal.
5) “… there is only an algorithm – PageRank,
named after its inventor Larry Page – that takes the number of links and hits as its basic units of ranking, but whose exact working is a well-kept trade secret. PageRank is a quantitative rather than qualitative system: a source that is well linked to other sources and is often clicked on thus gains in ranking, regardless of the document’s status, relevance or value”
>> Als gezegd, het aantal hits/clicks speelt geen rol in de PageRank (het is natuurlijk vooral andersom) en Google ontkent ook dat het in andere algoritmes die de relevantieordening bepalen een rol speelt. Ik weet natuurlijk ook wel dat Google hier niet het achterste van z’n tong laat zien en dat er zeker bij de ‘algemene’ zoekmachine van Google veel niet-gedocumenteerde effecten zijn.
6) PageRank is a quantitative rather than qualitative system: a source that is well linked to other sources and is often clicked on thus gains in ranking, regardless of the document’s status, relevance or value”
>> Dit vind ik een heel vreemde uitspraak. Het aantal citaties/links is misschien wel de enige meetbare proxy van relevantie en het is al zeer mooi als zoekmachines daarmee rekening houden. Daar kunnen de meestal klassieke bibliotheekcatalogi en bibliografische databases, die louter ordenen of auteursnaam of publicatiejaar nog een puntje aan zuigen! Uiteraard blijft de gebruiker verantwoordelijk voor de wijze of en hoe het gevonden stuk een rol speelt in zijn of haar onderzoek of publicatie.
Zo, nu mag je je omdraaien, Jan.
Dank Jeroen voor deze Google-lesje. Stevige kost voor deze vrijdag eind van de middag, het wordt volgende week. Ja, dus, de blog wordt gelezen!