maandag 12 september 2016

Let op lezer, hier komt de wolf die je verwachtte (Taalunie:Bericht)

Iedereen die Roodkapje herschrijft, grijpt terug op een variant van maximaal twintig jaar uit. Dat blijkt uit analyse van ruim vierhonderd versies van het sprookje. Wat heeft taaltechnologie te bieden voor het onderzoek van oude teksten?

Iedereen weet: Roodkapje overleeft de ontmoeting met de grote boze wolf. Eigenlijk is dat opmerkelijk, vindt etnoloog Folgert Karsdorp. In de populaire versie van Charles Perrault (1629-1703) duikt er geen jager op die de wolf opensnijdt. Als Roodkapje is opgegeten eindigt het sprookje. Tot eind negentiende eeuw was deze variant dominant in Nederland. En toch weet iedereen: Roodkapje wordt gered.

Ingrijpende mutatie
'Het is een radicale innovatie van het verhaal, gebaseerd op de versie van de gebroeders Grimm van 1812', zegt Karsdorp. 'Dat zie je zelden. Veranderingen zijn altijd veel kleiner. Denk aan wat Roodkapje meeneemt in haar mandje. Eerst is dat wijn, later wordt dat bosbessensap als men beseft dat alcohol niet gezond is voor een zieke oma. En dan nog duurt het vijftig jaar voordat die verandering algemeen geaccepteerd is.'
Waarom heeft het sprookje dan toch zo ingrijpend kunnen muteren? 'Ik vermoed dat het sprookje destijds bij ons nog niet zo bekend was. Le petit chaperon rouge was vooral een Frans verhaal. En dat Roodkapje het overleefde sloot, eind negentiende eeuw, aan bij de verzoeting van de samenleving waarin meer rekening werd gehouden met kinderen. Men begon het kind-zijn als een aparte levensfase te zien.'

Computationeel etnoloog
Karsdorp ontdekte de graduele verandering van Roodkapje door 427 versies van het verhaal, gepubliceerd tussen 1781 en 2014, met elkaar te vergelijken. Met de computer. De promovendus, voorheen verbonden aan het Meertens Instituut en nu aan de Radboud Universiteit, is de eerste die software inzet om te onderzoeken hoe dit sprookje steeds is veranderd. 'Computationeel etnoloog', noemt de universiteit hem dan ook in een persbericht ter aankondiging van het artikel in Royal Society Open Science.
'De gedachte is vaak dat iedere auteur teruggrijpt op de oerversies van Perrault en de gebroeders Grimm', vertelt Karsdorp. 'In werkelijkheid kijken schrijvers in hun directe omgeving naar een uitgave die maximaal vijftien tot twintig jaar oud is. Een interessante tijdsduur: precies een generatie. Het lijkt alsof schrijvers teruggrijpen op de versie die ze zelf als kind hebben gehoord.'

Naam en faam
Er zijn dus niet twee 'kernhubs', zoals Karsdorp het noemt, maar meerdere. Een versie kan een hub worden omdat hij populair is. 'Als een variant al vaak is gebruikt als bron is de kans groot dat hij daarna nog een keer wordt gebruikt'. En: omdat de naam en faam van de auteur groot is. 'Hoe populairder een auteur, hoe vaker zijn versie de bron is. Deze aantrekkingskracht neemt wel af in de loop van de tijd.'
Je kunt ook aan kleine veranderingen zien wanneer een element van het verhaal tot het collectieve geheugen gaat behoren. Karsdorp: 'In de allereerste versie staat "Zy ontmoette op den weg een wolf", daarna wordt dat "de wolf". Eigenlijk is het raar om een personage zo te introduceren. Dat kan alleen maar omdat het bekende informatie is: let op lezer, hier komt de wolf die je al verwachtte.'

Iedereen googlet
Wat Karsdorp en zijn co-auteur, taaltechnoloog Antal van den Bosch, hebben gedaan is in wezen niet bijzonder. Teksten met elkaar vergelijken met behulp van de computer? Wie googlet doet niets anders dan zijn zoekterm vergelijken met alle beschikbare teksten op het internet. 'En dan zet Google ook nog de meest relevante vergelijking bovenaan. Daar zitten zulke geavanceerde algoritmes achter.'
Maar, geeft Karsdorp ook toe: in de geesteswetenschap is zulke taaltechnologie 'vrij nieuw'. Dat is deels te verklaren door een gebrek aan gedigitaliseerde teksten. Karsdorp moest eigenhandig in de KB honderden versies van Roodkapje overtikken. 'Kinderboeken kun je niet met ocr [optical character recognition] digitaliseren, omdat er vaak plaatjes in zitten. Dan staat er opeens een boom door de tekst afgedrukt.'

Eenzame opsluiting
Een van de redenen dat Karsdorp onderzoek naar Roodkapje deed was dan ook dat het corpus vergeleken bij Assepoester en Sneeuwwitje klein is – én het verhaal kort. 'Dit was al maandenlang eenzame opsluiting in de KB: boek op een kussen, handschoenen aan, met een hand het blaadje openhouden, met de andere overschrijven. Er zaten oude kijkdozen of pop-upboeken bij, daar moet je zó voorzichtig mee zijn.'
Toch is het taaltechnologisch onderzoek van Karsdorp niet het eerste dat interessante feiten naar boven haalt. Hij wijst op Mike Kestemont, verbonden aan de Universiteit Antwerpen, die onlangs door de stijl van het Wilhelmus te analyseren en te vergelijken een nieuwe mogelijke auteur naar voren schoof: Petrus Datheen. Op veel aannemelijker gronden dan eerdere claims, vindt Karsdorp.

Rijmwoordenprofiel
'Normaal kun je door het patroon in het gebruik van functiewoorden te herkennen auteurs van teksten aanwijzen. Voor Middelnederlandse teksten – waarvan de auteurs bij uitstek onbekend zijn – werkt dat niet, omdat veel op rijm zijn geschreven. Kestemont liet een ander onderzoek zien dat je in dat geval een auteur kunt herkennen aan zijn rijmwoordenprofiel. Heel interessant.'
In het Roodkapje-onderzoek heeft de computer het vocabulaire van alle verhalen vergeleken.  Op grond van de mate waarin woorden voorkomen, kun je simpel gezegd zien hoe ze op elkaar lijken. Een woord als 'de' telt niet mee, een woord als 'varkensreuzel' krijgt juist extra veel waarde. De verschillen in spelling los je op door niet hele woorden te vergelijken maar setjes van vier karakters.

Deromantiseren van de tekst
Zo ontstaat een 'verhalennetwerk'. Dat hebben Karsdorp en Van den Bosch vergeleken met netwerken waarin de relaties volstrekt willekeurig zijn – plus een mogelijke verklaring. Karsdorp: 'Je vergroot bijvoorbeeld de kans dat een tekst die al vaak als bron is gebruikt nóg een keer als bron wordt gebruikt. Construeert de computer dan een zelfde soort netwerk als wij hebben gevonden?'
Karsdorp noemt dat het 'deromantiseren' van de tekst. Je gaat volledig voorbij aan de inhoud van de tekst. En hoe interessant de uitkomst van het onderzoek ook is, het laat tegelijk de beperkingen van de taaltechnologie zien. Want wáárom er tegen het einde van de negentiende eeuw steeds vaker een jager opduikt die de wolf doodt en Roodkapje redt, kan de computer niet verklaren.
Karsdorp: 'Komt die verandering uit het verhaal zelf voort? Of komt die verandering van buiten af? Dat blijft onderwerp van debat, waarvoor je ander empirisch bewijs – onderbouwde argumenten – moet aandragen.'
(Eerder gepubliceerd op Taalunie:Bericht, 2 sep)

Geen opmerkingen: