vrijdag 29 november 2019

‘We lopen tastenderwijs door een donkere kamer’ – Interview met Geert Buelens over 20 jaar DNBL (Vooys)

In een verborgen bijkamertje in het doolhof dat het Transcomplex van de Universiteit Utrecht is, ontmoet journalist Maarten Dessing Geert Buelens naar aanleiding van het twintigjarige bestaan van de Digitale Bibliotheek voor de Nederlandse Letteren (DBNL). Geert Buelens is sinds 2005 hoogleraar Moderne Nederlandse Letterkunde aan de Universiteit Utrecht. In 2018 kwam zijn goed ontvangen studie De jaren zestig. Een cultuurgeschiedenisuit bij Ambo Anthos en naast studies verschenen van zijn hand meerdere essaybundels en de drie dichtbundels Het is (2002), Verzeker u (2005) en Thuis (2015). Vlak na zijn aanstelling aan de Universiteit Utrecht werd hem gevraagd om toe te treden tot het bestuur van de DBNL. Daar zat hij in tot de zelfstandige stichting in 2015 werd ondergebracht bij de Koninklijke Bibliotheek (KB) in Den Haag en de samenwerking werd aangegaan met de Taalunie en de Vlaamse Erfgoedbibliotheken. Daarna werd hij voorzitter van de Werkgroep Content. Deze werkgroep adviseert over de selectie van de achthonderd boeken en tijdschriftjaargangen waarmee DBNL ieder jaar groeit en stelt de prioriteiten voor de te digitaliseren teksten. Maarten Dessing sprak hem over het belang van deze werkgroep, de wijze waarop de werkgroep keuzes maakt en de complicaties die zich voordoen bij het maken van deze keuzes en het digitaliseren van teksten.

Toen u in 2005 aan de Universiteit Utrecht werd aangesteld als hoogleraar, had de DBNL net haar eerste lustrum gevierd. Kort daarna werd u gevraagd om bestuurslid van de DBNL. Hoe belangrijk was de DBNL toentertijd voor u?
Ik ben het type onderzoeker dat grote hoeveelheden primair en secundair materiaal bestudeert en daarvoor ontzettend veel in bibliotheken zit. Ik ben een echte bibliotheekman. Al die schatkamers vol materiaal die een bibliotheek biedt – ik word daar altijd heel blij van. De DBNL is als digitale variant daarvan een fantastische toevoeging waar je bronnen vindt waar je zelf niet zou zijn opgekomen, met als fijn extraatje dat je er de deur niet voor uit hoeft.
De beelden die ik heb van de begintijd van de DBNL zijn een beetje vaag. Ik zou niet meer weten wat er in 1999 precies op stond. Een van mijn vroegste concrete herinneringen is een project om duizend basisteksten erop te zetten – een vroege poging tot canonvorming. Daar was ook een tekst van mij voor uitgekozen, dus toen kreeg ik een formulier om afstand te doen van mijn copyright, dat ik moest ondertekenen. Mijn proefschrift over de Vlaamse poëzie door de ogen van Paul van Ostaijen, waarvan de handelseditie uitkwam in 2001, is in ieder geval nog echt een product van de twintigste eeuw geweest. De honderd jaar Vlaamse poëzie die ik daarvoor heb bestudeerd, heb ik allemaal gevonden in bibliotheken en archieven. Of zelf gekocht.
Voor mij was het evident om in het bestuur van de DBNL te stappen, toen mij dat kort na mijn aanstelling aan de Universiteit Utrecht werd gevraagd. De DBNL is een dusdanig belangrijk instrument voor het vak – zowel het onderwijs als het onderzoek – dat als je daaraan kan bijdragen, je dat gewoon doet. Er zijn allerlei bloedgroepen vertegenwoordigd. Destijds in het bestuur, en tegenwoordig in deze werkgroep. Er zijn mensen uit Vlaanderen, mensen uit Nederland, vertegenwoordigers van de gewone gebruikers, vertegenwoordigers van de academische gebruikers en zo meer. Ik kan door mijn achtergrond veel van die verschillende petten opzetten. Ik heb zicht op zowel de Nederlandse als de Vlaamse geschiedenis, cultuur en institutionele structuren met al hun mogelijkheden en beperkingen. Ik kan daardoor alles een beetje overzien. Althans, men hoopt dat ik dat kan.

Kunt u een voorbeeld geven van een onderzoek waarvoor u bij uitstek de DBNL veel hebt geraadpleegd?
Poeh! Het eerste wat me te binnen schiet – en ja, dat is eigenlijk geen goede PR – zijn eigenlijk ontgoochelingen. Je kijkt op de DBNL, ziet een tekst staan, klikt twee keer en moet constateren: o nee, de rechten zijn niet vrijgegeven en dus staat hij er toch niet op. Dat is een van de grootste problemen van DBNL, zeker voor iemand als ik, omdat de meeste literatuur waarnaar ik onderzoek doe, nog rechtendragend is. De hoeveelheid materiaal uit de recentste periodes die wel beschikbaar is, is vaak frustrerend klein. Dat neemt niet weg dat ruim 16.000 teksten in de DBNL natuurlijk gigantisch is. Wie heeft er 16.000 boeken in huis? Iemand die dit jaar eindexamen doet, heeft de rest van zijn leven genoeg te lezen met alleen al het materiaal dat op dit moment op de DBNL te vinden is.
            In Utrecht laten we onze studenten veel met de DBNL werken. Voor vrijwel elk vak wordt wel een primaire en/of secundaire tekst opgegeven die in de DBNL te vinden is. Het gevaar is eerder dat studenten, die zijn opgegroeid met internet en soms niets anders verwachten dan digitaal materiaal, te veel leunen op de DBNL. Dan googlen ze iets en komen ze op de DBNL terecht. Of ze zoeken zelfs alleen binnen de DBNL, terwijl er in de vakpraktijk nog heel veel niet op DBNL te vinden is. Wie bijvoorbeeld een state of the art-studie naar Hugo Claus wil doen, zal ontdekken dat misschien wel 80% van de bestaande studies daar niet te vinden is. Het copyright is nog niet opgeheven of het academisch tijdschrift waarin het is verschenen, is niet gedigitaliseerd. Of het is wel digitaal te vinden, maar enkel binnen de beschermde omgeving van universiteitsbibliotheken. Het is de verantwoordelijkheid van iedereen in het onderwijs om studenten daarop te wijzen.

Zijn de verwachtingen van gebruikers over wat de DBNL te bieden heeft dan misschien te hoog?
Ik zou zeggen: het is goed dat de verwachtingen hoog zijn, maar ze zijn niet altijd realistisch. Ooit was de belofte van het internet, en zeker van een partij als Google, dat alles online te vinden zou zijn. We leven nu ook in het tijdperk van big data. Maar de beelden die daarbij opkomen, reflecteren niet de huidige werkelijkheid. Neem alleen al de beperking door het copyright, dat blijft gelden tot zeventig jaar na de dood van de auteur, óók als er al lang geen commercieel gewin mee te behalen is. Zelfs materiaal dat is gedigitaliseerd, kun je vaak toch niet raadplegen omdat het auteursrecht niet is geregeld. Gelukkig is er voor Nederland in 2017 een collectieve regeling afgesloten met Lira, waardoor veel reeds gedigitaliseerde tijdschriftartikelen beschikbaar zijn gekomen waar nog auteursrechten op rusten. Voor Vlaanderen is er helaas nog niets vergelijkbaars gebeurd, ook omdat copyright in België federaal geregeld wordt en dat maakt de zaak complex. Vlaanderen kan zoiets niet alleen beslissen. Voor Vlaamse teksten moet nog steeds ieder rechthebbend individu toestemming geven en het is niet altijd makkelijk om die te vinden.

Het blijft dus handiger om in persoon naar de KB te gaan?
Of om boeken te kopen. Ik merk dat ik dat zelf nog steeds veel doe. Maar in principe is dat waar. Alles wat op de DBNL staat, is ook in papieren vorm te vinden in Den Haag, zo mag je aannemen. Daar staat tegenover dat neerlandici buiten Nederland en Vlaanderen niet zomaar daarheen kunnen reizen. Voor hen is de gigantische hoeveelheid bronnen in de DBNL van goudwaarde. Bij gebrek aan goedgevulde plaatselijke bibliotheken kunnen studenten teksten lezen die anders onvindbaar of onbetaalbaar zouden zijn. Ik heb zelf die ervaring als gasthoogleraar Nederlandse letterkunde aan de Universiteit Stellenbosch. De middelen zijn in Zuid-Afrika veel beperkter. Dat belang voor de internationale neerlandistiek is een van de grootste troeven van de DBNL, waarvoor in andere taalgebieden geen equivalent te vinden is.
Toen ik onderzoek deed voor mijn boek Europa, Europa! over de dichters van de Eerste Wereldoorlog, moest ik mij breed oriënteren in literaturen waar ik geen idee van had, en heb ik gekeken naar wat er elders zoal bestaat. Voor de Franstalige literatuur is er Gallica, dat sindsdien wel sterk is verbeterd, maar op dezelfde manier als bij ons erg wordt beperkt door het copyright. Vanaf de twintigste eeuw is heel weinig materiaal te vinden. De Scandinavische landen hadden een soort mini-DBNL. Goed, dit was in 2008. Sindsdien heb ik niet meer gekeken, misschien is de situatie enorm verbeterd. Maar het staat buiten kijf dat het Nederlandse taalgebied er heel vroeg bij was met het op grote schaal digitaliseren van het eigen erfgoed.

Als voorzitter van de Werkgroep Content bent u nauw betrokken bij DBNL. Deze werkgroep adviseert over de selectie van titels die gedigitaliseerd worden voor DBNL. Waarom is het bestaan van deze werkgroep van belang?
Ook bij de DBNL gold in de begintijd de vooronderstelling dat op termijn alles zou worden gedigitaliseerd, dus maakte het in de pre-KB-tijd ook niet uit wat eerst aan de beurt zou komen. Er waren wel commissies van wetenschappers uit heel verschillende gebieden die adviseerden, maar hoewel ze altijd zijn blijven bestaan, leidden ze in de meeste gevallen jarenlang een slapend bestaan. Het effect was dat er geen lijn zat in wat er werd gedigitaliseerd. Dan zag je soms een derde druk van een titel gedigitaliseerd worden die al online te vinden was. Of een bepaalde brieveneditie, terwijl er een andere, betere editie beschikbaar was. Misschien hadden de mensen die erover gingen een duidelijk parcours in hun hoofd, maar voor de buitenwereld – en zelfs voor mij, die er bestuurlijk nauw bij betrokken was – wekte het de indruk van willekeur. De Werkgroep Content probeert daar verandering in te brengen.

Waarom is het idee verlaten dat alles wordt gedigitaliseerd?
Misschien gebeurt dat op termijn nog steeds. Google werkt eraan. Maar ook de KB doet dat met kranten en tijdschriften voor het project Delpher. Zij gebruiken daarvoor de OCR-methode (Optical Character Recognition), met alle vervuilingen van dien. Voor de DBNL is echter – in technisch opzicht – gekozen voor hoogwaardige digitalisering. Dat is in feite een eenentwintigste-eeuws monnikenwerk: teksten worden gescand, met behulp van OCR digitaal doorzoekbaar gemaakt en vervolgens handmatig gecorrigeerd en verrijkt. Omdat het in dat geval langer duurt voordat alles online beschikbaar is en deze manier van werken zeer kostbaar is, moet je inhoudelijke keuzes maken. Moet letterlijk iedere streekroman en elk gelegenheidsgedicht – met alle respect – onverwijld op deze, veel duurdere manier worden gedigitaliseerd? Natuurlijk niet.

Hoe maakt de Werkgroep Content zijn keuzes?
In het begin hebben we nagedacht over de vraag hoe we het gebied konden definiëren waarover we zelf gingen en hoe we vervolgens konden prioriteren. Daaruit is een definitie naar voren gekomen die gaat over taal, literatuur en cultuur – en dan niet ‘cultuur’ in brede zin, zodat iedere menselijke activiteit eronder valt. Het gaat over letterkunde. We weten uiteraard dat die studie de afgelopen decennia veel cultuurhistorischer is geworden, zodat we cultuur nog steeds breed definiëren, maar boeken over natuur en wetenschap digitaliseert de DBNL niet meer. Die passen beter binnen andere programma’s van de KB. Vervolgens hebben we de achtdelige reeks Geschiedenis van de Nederlandse literatuur die de afgelopen jaren is verschenen, als leidraad genomen. Alle titels die daarin worden genoemd, komen eerst aan de beurt. Want hoe gek het ook klinkt: na al die jaren waren er nog altijd canonieke, rechtenvrije auteurs waarvan sleutelwerken ontbraken.
            Daarnaast zijn er op allerlei gebieden specialisten die voor ons hun wensen formuleren. Specialisten op vakgebied, op periode, op geografisch gebied. En dat werkt goed. Zo is de DBNL er alleen voor Nederlandstalige literatuur, maar hebben specialisten in de Caraïbische literatuur geadviseerd om die definitie voor hun regio te verruimen. De Caraïben kennen veel meertalige auteurs, die naast het Nederlands ook in bijvoorbeeld het Papiaments hebben gepubliceerd. We hebben daarop direct beslist die oeuvres toch integraal te digitaliseren, omdat we inzagen dat dat een goed argument is. Daarbij speelt mee dat de bibliotheekvoorzieningen op de Antillen veel minder zijn dan hier en we zo belangrijke steun kunnen bieden aan de mensen daar.
Verder heeft de redactie van het Lexicon van literaire termen zelf op een gegeven moment het initiatief genomen om in plaats van een herdruk deze bron digitaal beschikbaar te maken binnen de DBNL als het Algemeen Letterkundig Lexicon (ALL). Dat lexicon wordt nu voortdurend geüpdatet en uitgebreid, zodat het zich heeft ontwikkeld tot een van de beste onderdelen van de DBNL. Overigens zint de werkgroep ook op manieren om het aantal kwalitatief hoge, secundaire bronnen te laten toenemen. Het Lexicon van literaire werken – ooit een losbladig ding met analyses van teksten die in decennia door het hele vak is opgebouwd – is sinds kort beschikbaar in de DBNL. Daarmee zijn twee van de belangrijkste naslagwerken die iedere neerlandicus op zijn werkkamer had staan, straks ook digitaal beschikbaar.

Waarom werd juist de reeks Geschiedenis van de Nederlandse literatuur als basis gebruikt voor wat wel en niet gedigitaliseerd wordt?
Ik weet dat daar ook kritiek op is gekomen. Maar dit is nu eenmaal de laatst gemaakte, breed gedragen canon. Je kunt van een kleine commissie als de onze niet verwachten dat die weer een canon gaat opstellen, die óók relatief zal zijn. Bovendien: de DBNL werkt alleen als de hele machinerie blijft draaien, als er voortdurend teksten door de molen gaan. Daarom moeten er lijsten zijn op basis waarvan de redactie nog jaren door kan gaan. Die lijsten, in feite niet meer dan krijtlijnen, hebben wij opgesteld. Een lijst van auteurs en een lijst van tijdschriften, waarbinnen wij weer categorieën en hun prioritaire volgorde hebben vastgesteld. Met name voor de tijdschriften wordt er een inhaalslag gemaakt voor Vlaamse periodieken, omdat dat corpus als erg Nederlands werd ervaren.

Tegelijkertijd staat de canon als concept ter discussie.
Dat klopt. En de academische neerlandistiek heeft de laatste jaren, mede door de maatschappelijke discussie over canoniciteit, ook steeds meer aandacht voor niet-canonieke literatuur. Zo is er recent een groot NWO-onderzoeksproject geweest naar middlebrow-literatuur. En wat blijkt dan? Niet voor elk decennium is die categorie goed vertegenwoordigd in de digitale bibliotheek. Er blijft dus altijd een spanning bestaan tussen teksten die eerst moeten worden gedigitaliseerd en teksten waar onderzoekers naar zoeken. De DBNL staat zeker open voor een ruimer begrip van literatuur, maar daar is op dit moment domweg geen geld voor – eerst moeten de A-auteurs, type Vondel en Gezelle, en A-tijdschriften digitaal beschikbaar komen. Wel doen we een oproep aan onderzoekers om bij hun subsidieaanvraag budget op te nemen voor het digitaliseren van hun eigen corpus of een deel ervan, dan voert de DBNL dat graag uit. Bovendien kunnen onderzoekers dan aan dat gedigitaliseerd corpus vragen stellen die ze anders niet zouden kunnen stellen. Een dergelijke subsidieaanvraag zou de standaard mogen worden.

Kunnen teksten die niet op de lijsten van uw werkgroep staan alleen worden gedigitaliseerd als daar geld voor wordt meegebracht?
Er is ook een deel van het budget gereserveerd voor aanvragen van buiten. Dat wordt veelal gedaan door mensen uit de universitaire wereld of die op een of andere manier tot dat milieu behoren, maar ik zou graag willen dat meer gewone gebruikers dat doen, want ook die groep willen we graag bereiken. Wel krijgen we regelmatig verzoeken van erven die het werk van hun voorvader bekend willen houden, of zelfs bekend willen maken. Als dat boeken zijn die niet tot de canon behoren, maar wel enigszins impact hebben gehad op de literatuurgeschiedenis, stemmen we daar graag mee in. Anders geldt wat ik eerder zei: niet iedereen die ooit een boek publiceerde, hoort automatisch in de DBNL. Maar als je eigen geld meebrengt – als onderzoeker of als erfgenaam – kan er natuurlijk meer. Zo werkt dat overal ter wereld, dus ook bij de DBNL.
            Ik ben van mening dat alles moet worden aangegrepen om de groei van het corpus te versnellen. Maar de financiële beperkingen zijn er nu eenmaal. Het zal met een tempo van achthonderd titels en tijdschriftjaargangen per jaar zelfs nog lange tijd duren voor de hele Geschiedenis van de Nederlandse literatuur is gecoverd. En toch komt er iedere maand geweldig veel materiaal bij.

Kunnen studenten niet worden betrokken bij het digitaliseringproces?
Crowdsourcing is voor DBNL helaas niet zo makkelijk te organiseren. Het werkproces is erg technisch, maar dat is niet het grootste probleem. Dat zijn de financiën en, vooral voor Vlaams materiaal, het regelen van de rechten met rechthebbenden. Het is ook voor mij daarom iedere maand opnieuw een verrassing wat er nu weer beschikbaar is gekomen. De output is onvoorspelbaar omdat de redactie te maken heeft met een hele reeks technische overwegingen als: is dit boek aanwezig in de KB? Kan het worden versneden of moeten er aparte scans worden gemaakt?

Heeft de werkgroep wel het gevoel greep te hebben op de gestage uitbouw van de DBNL?
Dat is lastig. Je hebt harde getallen nodig om een echt collectiebeleid op te zetten en te kunnen uitvoeren. We vragen al heel lang om die getallen, maar die zijn er helaas niet. Er zijn tot en met de achttiende eeuw wel Short Title Catalogues, zodat je weet wat er in die periodes allemaal is verschenen. Maar voor de negentiende en twintigste eeuw ontbreken die, dus kun je ook niet zeggen: we hebben tien procent van de productie gedigitaliseerd. We hebben eigenlijk geen enkel idee. We lopen tastenderwijs door een donkere kamer en weten niet waar we ons in die kamer bevinden. Te veel aan de linkerkant? Al bijna aan de overkant? Nee, dat laatste denk ik in ieder geval niet. We zitten eerder op tien procent dan op tachtig procent van de totale productie, vermoed ik.
Meer dan om te weten hoeveel procent van de literaire productie online staat, gaat het erom dat we moeten kunnen vaststellen waar de lacunes zitten. Stel: als je een lijst Nederlandstalige poëzie naast een lijst poëzie in de DBNL kunt leggen, dan is het bijvoorbeeld mogelijk te constateren dat de negentiende-eeuwse, gedrukte Vlaamse poëzie totaal ondervertegenwoordigd is. En dan kun je besluiten die categorie te prioriteren om het onevenwicht weg te nemen. Ook is bekend dat in de hele geschiedenis vrouwen minder hebben kunnen publiceren dan mannen. Hebben we dan in verhouding evenveel vrouwelijke auteurs gedigitaliseerd? Zo niet, dan kunnen we een inhaalslag maken. Maar al die gegevens ontbreken vooralsnog. Er wordt wel aan een digitale tool gewerkt om meer inzicht te krijgen in het DBNL-corpus, maar voorlopig kunnen we alleen afgaan op ervaringsfeiten van een in wezen kleine groep mensen die regelmatig iets zoekt op de DBNL en dat niet kan vinden. Dat is tamelijk impressionistisch.

Hoe kan de DBNL het gebrek aan harde statistische data oplossen?
Dat kan alleen de KB doen. Ik weet wel dat de KB het belang hiervan inziet. Ik weet ook dat er ideeën worden ontwikkeld om tot een volledige beschrijving te komen van alles wat er ooit in het Nederlands op papier is gepubliceerd, inclusief metadata zodat je die lijsten kunt opsplitsen naar genre, geslacht van auteur, geografie et cetera. Maar wanneer dit probleem dan is opgelost? Dat heeft te maken met factoren als tijd en geld. Dat kan ik onmogelijk inschatten. Het zal sowieso een meerjarenproject zijn. Maar daar hoeven we gelukkig niet op te wachten. Zo veel nuttig werk aan de opbouw van de DBNL is er wel te doen.
(Eerder gepubliceerd in Vooys)

Zie ook deze stukken over de DNBL uit 2018 en 2013.

Geen opmerkingen: