donderdag 15 juli 2010

De KB-Google-deal

Gisteren maakte de KB bekend dat ze een overeenkomst gesloten hebben met Google voor het scannen van minstens 160.000 Nederlandse boeken uit de 18e en 19e eeuw. De reproducties zullen te zijner tijd beschikbaar gesteld worden via Google Books, de KB-sites en Europeana.
Wat opvalt, is dat de KB het scannen dus toch gaat uitbesteden. Op 12 januari van dit jaar zei Hans Jansen (directeur e-strategie van de KB) nog in de NRC:
De KB wil nu alle Nederlandse boeken digitaliseren. Bovendien gaat de bibliotheek ze zelf scannen. Wij hebben vorig jaar bij ons een zogenoemde scanstraat ingericht. Met enkele duizenden boeken van De Slegte hebben we onderzocht wat de goedkoopste en efficiëntste manier is om op grote schaal te scannen.
Uitkomst van het onderzoek: als je van een boek de rug verwijdert en je legt de losse pagina's in een bulkscanner, dan kost een gemiddeld boek tussen de vier en vijf euro. Jansen: Dat gaan we natuurlijk alleen doen met boeken die in grote oplagen zijn gedrukt en waarvan bij bibliotheken meerdere exemplaren in de kast staan. We gaan vanzelfsprekend geen unieke exemplaren of boeken met een bijzonder waarde versnijden.
Blijkbaar heeft Google een aanbod gedaan dat de KB niet kon weigeren...
Overigens staat in het persbericht ook expliciet dat de boeken na scanning weer het depot in gaan en in de leeszaal beschikbaar zullen worden gesteld.
Ik vraag me af trouwens of hier nog ophef over gaat ontstaan. Niet zo zeer van auteurs, want het gaat om publicaties waar geen auteursrecht (meer) op berust. Eerder van mensen die vinden dat de kwaliteit van de reproducties van Google niet goed genoeg is. Zo stelden Cees Klapwijk en René Stipriaan in de NRC van drie december 2007 dat het onmogelijk is dat het scannen van een boek niet meer dan 10 à 12 euro zou hoeven kosten en rekenden zij voor dat een OCR-accuratesse van 98% betekent dat in iedere zin één woord zit dat fout herkend is.
Eerder klaagden in Amerika de historici ook al over de metadata die door Google aan de reproducties werden toegevoegd.

Zouden al deze tekortkomingen ondertussen zijn verholpen?

3 opmerkingen:

  1. De kwaliteit van de Google-scans is niet best. Maar misschien dat de KB extra waarborgen heeft bedongen?
    Gegevens uit 2007 zijn ook niet erg actueel te noemen.
    'k Denk dat we eerst de eerste resultaten maar eens moeten afwachten.
    Want sinds 2007 is de kwaliteit van OCR aanzienlijk verbeterd, en de kosten voor grootschalig scannen zijn ook flink gedaald.

    BeantwoordenVerwijderen
  2. Dank voor je reactie Jan. Je zou verwachten dat de kwaliteit
    langzamerhand verbeterd is, maar het is me te gemakkelijk om daar
    voetstoots van uit te gaan. Vandaar mijn vraagtekens.
    Maar zoals ik hier
    http://ingmarbladertenschrijft.blogspot.com/2010/07/is-google-goed-voor-geschiedenis.html
    ook schrijf zijn er interessantere vragen om aan Google en de KB te
    stellen.

    BeantwoordenVerwijderen
  3. Dank voor je reactie Jan. Je zou verwachten dat de kwaliteit
    langzamerhand verbeterd is, maar het is me te gemakkelijk om daar
    voetstoots van uit te gaan. Vandaar mijn vraagtekens.
    Maar zoals ik hier
    http://ingmarbladertenschrijft.blogspot.com/2010/07/is-google-goed-voor-geschiedenis.html
    ook schrijf zijn er interessantere vragen om aan Google en de KB te
    stellen.

    Op 21-07-10 heeft Disqus<> het
    volgende geschreven:

    BeantwoordenVerwijderen