vrijdag 16 juli 2010

Is Google goed voor Geschiedenis?

Gisteren verwees ik kort naar een bericht op de website van de American Historical Association uit 2007 waarin Robert B. Townsend klaagt over de matige kwaliteitscontrole van Google bij het digitaliseren van boeken.
The problems I encountered fit into three broad categories: (1) the quality of the scans is decidedly mixed; (2) the information about the books (the "metadata" in infospeak) is often inaccurate; and (3) the public domain is narrowly and erroneously construed, sadly restricting access to materials that should be freely available.
Is Google good for history? vraagt Townsend en zijn antwoord is eigenlijk Nee.

Begin dit jaar schreef Dan Cohen onder diezelfde titel ook een blogpost en zijn antwoord is "Of course it is." Op zich is dat een verrassend antwoord, aangezien Cohen een van de eersten was die de "Google Fingers" op het plaatje hierboven liet zien.
Maar, zegt Cohen:
Indeed, we should recognize that at its heart, Google Books is the outcome, like so many things at Google, of a engineering challenge and a series of mathematical problems: How can you scan tens of million books in a decade? It’s easy to say they should do a better job and get all the details right, but if you do the calculations (...) you’ll probably see that getting a nearly perfect library scanning project would take a hundred years rather than ten.

Google is goed voor historici, omdat, ondanks alle tekortkomingen, een oceaan aan boeken eenvoudig toegankelijk wordt voor heel veel onderzoekers. Daarnaast zorgt de volledige doorzoekbaarheid van grote aantallen boeken ervoor dat onderzoekers op een nieuwe, meer kwantitatieve manier onderzoek kunnen doen.

Maar Cohen heeft ook kritiek, die ik interessanter vind dan gezeur over scanfouten. Voor het gemaak wat citaten:
In short, complaining about the quality of Google’s scans distracts us from a much larger problem with Google Books. The real problem — especially for those in the digital humanities but increasingly for many others — is that Google Books is only open in the read-a-book-in-my-pajamas way. To be sure, you can download PDFs of many public domain books. But they make it difficult to download the OCRed text from multiple public domain books – what you would need for more sophisticated historical research.

I would like to see (...) greater availability of what Cliff Lynch has called “computational access” to Google Books, a higher level of access that is less about reading a page image on your computer than applying digital tools to many pages or books at one time to create new knowledge and understanding.

In hoeverre zouden de KB of Europeana hier aan tegemoet kunnen komen? Of maken de details van de deal met Google dit onmogelijk?

I would much rather have historians and Google to work together. While Google as a research tool challenges our traditional historical methods, historians may very well have the ability to challenge and make better what Google does. Historical and humanistic questions are often at the high end of complexity among the engineering challenges Google faces, similar to and even beyond, for instance, machine translation, and Google engineers might learn a great deal from our scholarly practice. Google’s algorithms have been optimized over the last decade to search through the hyperlinked documents of the Web. But those same algorithms falter when faced with the odd challenges of change over centuries and the alienness of the past and old books and documents that historians examine daily.

De ultieme vraag zou volgens Cohen dus niet moeten zijn of Google goed is voor historici, maar of historici goed zijn voor Google. En hij beantwoordt beide volmondig met Ja.

2 opmerkingen: