woensdag 6 oktober 2010

Metadata, digitalisering en Google Books

Ik weet niet meer hoe ik er op kwam, maar dit is een interessant interview met Geoffrey Nunberg: The trouble with Google Books. Nunberg is een hoogleraar Taalkunde aan Berkely en is een van de mensen die kritisch kijkt naar de resultaten van Google Books. Hij is er niet tegen - I love Google Books. It's an amazing resource for scholars - hij vindt alleen dat het niet goed genoeg is.
I don't think they [Google, IKo] knew what they were getting into, though. Of course, if they hadn't been insensitive to the subtleties of the task, maybe they wouldn't have taken it on. A friend who's worked there told me that it's a culture that awards innovation, even if it's something relatively useless, like a map function that shows you all the place-names mentioned in a book. You get less credit at Google for making sure that old things continue to work well.
Zijn kritiek richt zich onder andere op de zeer gebrekkige metadata die aan boeken worden toegevoegd. Henry James die als auteur van Madama Bovary staat vermeld, Moby Dick dat is geclasseerd onder "Computers" en boeken die voor 1950 zouden zijn gepubliceerd, maar waar het woord "internet" in voorkomt. Dat soort dingen.
Bijna tussen neus en lippen door legt hij heel helder uit wat metadata zijn en dat een boek meer is dan een platte tekst die je kunt OCR-en en daarna doorzoeken. Titel, uitgever, verschijningsdatum, druk zijn allemaal onlosmakelijk verbonden met de 'betekenis' van een boek. Aangezien Google bijna alleen uitgaat van "full text search" hebben ze daar geen rekening mee gehouden.
People at Google are also saying, "Let's crowdsource this," but that is a stupid idea. You and I are both smart, knowledgeable people, but I wouldn't trust either of us to do the skilled work of cataloging a 1890 edition of "Madame Bovary." It's very difficult. It has to be coordinated by uniform standards. (...) And metadata is hard to fix if you don't get it right in the first place. Someone has to spend a lot of money to properly catalog a research library, and I don't know if Google understood that going into it.
Als antwoord op de tegenwerping dat de bestaande boeken toch blijven bestaan en dat er dus ook niets verloren gaat, als de digitalisering het niet goed gedaan is zegt hij:
Because if this really is the "last library," as I put it, and no one is going to go back and do all this scanning again, which I think we can all agree is probably the case, then it's really important that it be done right. And it's going to cost a lot of money to do it. A disproportionate percentage of the resources have to go to a relative small percentage of users. That's what a research library is all about. That is the nature of scholarship.

Gerelateerd:
Is Google goed voor geschiedenis?
De KB-Google-deal

2 opmerkingen:

  1. Ik snap niet waarom Google dat zou moeten doen. Lijkt me een uitgelezen taak voor bibliotheken om dat op te pakken en er voor te zorgen dat de titelbeschrijvingen de rest van de metadata gekoppled wordt aan die Google books. Zij hebben de correctie metadata toch al in hun database zitten?

    BeantwoordenVerwijderen
  2. @Luud Ik denk dat daar twee 'problemen' mee zijn. Blijkbaar maakt Google nu geen gebruik van de metadata die bibliotheken al hebben (en naar ik aanneem willen leveren): "I thought it was a machine error, too, but Google assured me that they had people doing this by hand. In some cases, they got their metadata from a provider in Armenia. They say that they want to have a diversity of sources to get a more complete classification for every book, but that's just silly. The metadata at the Harvard Library was done by hand by smart people who know how to catalog."
    Ander minpunt bij jouw oplossing is, denk ik, dat je er dan dus van uitgaat dat de toegang in de individuele bibliotheekcatalogi ligt. Terwijl het mooie van Google Books nou juist zou (kunnen) zijn, dat je in een keer in alle catalogi en alle boeken kunt zoeken. Maar dan moet je dus wel zorgen voor uniforme en correcte metadata.

    BeantwoordenVerwijderen