Gisteren verscheen op The Signal, een weblog van de Library of Congres, een interessante aanvulling op de geconstateerde problemen. Carl Fleischhauer beschrijft hoe er "in den beginne", dat wil zeggen begin jaren negentig van de vorige eeuw, gedacht werd over het digitaliseren van boeken.
Aan de ene kant had je de mensen die de tekst centraal stelden (de academici) en aan de andere kant had je degenen die het boek als zelfstandig object het belangrijkst vonden (de bibliothecarissen).
This is a bit of an oversimplification but the searchable text folks were drawn to the words on the page without a strong passion for the book as a physical object. To borrow a term from audiovisual archiving, a book and its paper pages were seen as a carrier for information. The important thing for them was to get at the text, which could then elaborated upon by editorial comments, variant readings from other editions (think of the many printings of Shakespeare), and the like, all carefully set off by the symbols of markup language.Deze uiteenlopende belangen werden uiteindelijk samengebracht, door beiden te doen: een mooi plaatje en een doorzoekbare tekst.
Meanwhile, the imaging folks brought their microfilm habits forward but with some added nuances. They reminded us of the importance of the bookness of a book, its value as an artifact and not just as a carrier. Whereas in the realm of microfilm, this artifactuality had to be presented in virtual form: a series of microphotographs (generally black and white) that lacked the heft and presence of a real book. In contrast, in the digital realm, the images could even be produced in a manner that would permit the printing out of a paper reproduction of the book, i.e., the creation of a physical replica.
Het probleem is echter wel, en dat is wat ook in Het digitale drama aangestipt wordt, dat het correct transcriberen van een tekst een stuk complexer (en dus duurder) is dan het accuraat weergeven van het plaatje. OCR is hierbij geen sluitende oplossing, omdat de foutmarge daarbij veel te hoog is. Maar, stelt Fleischhauer dan, het gaat om de combinatie van beide:
OCR provides good but not great accuracy–you can figure on from one to four typographic errors per page (or more). This imperfect “full text” (as the Internet Archive calls it) becomes a great resource for indexing and searching while the page images serve as the authoritative representation of the printed text. This is an affordable outcome.En dat is waar het toch vaak op uitkomt: wat kun je bereiken met de beperkte financiĆ«le middelen die je hebt en wat is dan belangrijker: kwantiteit of kwaliteit?
Het plaatje is de illustratie van Henry Cannon dat in de NRC boven Het digitale drama stond
Geen opmerkingen:
Een reactie posten