Posts tonen met het label digitale drama. Alle posts tonen
Posts tonen met het label digitale drama. Alle posts tonen

dinsdag 20 december 2011

Zwart-wit, zwart-geel en het Koninkrijk

Wiehad MeinKampf gelezen?
Erwarener- maarhunbeoordelingen warenveelalopvallend waarderend.
In het weekblad van ds.Geelkerken's HersteldVerband, Woord en Geest,
wasin dezomer van 1932 een reeks van zeven lange artikelen verschenen,
gewijd aan het nationaal-socialisme. Hiders antisemitisme was er bij de
schrijver alskoekingegaan, ookin Nederlandhadden, schreefhij, 'de Joodse
marxisten... het volk geïnfecteerd metdematerialistischebacil die nauw
verwant is aan de veroorzaker van hun eigen ziekte, de bekende Joodse,
materialistische mammondicnst'"; het nationaal-socialisme was prijzens-waardig: 'de uiting van een
te lang gemarteld volk, van eenvolk dat door
eenzijdige, onoordeelkundig opgelegde vredesverdragen tot het uiterst van
zijn spankracht is gefolterd'"; welhad de schrijver hier en daar bezwaren
tegen dementaliteit die uit Mein Kampf sprak, maarmenmoestbedenken
datHitler,toen hijditwerkschreef, 'aan eenverbitterde gemoedsstemming
ten prooi was';sindsdien had hijzich 'meer vredelievend betoond", Enkele
maandenlater deed dr. J. A.Nederbragt in het maandblad van de Anti-Revolutionaire Partij,
Anti-Revolutionaire Staatkunde, onder detitel 'Hitler,
Nog even terugkomen op de digitalisering van Het Koninkrijk der Nederlanden in de Tweede Wereldoorlog door het NIOD. Ondertussen zijn de technische problemen opgelost: het NIOD heeft de bestanden op twee servers gezet: http://lou.niod.knaw.nl/ en http://niod.hosting-concepts.nl/. Dat is mooi.
Nog mooier is dat je een zip-bestand met alle pdf's in kleur (1,24 GB) via een torrent op Mininova  kunt downloaden. Dat zouden er meer moeten doen.

Rest nog één andere vraag:
Waarom heeft het NIOD gekozen voor scannen in kleur en in zwart-wit?

Hierboven zie je van boven naar beneden een deel van pagina 167 uit deel 1 in kleur en in zwart-wit. Daaronder staat de OCR-tekst van dezelfde passage.
Het bestand in kleur is ongeveer een derde groter dan het zwart-wit bestand (85 MB vs 64 MB).
Maar, wat is de meerwaarde van de gele pagina's?
Er is een fysieke verklaring voor te geven. Het is de "wetenschappelijke" uitgave van Het Koninkrijk die door het NIOD gedigitaliseerd is en die blijkt te zijn gedrukt op wat dikker, licht geel papier. Voor de publieksuitgave was daarentegen gewoon wit papier gebruikt.
Onder archivarissen is er een oneindige discussie over scannen in kleur of zwart-wit als het gaat om de vervanging van archiefstukken. Mijn standpunt is - zoals waarschijnlijk bekend - dat kleur alleen nodig is als het iets betekent. Onder bibliothecarissen is er volgens mij zo'n zelfde discussie, waarbij de bibliothecarissen het "boek zijn" van een boek benadrukken, terwijl er ook mensen zijn die vooral het "informatieve" van de inhoud benadrukken.
Als je nu naar Het Koninkrijk kijkt, dan lijkt me geen enkele reden te verzinnen om een kleurenreproductie te maken. De gekleurde stofomslagen zijn niet meegescand en alle (in het origineel zwart-wit) plaatjes zijn verwijderd in verband met auteursrechten. Het is ook geen "persoonlijk" exemplaar dat gedigitaliseerd is. Je zou je nog kunnen voorstellen dat aantekeningen die deze of gene gemaakt heeft, digitalisering in kleur noodzakelijk maken. Dus waarom die extra moeite?

En dan kom ik toch weer terug op waar ik vorige week op hintte: de (her)bruikbaarheid van de reproducties.
Het NIOD schrijft zelf:
Gebruikers met een Mac kunnen het bestand beter eerst opslaan en vervolgens met Adobe Acrobat Reader openen. Openen in Safari levert een slecht leesbaar resultaat op.
Waarom dan geen moeite gedaan om de teksten ook nog in een ander exemplaar aan te bieden? The Internet Archive doet dat bijvoorbeeld standaard.
Of waarom niet nog meer tijd besteed aan adequate OCR?
In het voorbeeld hierboven zie je dat de letterherkenning redelijk is: er komt geen foute letter in voor. Wat je echter ook ziet is dat de spatiëring te wensen over laat. Dit heeft bijvoorbeeld tot gevolg dat een zoekactie op "Mein Kampf" in deel 1 negen treffers oplevert, terwijl "MeinKampf" er elf oplevert. Maar dat zijn ze nog niet allemaal, want "MeinKampj" komt ook nog minstens één keer voor (op p. 152).

Ik kan lastig inschatten wat de extra kosten voor de digitale reproducties in kleur zijn geweest, maar totdat iemand me kan uitleggen waarom kleur noodzakelijk was, vind ik het jammer dat die euro's niet aan andere formaten of een betere OCR besteed zijn.

Gerelateerd
Het Koninkrijk, het Journaal en de techniek

maandag 24 oktober 2011

Amerikaanse Best Practices

Vorige week vond in Lexington de Best Practices Exchange 2011 plaats. Bonnie Wedle, een van mijn Amerikaanse "goeroes", schrijft er enkele interessante dingen over:
Users do not use digital collections in the same way as they use paper collections, and we cannot guess how digital collections will be used. For example, LC assumed that researchers would want textual records, but a growing number of researchers want image files of textual records.
Dat laatste is een bijzondere constatering die een eigenlijk in gaat tegen de berichtgeving in de NRC over "het digitale drama"
Het volgende citaat lijkt dan weer in tegenspraak met het eerste:
We also need to start thinking in terms of “Big Data.” The definition of Big Data -- what can be easily manipulated with common tools and can be managed and stewarded by any one institutions -- is rather fluid, but we need to start thinking in these terms. We also need to be aware that Big Data may have commercial value, as evidenced by the increasing interest of firms such as Ancestry.com in the data found in our holdings. 
Het volgende citaat is niet alleen waar Christian eerder al over schreef en waar volgende maand een Speel-en-deel-sessie aan gewijd wordt, maar vooral de eerste paar zinnen zijn 100% Archief 2.0:
We have to switch to a self-serve model of reference services. Growing numbers of researchers do not want to come to us, ask questions of us, and then use our materials in our environment. They want to find the materials they need and then pull them out of our environment and into their own workspaces. We need to create systems and mechanisms that make it easy for them to do so. As a result, we need to figure out how to support real-time querying of billions of full-text items and the frequent downloading by researchers of collections that may be over 200 TB each. We also need to think about providing tools that support various forms of collection analysis (e.g., visualization).
De gebruiker heeft de archiefdienst alleen maar nodig om de "data" beschikbaar te stellen, daarna moet hij er mee kunnen doen wat hij helemaal zelf wil.
En tenslotte nog een citaat dat de digitale problemen van archiefdiensten, bibliotheken en overheden in het algemeen weergeeft: de enorme omvang van de digitale informatie die we moeten gaan beheren en beheersen:
The sheer volume of the electronic data cultural stewardship organizations need to keep is a challenge. LC has acquired the Twitter archive, which currently consists of 37 billion individual tweets and will expand to approximately 50 billion tweets by year’s end. The archive grows by 6 million tweets an hour. LC is struggling to figure out how best to manage, preserve, and provide comprehensive access to this mass of data, which researchers have already used to study the geographic spread of the dissemination of news, the spread of epidemics, and the transmission of new uses of language.
 De opzet van die Best Practices Exchange is ook wel interessant:
For the past few years, those of us who have attended the BPE have tried to adhere to the principle that “what happens at BPE, stays at BPE.” This doesn’t mean that we don’t share what we’ve learned at the BPE (hey, I’m blogging about it!), but it does mean that we’re sensitive to the fact that candor is both essential and risky. The BPE encourages people to speak honestly about how and why projects or programs went wrong and what they learned from the experience. Openness of this sort is encouraging; all too often, we think that we’re alone in making mistakes. It's also helpful: pointing out hidden shallows and lurking icebergs helps other people avoid them. However, sometimes lack of senior manager commitment, conflicts with IT personnel, and other internal problems contribute to failure, and colleagues and supervisors occasionally regard discussion of internal problems as a betrayal. As a result, BPE attendees should exercise some discretion, and those of us who blog about the BPE should be particularly careful; our posts are a single Web search away.
Was er een paar weken geleden in Nederland niet ook een bijeenkomst die volledig ging over mislukte projecten?
En zou dat niet een interessante "lijn" zijn tijdens #KVAN12?

Plaatje: Geek & Poke

dinsdag 18 oktober 2011

Over het digitale drama

Afgelopen weken is er heel wat te doen geweest om het artikel Het digitale drama van Karel Berkhout in de NRC van 10 september. Ik heb het een en ander bij elkaar gescoopt. Als ik Scoop It goed snap, kunnen jullie hier ook nog pagina's aan toevoegen, maar dat terzijde.
Gisteren verscheen op The Signal, een weblog van de Library of Congres, een interessante aanvulling op de geconstateerde problemen. Carl Fleischhauer beschrijft hoe er "in den beginne", dat wil zeggen begin jaren negentig van de vorige eeuw, gedacht werd over het digitaliseren van boeken.
Aan de ene kant had je de mensen die de tekst centraal stelden (de academici) en aan de andere kant had je degenen die het boek als zelfstandig object het belangrijkst vonden (de bibliothecarissen).
This is a bit of an oversimplification but the searchable text folks were drawn to the words on the page without a strong passion for the book as a physical object. To borrow a term from audiovisual archiving, a book and its paper pages were seen as a carrier for information. The important thing for them was to get at the text, which could then elaborated upon by editorial comments, variant readings from other editions (think of the many printings of Shakespeare), and the like, all carefully set off by the symbols of markup language.
Meanwhile, the imaging folks brought their microfilm habits forward but with some added nuances. They reminded us of the importance of the bookness of a book, its value as an artifact and not just as a carrier. Whereas in the realm of microfilm, this artifactuality had to be presented in virtual form: a series of microphotographs (generally black and white) that lacked the heft and presence of a real book. In contrast, in the digital realm, the images could even be produced in a manner that would permit the printing out of a paper reproduction of the book, i.e., the creation of a physical replica.
Deze uiteenlopende belangen werden uiteindelijk samengebracht, door beiden te doen: een mooi plaatje en  een doorzoekbare tekst.
Het probleem is echter wel, en dat is wat ook in Het digitale drama aangestipt wordt, dat het correct transcriberen van een tekst een stuk complexer (en dus duurder) is dan het accuraat weergeven van het plaatje. OCR is hierbij geen sluitende oplossing, omdat de foutmarge daarbij veel te hoog is. Maar, stelt Fleischhauer dan, het gaat om de combinatie van beide:
OCR provides good but not great accuracy–you can figure on from one to four typographic errors per page (or more). This imperfect “full text” (as the Internet Archive calls it) becomes a great resource for indexing and searching while the page images serve as the authoritative representation of the printed text. This is an affordable outcome.
En dat is waar het toch vaak op uitkomt: wat kun je bereiken met de beperkte financiële middelen die je hebt en wat is dan belangrijker: kwantiteit of kwaliteit?

Het plaatje is de illustratie van Henry Cannon dat in de NRC boven Het digitale drama stond