dinsdag 20 december 2011

Zwart-wit, zwart-geel en het Koninkrijk

Wiehad MeinKampf gelezen?
Erwarener- maarhunbeoordelingen warenveelalopvallend waarderend.
In het weekblad van ds.Geelkerken's HersteldVerband, Woord en Geest,
wasin dezomer van 1932 een reeks van zeven lange artikelen verschenen,
gewijd aan het nationaal-socialisme. Hiders antisemitisme was er bij de
schrijver alskoekingegaan, ookin Nederlandhadden, schreefhij, 'de Joodse
marxisten... het volk geïnfecteerd metdematerialistischebacil die nauw
verwant is aan de veroorzaker van hun eigen ziekte, de bekende Joodse,
materialistische mammondicnst'"; het nationaal-socialisme was prijzens-waardig: 'de uiting van een
te lang gemarteld volk, van eenvolk dat door
eenzijdige, onoordeelkundig opgelegde vredesverdragen tot het uiterst van
zijn spankracht is gefolterd'"; welhad de schrijver hier en daar bezwaren
tegen dementaliteit die uit Mein Kampf sprak, maarmenmoestbedenken
datHitler,toen hijditwerkschreef, 'aan eenverbitterde gemoedsstemming
ten prooi was';sindsdien had hijzich 'meer vredelievend betoond", Enkele
maandenlater deed dr. J. A.Nederbragt in het maandblad van de Anti-Revolutionaire Partij,
Anti-Revolutionaire Staatkunde, onder detitel 'Hitler,
Nog even terugkomen op de digitalisering van Het Koninkrijk der Nederlanden in de Tweede Wereldoorlog door het NIOD. Ondertussen zijn de technische problemen opgelost: het NIOD heeft de bestanden op twee servers gezet: http://lou.niod.knaw.nl/ en http://niod.hosting-concepts.nl/. Dat is mooi.
Nog mooier is dat je een zip-bestand met alle pdf's in kleur (1,24 GB) via een torrent op Mininova  kunt downloaden. Dat zouden er meer moeten doen.

Rest nog één andere vraag:
Waarom heeft het NIOD gekozen voor scannen in kleur en in zwart-wit?

Hierboven zie je van boven naar beneden een deel van pagina 167 uit deel 1 in kleur en in zwart-wit. Daaronder staat de OCR-tekst van dezelfde passage.
Het bestand in kleur is ongeveer een derde groter dan het zwart-wit bestand (85 MB vs 64 MB).
Maar, wat is de meerwaarde van de gele pagina's?
Er is een fysieke verklaring voor te geven. Het is de "wetenschappelijke" uitgave van Het Koninkrijk die door het NIOD gedigitaliseerd is en die blijkt te zijn gedrukt op wat dikker, licht geel papier. Voor de publieksuitgave was daarentegen gewoon wit papier gebruikt.
Onder archivarissen is er een oneindige discussie over scannen in kleur of zwart-wit als het gaat om de vervanging van archiefstukken. Mijn standpunt is - zoals waarschijnlijk bekend - dat kleur alleen nodig is als het iets betekent. Onder bibliothecarissen is er volgens mij zo'n zelfde discussie, waarbij de bibliothecarissen het "boek zijn" van een boek benadrukken, terwijl er ook mensen zijn die vooral het "informatieve" van de inhoud benadrukken.
Als je nu naar Het Koninkrijk kijkt, dan lijkt me geen enkele reden te verzinnen om een kleurenreproductie te maken. De gekleurde stofomslagen zijn niet meegescand en alle (in het origineel zwart-wit) plaatjes zijn verwijderd in verband met auteursrechten. Het is ook geen "persoonlijk" exemplaar dat gedigitaliseerd is. Je zou je nog kunnen voorstellen dat aantekeningen die deze of gene gemaakt heeft, digitalisering in kleur noodzakelijk maken. Dus waarom die extra moeite?

En dan kom ik toch weer terug op waar ik vorige week op hintte: de (her)bruikbaarheid van de reproducties.
Het NIOD schrijft zelf:
Gebruikers met een Mac kunnen het bestand beter eerst opslaan en vervolgens met Adobe Acrobat Reader openen. Openen in Safari levert een slecht leesbaar resultaat op.
Waarom dan geen moeite gedaan om de teksten ook nog in een ander exemplaar aan te bieden? The Internet Archive doet dat bijvoorbeeld standaard.
Of waarom niet nog meer tijd besteed aan adequate OCR?
In het voorbeeld hierboven zie je dat de letterherkenning redelijk is: er komt geen foute letter in voor. Wat je echter ook ziet is dat de spatiëring te wensen over laat. Dit heeft bijvoorbeeld tot gevolg dat een zoekactie op "Mein Kampf" in deel 1 negen treffers oplevert, terwijl "MeinKampf" er elf oplevert. Maar dat zijn ze nog niet allemaal, want "MeinKampj" komt ook nog minstens één keer voor (op p. 152).

Ik kan lastig inschatten wat de extra kosten voor de digitale reproducties in kleur zijn geweest, maar totdat iemand me kan uitleggen waarom kleur noodzakelijk was, vind ik het jammer dat die euro's niet aan andere formaten of een betere OCR besteed zijn.

Gerelateerd
Het Koninkrijk, het Journaal en de techniek

10 opmerkingen:

  1. Beste Ingmar,
    Er is gekozen voor kleur omdat sommige delen kaartjes bevatten met rode pijlen...rood heeft in dit geval een informatiewaarde en dus hebben we alles in kleur gedaan. Wat betreft de OCR: dit is wat standaard software zoals Abbey Finereader ervan maakt. Dat kan allemaal veel beter en daar zijn wij ons terdege van bewust: we gaan volgend jaar verder met het ontwikkelen van een versie van het Koninkrijk waar de tekst echt los komt te staan van de gescande boekpagina's,
    Met vriendelijke groet,
    Edwin Klijn
    NIOD

    BeantwoordenVerwijderen
  2. Hartelijk bedankt voor deze aanvulling Edwin.
    I stand corrected, want ik had nog geen kaartjes gezien.
    Gaan jullie ook nog kijken naar andere formaten?

    Op 20-12-11 heeft Disqus<> het
    volgende geschreven:

    BeantwoordenVerwijderen
  3. Jazeker. De PDFs zien er nu bijvoorbeeld slecht uit op de iPad, omdat deze niet zo goed overweg kan met de plaatjes. Om het Koninkrijk geschikt te maken voor e-readers etc. en ook wat meer output-onafhankelijk te zijn,  is de beste aanpak - zoals je zelf terecht al aangeeft - een goede tekstversie. Het OCR-resultaat dat we nu hebben, laat  te wensen over, we zijn van plan om met een aantal deskundigen hier nog een slag te slaan. Wordt vervolgd dus...

    BeantwoordenVerwijderen
  4. @Edwin Interessant die losstaande tekstversie! Liefst in ePub dan! Je hebt het dan wel over serieus veel werk - een project op zich lijkt me - om de OCR om te zetten naar een goed leesbare elektronische tekst. Erg benieuwd hoe jullie dat gaan aanpakken. 

    BeantwoordenVerwijderen
  5. @Robert, het wordt inderdaad een losstaand project...cliffhanger: details volgen in januari...

    BeantwoordenVerwijderen
  6. Ingmar Koch Over kleur of zwart wit scannen. Ik zou zeggen dat er de huidige meerwaarde van zwart wit scannen - kleinere bestanden - niet al te groot meer is. Met slimme JPEG2000 part 6 compressie in een PDF schil is er nauwelijks meer verschil. 
    Als het gaat om ongecomprimeerde opslag in TIFF is er natuurlijk nog altijd wel een groot verschil (bitonaal - grijswaarden - kleur is verschouding in grootte 1:8.24 - waarbij bitonaal vaak nog veel kleiner is door lossless TIFF groep 4 compressie).  Ga je bijvoorbeeld JPEG comprimeren dan wordt het verschil weer  verwaarloosbaar.  

    @34484e2300c38c5f8ba0513989fd25c2 Hoe zijn deze PDF´s eigenlijk gecomprimeerd?

    BeantwoordenVerwijderen
  7. Robert Gillesse In dit geval baseerde ik me op de "ware" bestandsgrootten van de kleur- en zwart-witbestanden. 

    BeantwoordenVerwijderen
  8. Dit leek me nu eens een mooi moment om de afbeeldingen te gaan bekijken. In de beeldbank constateer ik tot mijn grote verdriet echter weer dat ook hier een beeldmerk in de foto's is geplaatst. Afhaken binnen 2 minuten. De lol is er wel een beetje af zo zachtjes aan :-/

    BeantwoordenVerwijderen
  9. Ja, en ik ben bang dat we daar nog niet van af was.
    Ik hoorde laatste van 'n archiefdienst die boos was omdat www.limburgserfgoed.nl zijn foto's zo maar herpubliceert (via 'n api die de dienst zelf beschikbaar gesteld heeft volgens mij). Bij de archiefdienst waren ze namelijk net bezig met 't toevoegen van watermerken in verband met "informatiebeveiliging en zo..."

    2011/12/22, Disqus <>:

    BeantwoordenVerwijderen
  10. Ik vrees het ook ja. En zo vluchten er steeds meer mensen naar de grote vrije beeldbanken van het web. Jammer hoor.

    BeantwoordenVerwijderen