vrijdag 18 november 2011

PDF/a, wat heb je daar aan?

Gistermiddag mocht ik in Woerden een presentatie houden tijdens het tweede jaarcongres pdf/a van het PDF/A Competence Center Benelux i.s.m. DO Consultancy.
Door wat logistieke problemen was het nog een beetje de vraag of ik Woerden wel zou bereiken, maar even na 13.00 (ruim een drie kwartier voor ik "op" moest) kwam ik aan bij de Concordia-zalen. Dientengevolge heb ik wel het hele ochtendprogramma gemist, dus ik heb geen idee wat Inge Angevaare en David van Driessche verteld hebben. Maar de drie presentaties die ik wel gezien heb, waren in ieder geval interessant.
Raph de Rooij, van Logius, beantwoorde de vraag op welke manier pdf/a past in de Webrichtlijnen. De vraag stellen is eenvoudiger dan beantwoorden, want het antwoord hangt aaneen van mitsen, maren en tenzijs.
Kortweg komt het er op neer dat je op grond van de Webrichtlijnen ieder "non-textual object" adequaat moet beschrijven. De reden hiervoor is dat iemand met een beperking (blinden bijvoorbeeld) ook in staat moeten zijn het bestand te lezen. Dit betekent dat gescande pdf-bestanden (hetzij pdf/a-1b of pdf/a-2b, waarover hieronder meer) meestal problematisch zijn. De "-1a" en "-2a" varianten zijn al wat minder bewerkelijk, maar blijkbaar moet je ongeveer ieder bestand handmatig langs de richtlijnen leggen. Een mogelijke oplossing zou kunnen zijn om van ieder pdf-bestand ook een html-versie "er naast" te zetten.
Dit is in de praktijk natuurlijk onhaalbaar, zeker als een overheid gescande documenten (bijvoorbeeld naar aanleiding van een WOB-verzoek) op zijn website publiceert. Om nog maar te zwijgen over een archiefdienst die gescande archiefstukken op zijn site publiceert. Als ik het goed heb is dit gedeeltelijk ook de reden voor die rare Gahetna.nl-truc van het Nationaal Archief. Doordat de site nu van "De Vrienden" ipv het Nationaal Archief is, hoeft de site niet meer aan de Webrichtlijnen te voldoen.
Correctie 19 oktober 2012: Zoals Yvette hieronder ook al schrijft en iemand me net nog eens op het hart drukte: Gahetna.nl heeft niets te maken met het al dan niet moeten voldoen de webrichtlijnen.

En eigenlijk is het ook van de gekke. Ik bedoel: natuurlijk hebben blinden ook recht op toegang tot informatie, maar hoe gaat het als een blinde naar de studiezaal van het NA (of een willekeurige andere archiefdienst gaat)? Moet de archiefdienst dan ook de analoge archiefstukken voor deze blinde omzetten in braille of voorlezen?

Daarna mocht ik uitleggen waarom de A van pdf/a niet voor "alles" staat.
Het is een variant op wat ik al vaker verteld heb: we moeten er langzaam toch aan geloven dat archiefstukken meer zijn dan digitale A4-tjes en we moeten dus afstappen van de notie dat we ALLE archiefstukken kunnen (of moeten!) archiveren in pdf/a. Voor heel veel archiefstukken kan dat helemaal niet. Bovenstaande presentatie bevat filmpjes en "gedrag", dat kan niet in PDF (en gedrag kan ook niet in Slideshare trouwens...).
Het jaarverslag van de Provinciale Archiefinspectie van Noord-Brabant en Limburg is een interactieve kaart, die nooit analoog heeft bestaan en ook niet analoog kan bestaan. Om nog maar te zwijgen over websites, zaaksystemen en back-office-applicaties. Zoals Carsten Heierman gisteren ook zei: "Pdf is digitaal papier. Alles wat je kunt printen, kan je in pdf bewaren." Met de rest kan dat dus nauwelijks!

Daarna legde Carsten Heierman van LuraTech in vloeiend Engels (met nu en dan een woordje Nederlands en Duits er tussen door) uit wat de belangrijkste verschillen zijn tussen pdf/a-1b en pdf/a-2b.
(Ik ga er even van uit dat het verschil tussen pdf/a-1a en pdf/a-1b bekend is, zo niet, dan kun je dit lezen.)
Allereerst maakte Heierman duidelijk dat Pdf/a-2 geen nieuwe versie van pdf/a-1 is. Het gaat om een aanvullend deel. Je hoeft je huidige pdf/a-1b bestanden dus niet te converteren naar pdf/a-2b. De "oude" standaard blijft gewoon geldig en bestaan.
Dan de verschillen: in "-2b" kunnen dingen die in "-1b" nog 'verboden' waren, zoals:
  • het opnemen van verschillende pdf/a-bestanden in één pdf/a-bestand, waardoor je een soort "dossier" krijgt. Het voorbeeld dat hierbij gegeven werd was: een e-mail met bijlagen. Je kunt dus een e-mail "printen" naar pdf en de printbare bijlagen aan die initiële pdf toevoegen. Mij lijkt het niet optimaal, want lang niet alle bijlagen zijn "printbaar" en het is zeker de vraag of het converteren van een e-mail naar pdf de beste oplossing is. (Waarschijnlijk niet, zeg ik er maar meteen bij... Als we op papier printen niet goed genoeg vinden, is het naar digitaal papier printen ook niet goed genoeg.)
  • JPEG2000-compressie is toegestaan, waardoor kleuren-scans een stuk hanteerbaarder worden. Dit leverde in de zaal meteen weer discussie tussen de rekkelijken en preciezen over de wenselijkheid van compressie... Ik ben rekkelijk.
  • In "-2b" kunnen nu pagina's met een maximaal formaat van 381 km bij 381 km opgenomen worden. In ""-1b" konden de pagina's niet groter zijn dan 5m bij 5m.
  • Transparantie en lagen zijn nu toegestaan
  • Unicode-codering van de OCR-tekst is mogelijk. Dit staat bekend als pdf/a-2u en heeft tot gevolg dat de OCR-tekst "beter" is, doordat ieder karakter beter en eenduidiger beschreven wordt.
De laatste presentatie was van Karin Heijn van NOiV. Het ging over "Pas toe of leg uit" en leidde weer tot een soort Calimero-discussie omdat toch "eigenlijk" de bestuurders zouden moeten snappen waarom het gebruik van open standaarden (over open source ging het gisteren niet) belangrijk is.

Gebruik formaat201020092008
ODF58%54%30%
PDF/a-1a58%44%38%
PDF 1.721%nvtnvt

En naar aanleiding van bovenstaand tabelletje naar aanleiding van een NOiV-enquete werd er gediscussieerd over wat het "gebruik" van PDF/a-1a door de overheid betekent. Colin van Oosterhout (van Adobe) noemde naar aanleiding van  een steekproef op websites van de Rijksoverheid namelijk een veel lager percentage van "goede" pdf-bestanden.

Zijdelings kwam ook nog even PDF/A-3 (je gelooft het niet...) aan de orde. Het blijkt dat je nu al "native" bestanden kunt embedden in PDF-bestanden. Dat betekent dat je bijvoorbeeld een Word- of Excelbestand in het PDF-bestand kunt opnemen. De PDF-"envelop" zorgt voor de weergave, maar als je de onderliggende data wil zien, kun je het bestand openen in bijvoorbeeld Excel. In de -3-versie wordt dit dus gestandaardiseerd.
Ik geloof niet dat ik dit vanuit het houdbaarheidsperspectief een heel erg fijn vooruitzicht vind: allerlei native, non-standaardbestanden verstoppen in een ander bestand, dat leidt geheid tot allerlei fouten op de iets langere duur...

Plaatje: letter A van Leo Reynolds

9 opmerkingen:

  1. Ik heb ook gehoord dat 3D objecten ook in pdf kunnen worden opgeslagen. Ik bedoel maar. Misschien staat die a toch voor (bijna) alles :)

    BeantwoordenVerwijderen
  2. Interessant verslag. Eerlijk gezegd ga ik er zelf van uit dat pdf/a alleen echt geschikt is voor gedigitaliseerd materiaal. Het blijft toch een inputformaat voor een printer. Voor born digital (of digital born of zo) materiaal zou je altijd moeten proberen een XML-oplossing oid te vinden.

    Fijn overigens, die 381 x 381 km. Kunnen we ten minste heel Nederland, inclusief territoriale wateren, opslaan in pdf/a.

    BeantwoordenVerwijderen
  3. Dat is wat ook in Antwerpen gebeurd. PDF/a is alleen voor scans het archiveringsformaat. Alle "digitaal ontstane" archiefstukken worden in andere formaten gearchiveerd.
    Blijkbaar was dat kleine "papierformaat" echt een probleem...

    BeantwoordenVerwijderen
  4. gahetNA is gewoon volgens de webrichtlijnen gebouwd hoor!


    Een principieel probleem is daar wel dat veel gescande documenten niet voor blinden beschikbaar zijn omdat het voor ons niet haalbaar is om die allemaal te transcriberen. Volgens het principe "pas toe of leg uit" (comply or explain) lijkt mij dat dus uit te leggen. We hebben wel een transcriptiemogelijkheid zodat bezoekers daarbij mee kunnen helpen. Deze content wordt dus wel steeds toegankelijker. Eigenlijk is het een kip-ei situatie: door ze online te zetten krijgen we transcripties doordat bezoekers meehelpen, maar als we ze pas online mogen zetten als we al transcripties hebben komen ze nooit online. 

    BeantwoordenVerwijderen
  5. Maar dat is dan wel een erg ruime uitleg van PTOLU: het is te duur (want dat bedoel je met "onhaalbaar") dus daarom doen we het niet.
    En je hebt inderdaad gelijk, dat door die transcripties de archieven uiteindelijk toegankelijker worden. Daar had ik niet aan gedacht. 

    BeantwoordenVerwijderen
  6. Het zou inderdaad te kostbaar zijn maar zelfs met ongelimiteerd budget zie ik geen mogelijkheid om die honderdduizenden of zelfs miljoenen scans binnen redelijke termijn getranscribeerd te krijgen. Zoveel mensen zijn er nou ook weer niet die goed middelnederlands, middelrussisch en weet ik veel wat kunnen lezen en nog tijd hebben om te transcriberen ook. Dit is er dus eentje voor de lange adem. Maar projecten zoals http://www.archief20.org/profiles/blogs/help-mee-voc-teksten-voor-bangladesh-te-transcriberen-vertalen kunnen daar ook bij helpen!

    BeantwoordenVerwijderen
  7. Eens, maar de vraag blijft toch: mag je nu een groen mannetje op je site zetten? (Zie ook de opmerking van Fransisco van Jole)

    BeantwoordenVerwijderen
  8. Ik was er bij gisteren :-) En het groene mannetje wel of niet toekennen is aan de inspectieinstelling, dat moeten we afwachten. 

    BeantwoordenVerwijderen