Posts tonen met het label pdf. Alle posts tonen
Posts tonen met het label pdf. Alle posts tonen

vrijdag 18 april 2014

De gevolgen van dms/rma-fetisjisme

Gisteren kwam ik naar aanleiding van onderstaande tweet van Johan van der Knijf (aka Bitsgalore) terecht in een "trioloog" met hem en Chris Bellekom over het archiveren van e-mail.
Hier kun je het hele verhaal lezen, maar het kwam erop neer dat veel, heel veel div-ers (of dim-ers of dib-ers of hoe die beroepsgroep zich tegenwoordig ook noemt) van mening zijn dat converteren naar pdf/a de beste, of misschien wel enige, manier is om digitale bestanden te archiveren.
Uiteraard moest ik daarbij denken aan deze post van dik twee jaar geleden: Dood aan pdf, waarin ik een paar argumenten voor pdf/a probeer te ontkrachten. Maar ik vroeg me gisteren ook af wat nu de oorzaken zijn van die heilige pdf/a. Ik heb de indruk dat dit een direct gevolg is van de verering van het dms/rma. En  toen moest ik denken aan het boekje Een roadmap voor digitaal informatiebeheer dat Ad van Heijst een paar weken geleden publiceerde.

Informatiebeheer zonder heiligen
In dat boekje beschrijft Van Heijst hoe een organisatie zijn informatiebeheer goed zou kunnen organiseren zonder daarvoor een duur en onhandig dms/rma te kopen. Inhoudelijk sluit dat erg aan bij de filosofie en werkwijze van de stad Antwerpen, die ook uitgebreid beschreven wordt in Optimaal Digitaal uit 2010. Ad schrijft:
[...] stel nu eens dat je eerst gewoon orde op zaken wilt stellen met de middelen die je hebt, zonder mensen te hoeven opleiden in een nieuwe omgeving, zonder je administratie anders in te richten. De gemeenschappelijke schijf gebruiken bijvoorbeeld, daarop de content plaatsen en deze in een eenvoudige context brengen: de context van een zaak, een dossier, een mapje dus. Kan dat ook?
Jazeker. Dit boekje wil aangeven hoe met eenvoudige middelen een goede informatiestructuur opgezet kan worden, waarmee iedereen kan werken. Het is geen ideale structuur en binnen deze structuur kan lang niet alles wat leveranciers van contentmanagementsystemen beloven.
Wel levert het een structuur op, waar administratieve medewerkers over te spreken zijn. Ze begrijpen waarom de structuur is zoals ie is. Er hoeven geen extra hulpmiddelen te worden aangeschaft.
Zou een van de redenen waarom pdf/a onder div-ers heilig is, ook veroorzaakt wordt door het dms/rma-fetisjisme?
Zo rond het begin van deze eeuw is in Nederland de opvatting dat je alleen goed kunt archiveren in een dms/rma (dat ook nog moet voldoen aan ReMaNo of NEN2082) wijdverspreid en canoniek geworden. Zeggen dat er nogal wat haken en ogen zitten aan het uitgangspunt dat alle archiefstukken in een dms/rma moeten worden opgenomen, is eigenlijk vloeken in de div-kerk. In veel organisaties is het dms/rma namelijk de enige raison d'etre van een div-afdeling. Zij gaan niet over het beheren van archieven, zij beheren DeCoVer of hoe die systemen ook heten.
Een rechtstreeks gevolg daarvan is, dat div-ers eisen dat alle archiefdocumenten in pdf/a opgeslagen moeten worden, want: dat is wat in het dms/rma kan!
  • E-mailbericht: pdf/a.
  • Excel-sheet: pdf/a 
  • Powerpoint: pdf/a 
  • Ruimtelijk plan: pdf/a 
  • Webpagina: pdf/a 
  • Video-opnamen van vergaderingen: pdf/a (ja hoor, dat kan!) 
De reden waarom die Nederlandse dms/rma-dingen bijna enkel en alleen met pdf (en een beetje met Office-documenten) uit de voeten kunnen is simpel: het zijn nog altijd veredelde postboeken (die in archieftermen agenda's heten):
Register[s] waarin in chronologische volgorde met behulp van een doorlopende nummering gegevens worden vastgelegd betreffende het inkomen, afdoen en uitgaan van archiefbescheiden.
Het gaat in DeCoVer nog altijd om post, om brieven, om A4-tjes en in een dms/rma wordt daarom met behulp van het paper document format alles platgeslagen tot digitale A4-tjes.
Of zoals Filip Boudrez een tijdje geleden schreef: een dms/rma kan alleen omgaan kantoordocumenten, een digitaal archief kan alle typen bestanden en documenten beheren.

Het andere probleem
Maar naar aanleiding van het boekje van Ad moest ik ook nog denken aan een ander gevolg van de verering van het dms/rma. Een gevolg dat ook direct voortvloeit uit de postboek-geschiedenis van DeCoVer.
In Nederland geven de div-ers de laatste jaren nogal gemengde signalen af. Vroeger zeiden ze:
"Ambtenaren, jullie snappen niets van dossiervorming, daar zijn wij voor opgeleid. Dat kunnen wij veel beter. Dus, geef ons al jullie papier, dan maken wij er mooie dossiers van."
Ambtenaren geloofden dat niet, maar vonden het wel makkelijk.
De laatste jaren zegt Div opeens:
"Ambtenaren, jullie gaan natuurlijk zelf over de dossiervorming. Jullie kunnen dat veel beter dan wij. Jullie zijn verantwoordelijk voor volledigheid, juistheid etc. Maar, jullie moeten daar wel het systeem voor gebruiken dat wij voor jullie inrichten en waar wij al die jaren fijn mee hebben gewerkt."
En in de basis is dat systeem dus nog altijd... een veredeld postboek.
Geen wonder dat die ambtenaren dan gaan steigeren en zeggen:
"Dossiervorming en documentregistratie? Dat kunnen wij niet, daar moet je voor opgeleid zijn, daar hebben wij geen tijd voor en dat DeCoVer van jullie snappen wij niet, het is niet afgestemd op onze werkwijze."
Met als gevolg dat Div zich in alle bochten wringt om DeCoVer maar zo gebruiksvriendelijk mogelijk te maken. Letterlijk alle tijd en energie gaat daar in zitten. Maar tegelijkertijd gaan die ambtenaren op zoek naar hulpmiddelen die wel aansluiten bij hun werkwijzen en die ze helemaal zelf kunnen inrichten. En daar komen niet alleen de onbeheerde netwerkschijven, Dropbox en Google Drive om de hoek kijken, dan wordt ook opeens Sharepoint door de ict-afdeling de organisatie binnen gereden.
En de Div-reflex is:
"Allemaal best, maar 'het formele archief' zit in mijn dms/rma. Dat is wat ik beheer, en waar ik mijn ziel en zaligheid in gestopt heb. Dus zorg maar voor koppelingen."
En dat levert niet alleen voor Div nog meer werk op, maar ook voor consultants, system-integrators en hoe noemen die functionarissen zich tegenwoordig. Die lachen zich allemaal kapot - want verdienen goed geld - en ondertussen "verpietert" het echte archief. Een deel zit "opgesloten" in het paper document format in DeCoVer, maar het overgrote deel wordt gewoon genegeerd in processystemen, e-mail-applicaties, gedeelde netwerkschijven, Dropbox, Sharepoint en zo voort en zo verder. (Ik hoorde laatst iemand vertellen dat zijn bedrijfje had becijferd dat bij een gemiddelde overheidsorganisatie slechts 30 tot 40 procent van de informatie wordt opgeslagen in een dms/rma. En dat was dan ook nog een "positieve" inschatting.)

Neem nu ruimtelijke plannen
Als Div-ers (en bij uitbreiding archivarissen) toegevoegde waarde willen hebben voor een organisatie, dan moeten ze vooral niet proberen om alles in de mal van DeCoVer te persen. Het lijkt me veel zin- en waardevoller wanneer we samen met al die andere ambtenaren manieren verzinnen om de informatie in al die andere omgevingen goed te beheren.

Een van de actuele "archiefproblemen" bij de lokale overheden zijn de ruimtelijke plannen. Vroeger heetten die dingen gewoon bestemmingsplan of streekplan en werden ze op papier gemaakt. Tegenwoordig moeten ze digitaal gemaakt worden in  GML. En laat dat nu net een formaat zijn waar DeCoVer niet mee uit de voeten kan. Wat nu dan?

Nou, Div kan bijvoorbeeld met de vakafdeling af spreken dat ruimtelijke plannen niet worden platgeslagen tot pdf of - the horror - als zip-bestand in DeCoVer worden opgenomen.
Nee, ze spreken af dat die vastgestelde plannen opgeslagen worden op een gedeelde netwerkschijf. En omdat het beheer een gedeelde verantwoordelijkheid is, maken Div en de betrokken afdelingen afspraken over de structuur en de naamgeving van mappen en bestanden. Ze beleggen verantwoordelijkheden en spreken af hoe de gemaakte afspraken gehandhaafd worden. En ze zoeken samen met de ICT-beheerders naar technische middelen om die plannen adequaat te "beschermen": slimme schrijf- en leesrechten, goede back-up strategie en intelligente cryptografie (hashing) om de integriteit van de bestanden te waarborgen.
En o ja, misschien nemen ze in het DeCoVer-dossier ook nog een verwijzing op naar de plek op het netwerk waar het vastgestelde plan staat.
En dit alles legt Div vast in wat "vroeger" het documentair structuurplan genoemd werd.

Gerelateerd
Pdf/a wat heb je daar aan?
Optimaal digitaal
Dood aan pdf
Jeff Rothenberg - Digital Preservation in Perspective
Wie is hier nou het archief?

Plaatje: Fetish van Chrisjtse

vrijdag 15 februari 2013

Excel regeert de wereld en wij slaan het plat

Ik had vroeger een collega die verzot was op Excel. Zij stopte alles, maar dan ook alles in een spreadsheet. Niet om mee te rekenen of zo, maar vooral omdat ze kolommen en tabellen zo leuk vond. Ze had volgens mij geen idee dat ze daarvoor ook gewoon een tekstverwerker kon gebruiken.
Zelf heb ik een haat-liefde verhouding met het programma. Ik heb op kantoor een paar "slimme" sheets in elkaar gedraaid, maar dat kost me iedere keer heel veel tijd. Een Excel-sheet gebruikten we bijvoorbeeld om onze reiskosten per medewerker op te splitsten naar provincie (Noord-Brabant / Limburg) of type (NS-jaarkaart, overig OV, huurauto). Met een andere kunnen we meetgegevens uit onze dataloggers voor temperatuur en relatieve luchtvochtigheid omzetten in mooie grafieken.
Maar dit is allemaal klein bier in vergelijking met wat ik hier las:
JPMorgan’s Chief Investment Office needed a new value-at-risk (VaR) model for the synthetic credit portfolio (the one that blew up) and assigned a quantitative whiz (“a London-based quantitative expert, mathematician and model developer” who previously worked at a company that built analytical models) to create it. The new model “operated through a series of Excel spreadsheets, which had to be completed manually, by a process of copying and pasting data from one spreadsheet to another.” The internal Model Review Group identified this problem as well as a few others, but approved the model, while saying that it should be automated and another significant flaw should be fixed. After the London Whale trade blew up, the Model Review Group discovered that the model had not been automated and found several other errors. Most spectacularly,
“After subtracting the old rate from the new rate, the spreadsheet divided by their sum instead of their average, as the modeler had intended. This error likely had the effect of muting volatility by a factor of two and of lowering the VaR . . .”
In de rest van zijn blog beschrijft James Kwak hoe - onder andere bij banken, maar eigenlijk overal - Excel gebruikt wordt om de meest ingewikkelde dingen "uit te rekenen" en op basis daarvan verstrekkende besluiten te nemen. En dat ondanks de beschikbaarheid van "high end" ERP- of boekhoudsystemen, zoals SAP of Oracle.
But while Excel the program is reasonably robust, the spreadsheets that people create with Excel are incredibly fragile. There is no way to trace where your data come from, there’s no audit trail (so you can overtype numbers and not know it), and there’s no easy way to test spreadsheets, for starters. The biggest problem is that anyone can create Excel spreadsheets—badly. Because it’s so easy to use, the creation of even important spreadsheets is not restricted to people who understand programming and do it in a methodical, well-documented way.
This is why the JPMorgan VaR model is the rule, not the exception: manual data entry, manual copy-and-paste, and formula errors. This is another important reason why you should pause whenever you hear that banks’ quantitative experts are smarter than Einstein, or that sophisticated risk management technology can protect banks from blowing up. At the end of the day, it’s all software. While all software breaks occasionally, Excel spreadsheets break all the time. But they don’t tell you when they break: they just give you the wrong number.
En zo kom ik weer op mijn stokpaardje, want hoe zou je die excel-sheets nu het beste kunnen archiveren?
Iedereen zal het er wel over eens zijn dat afdrukken op papier geen optie is. En natuurlijk is omzetten naar pdf(/a) ook een heel slecht idee. In beide gevallen ben je alle, maar dan ook alle, functionaliteit kwijt en blijf je zitten met wat cijfertjes en grafieken, waarvan je geen idee hebt hoe ze "ontstaan" zijn.

Als je verantwoording wil kunnen afleggen over de besluiten die genomen hebt op basis van excel-sheets, zul je dus moeten zorgen dat je kunt laten zien hoe die excel-sheets functioneerden en tot stand zijn gekomen.
Je zult de input, de formules en het gedrag moeten beschrijven, wil je in de toekomst kunnen vaststellen of het programma (want dat is zo'n complex excel-sheet in feite) nog doet wat het deed.
Je bent er niet met een conversie naar het Paper Document Format...

Gerelateerd
Dood aan pdf
PDF wat heb je daar aan?

Plaatje: Excel for Windows 3.0 ad van Microsoft Sweden

vrijdag 14 december 2012

Dood aan pdf

Wat is dat toch met pdf(/a) en de Nederlandse div-ers en archivarissen? Zodra het over digitaal archiveren gaat, moet alles maar in het "paper document format" gepropt worden.
Zie bijvoorbeeld de discussie op LinkedIn over het bewaren van agenda's, waar iemand na een paar dagen het ei van Columbus heeft gevonden:
Ja, dat is een goede. Je kunt de agenda-items toch ook omzetten in PDF-A bijvoorbeeld en dan in je DMS zetten.
En hier is een leverancier van een dms er trots op dat hij zelfs xml- en txt-bestanden geautomatiseerd kan converteren naar pdf/a-1a of pdf/a-1b, de klant mag kiezen. Op! Op! Op!

Maar Ingmar, pdf/a is toch het ultieme archiveringsformaat. Zijn die argumenten voor het gebruik ervan dan niet legitiem?

Ach, laten we ze eens bekijken...

1. Pdf-bestanden zijn niet muteerbaar.
Wie dat als ultieme argument gebruikt, heeft niets begrepen van (digitale) archivering. Ieder digitaal bestand is muteerbaar en zeker pdf-bestanden. Zoek voor de aardigheid met Google even op "free pdf editor" en sta versteld van het aanbod. De betrouwbaarheid en integriteit van een digitaal archiefstuk zit niet in de verschijningsvorm (het formaat) maar in de beheeromgeving. Daar moet ervoor gezorgd worden dat de archiefstukken niet ongeautoriseerd en ongemerkt gewijzigd kunnen worden. En dat doe je met behulp van toegangsrechten en, misschien nog wel belangrijker, metagegevens: checksums, "event history" en logfiles. Archiveren draait om metagegevens, metagegevens en nog eens metagegevens.
Trouwens, papieren archiefstukken kunnen toch ook heel simpel gemanipuleerd worden?

2. Pdf-bestanden kunnen op iedere computer geopend worden.
Uh, ja, zolang ik een pdf-reader geïnstalleerd heb. Maar dat geldt natuurlijk voor ieder digitaal bestand: ik kan het openen en gebruiken als ik de juiste software heb.
Heb je trouwens al eens van iemand gehoord dat hij je e-mail niet kon openen? Het hele idee van e-mail is toch juist dat het niet uitmaakt met welke programma's verzender en ontvanger werken. Dat hoeft niet hetzelfde te zijn, het hoeft niet eens op hetzelfde besturingssysteem te draaien. Dus waarom zou je e-mail dan omzetten in pdf?

3. Pdf-bestanden zien er op iedere computer hetzelfde uit.
Ja, maar is dat belangrijk? Een e-mailbericht of afspraak ziet er in iedere client anders uit en, nog belangrijker, ze zien er altijd anders uit dan de pdf-afdruk.

4. Pdf-a is een open standaard.
Ja, net als txt, xml, sgml, odf, tiff, ascii, xhtml, wav en nog een heel rijtje afkortingen en acroniemen. En weet je, die standaarden zijn allemaal bedoeld om specifieke informatie zo goed mogelijk vast te leggen om die op specifieke manieren te kunnen gebruiken.
Wat heb ik nou aan een website in pdf, helemaal plat, zonder hyperlinks, zonder animaties, zonder interactie?
Wat heb ik aan een e-mailbericht waarin ik niet eens meer kan zien wanneer en vanaf welk adres het bericht verstuurd is en waarvan ik de bijlagen niet kan raadplegen?
Wat heb ik aan een digitale afdruk van een ruimtelijk plan (of een jaarverslag) als ik de informatie daarna helemaal niet meer kan zien?
Wat heb ik aan een excel-sheet dat moet passen binnen de fysieke begrenzing van A4 of A3, wanneer ik een werkblad heb met 78 kolommen en 612 rijen? Heb je zoiets al eens in pdf bekeken? En dan heb ik het nog niet eens over formules, draaitabellen of grafieken.
Al die finesses, al dat gebruiksgemak, al die inherente functionaliteiten worden allemaal overboord gekiept, omdat we zo graag iets in het paper document formaat willen hebben.

De volautomatische documentverkleiner
De analogie gaat misschien niet helemaal op, maar weet je waar die pdf/a-fetish een beetje op lijkt?
Stel je nu eens voor dat de leveranciers van paternosterkasten of dosiermappen zeiden: "Wij hebben prima-de-luxe kasten, maar er passen geen documenten in die groter zijn dan 190 bij 275 mm."
En dat je dan als overheid zegt: "Ah joh, dat geeft niet. De meeste documenten die wij ontvangen en verzenden zijn dan wel op A4-formaat, maar die hebben toch aan iedere kant een marge van 10 mm. Geef ons die kast maar, wij snijden wel bij ieder archiefstuk aan alle kanten een stukje eraf."
Daarna zeg je tegen die leverancier: "Ik krijg ook wel eens documenten die groter zijn dan A4, bijvoorbeeld een bouwtekening, die ik niet kan bijsnijden tot 190 bij 275 mm. Kun jij me geen kopieerapparaat leveren dat al die grote documenten automatisch verkleint, zodat ze in die prachtige kast van jouw passen?"
Natuurlijk kan hij dat, kost een paar centen en die betaal je dan ook.
En dan wordt het nog gekker, want als die super-de-luxe paternosterkast vervangen moet worden, moet die natuurlijk wel aansluiten op de bestaande infrastructuur. Hij moet dus aansluiten op die hypermoderne volautomatische documentverkleiner die je pas ook nog hebt aangeschaft!

Waar het bij archiveren vooral om draait zijn de significant properties: welke eigenschappen van een archiefstuk zijn cruciaal om het te kunnen blijven gebruiken en interpreteren. Dit zijn de artikelen 17, 21 en 22 uit de Archiefregeling.
 En het spijt me dames en heren, maar pdf is en blijft een print-formaat, waarmee je bij lange na niet alle relevante eigenschappen van een archiefstuk kunt bewaren.

Als je een papieren document scant, dan mag je dat best in pdf opslaan, maar voor bijna alle "born digital" archiefstukken zijn andere, betere formaten beschikbaar.
Passen die bestanden niet in je paternosterkast? Dan moet je misschien eens goed nadenken of je die kast nog wel wil gebruiken.

Gerelateerd
Pdf-a wat heb je daar aan?
Wat digitaal is, moet niet analoog beoordeeld worden.
Over agenda's als archiefstukken #sod12
Jeff Rothenberg  - Digital preservation in perspective
O jee, een gemanipuleerd archiefstuk