donderdag 19 juli 2012

November is bestandsformatenmaand

Een van de problemen van digitale duurzame toegankelijkheid is de baaierd aan bestandsformaten die de afgelopen vijftig jaar zijn gebruikt, nu nog worden gebruikt en de komende jaren gebruikt zullen worden. Alle digitale informatie is in een bepaald formaat "gecodeerd" en kan alleen begrepen worden als je de code kent en beschikt over soft- en hardware (programma's en computers) om die code te ontcijferen.
De afgelopen jaren zijn verschillende registers gemaakt van bestandsformaten, waarbij geprobeerd wordt van ieder bestandsformaat beschrijvingen, software en handleidingen te verzamelen. De registers functioneren dan als een soort richtingaanwijzers: je kunt ze gebruiken om bestanden te herkennen en om te achterhalen hoe ze in het verleden gebruikt werden en hoe je ze nu (weer) werkend krijgt.
The National Archives beheert zo'n register - PRONOM, de Universiteit van Californie heeft pas UDFR - Unified Digital Format Registry - gepresenteerd en er zijn meer van dit soort initiatieven. Maar ieder register is opgezet met een speciefieke doelgroep voor ogen en kent zijn beperkingen. Alle huidige registers bij elkaar beschrijven maar een fractie van alle bestandsformaten die door de jaren heen gebruikt zijn.
De schijnbaar onvermoeibare Jason Scott van Archive Team omschrijft het probleem als volgt:
In the last couple centuries, we’ve created a number of self-encapsulated data sets, or “files”. Be they letters, programs, tapes, stamped foil, piano rolls, you name it. And while many of those data sets are self-evident, a fuck-ton are not. They’re obscure. They’re weird. And worst of all, many of them are the vital link to scores of historical information.
Everyone knows this problem. It’s why old novelists cry they can’t pull their first novel out of Wordperfect. It’s why someone who used U-matic tapes to record the first meetings of a famous protest group goes “oh well”. It’s why, in all things, someone looks at anything older than five years, and goes “bye”, figuring there’s nothing they can do.
And I’ve had to listen to the mewings about this problem for at least 20 years now, in various forms. A lot. And then the person lights up about maybe solving this problem, and then dims and says “well, we can’t really solve the problem”. Because they know – it’d take an army of people to do it.
Let’s make that goddamned army.
Daarom heeft hij november 2012 uitgeroepen tot "Los-het-bestandsformaat-probleem-op-maand." Het idee is om met een man of 1000 de hele maand november te werken aan een grote wiki waar alle bestandsformaten in opgenomen worden. Voor ieder item - want bestandsformaat moet zo breed mogelijk gelezen worden - zouden in ieder geval de volgende dingen beschreven moeten worden:
  • Enumeration (indicating the format exists)
  • Examples of this format in use (either actual files or renderings of the format)
  • Documentation about that format or its conversion (with website or wayback links)
  • Links to known programs, utilities and source code that interprets this format
Uiteraard wordt die wiki hartstikke open, zodat de bestaande registers - mochten ze dat willen - de erin verzamelde data ook zelf weer op kunnen nemen.
Scott weet natuurlijk ook wel dat het onmogelijk is om in een maand alle bestandsformaten zo uitgebreid te beschrijven en dat er in de toekomst nieuwe formaten bij zullen komen. Maar als je niet begint heb je helemaal niets.
En uiteraard zullen er mensen zijn die klagen dat dit een zinloze inspanning is en daar zal Scott rekening mee houden door - en dit zou eigenlijk ook het archief 2.0 motto kunnen zijn:
to keep track of what whiners complain that we will not prioritize and consider, and where possible, prioritize and consider. That's it! Action quiets whiners. Response whining does not.
Ik heb geen idee of ik in staat ben om iets bij te dragen in november, maar ik ga het in ieder geval in de gaten houden. De energie en het enthousiasme die Scott uitstraalt vind ik in ieder geval geweldig.

Gerelateerd
Over het maken van soja-saus en het bewaren van websites
Deleted city is digitale archeologie

Geen opmerkingen:

Een reactie plaatsen