maandag 8 oktober 2012

cRIsp - samen representatie-informatie verzamelen

Een van de (vele) problemen bij digitale archivering is alle informatie die je over de digitale archiefstukken moet hebben en kennen om ze kunnen raadplegen en begrijpen. Het Open Archival Information System (OAIS, laatste versie in pdf) beschrijft deze (context)informatie als Representation Information (RI) definieert het als:
The information that maps a Data Object into more meaningful concepts. An example of Representation Information for a bit sequence which is a FITS file might consist of the FITS standard which defines the format plus a dictionary which defines the meaning in the file of keywords which are not part of the standard.
Deze RI kan allerlei vormen hebben. In OAIS worden in ieder geval semantische informatie, structurele informatie en alle overige benodigde informatie beschreven. De omschrijving van die laatste categorie laat zien dat bij digitale archiefbescheiden bijna alles RI is of kan zijn:
Representation Information which cannot easily be classified as Semantic or Structural. For example software, algorithms, encryption, written instructions and many other things may be needed to understand the Content Data Object, all of which therefore would be, by definition, Representation Information, yet would not obviously be either Structure or Semantics. Information defining how the Structure and the Semantic Information relate to each other, or software needed to process a database file would also be regarded as Other Representation Information.
En uiteraard gaat het hier ook weer om wat ik ergens anders het Droste-effect genoemd heb:
Representation Network: The set of Representation Information that fully describes the meaning of a Data Object. Representation Information in digital forms needs additional Representation Information so its digital forms can be understood over the Long Term.
Aangezien RI zo cruciaal is voor alle digitale archivering, ligt het voor de hand dat er al allerlei "registers" zijn waar deze informatie in beschreven wordt: PRONOM, GDFR en wat niet al.
Al die registers hebben volgens Andrew N. Jackson, Maureen Pennock en Paul Wheatley een of meer van de volgende tekortkomingen

Crowdsourcing Representation Information to Support Preservation: CRISP from mopennock

Hun oplossing is eigenlijk hartstikke simpel, daarom sympathiek en misschien wel geniaal:
cRIsp - Crowd sourced Representation Information for Supporting Preservation
cRIsp is aiming to combat these challenges by drawing upon the wisdom and knowledge of the crowd to identify online sources of RI, and then collect, classify, and preserve them. We've aimed to set the barrier for participation as low as possible. Anyone can easily contribute URLs via a really simple web form, or by tweeting and including @dpref. The collated results will then be passed to participating web archives who can crawl the sites and preserve them for posterity.
Het idee is dat iedereen die op het web relevante informatie vindt, deze aan cRIsp kan toevoegen. Dat kan door een tweet te sturen naar @dpref:
Maar je kunt ook een bookmarklet gebruiken of een simpel Google-form.
Het resultaat is voorlopig een Google-sheet waarin alle links verzameld wordt, daarna zullen alle relevante webpagina's bewaard worden.
En daarna?
The resulting collection of RI will hopefully be a useful resource in its own right, but will represent only the first step on the road to powerful RI and file format registries. cRIsp is all about finding the RI and making it safe. The results of cRIsp can then feed into other initiatives such as theLoC's Sustainability of Digital Formats site, Just Solve the Format Problem and the UDFR. In this way, we hope that cRIsp will be quite complimentary to these other approaches.
 Ik vind het in ieder geval prachtig in zijn eenvoud...

Gerelateerd
November is bestandsformatenmaand
Costa Concordia en webarchivering
Filmpje over website-archivering en IIPC

Geen opmerkingen:

Een reactie posten