Er zijn mensen die vinden dat selectie en vernietiging van digitale archiefstukken onnodig is. Vroeger, in de analoge situatie, was de enige reden om dossiers te vernietigen het gebruik van en gebrek aan fysieke opslagruimte. Maar, aangezien digitale opslag nauwelijks fysieke ruimte inneemt en ook nog eens steeds goedkoper wordt (de beroemde Wetten van
Moore en
Kryder), is digitale vernietiging niet meer nodig: Let's just keep everything!
De afgelopen week heb ik een paar blogs gelezen die deze ideeën toch wat nuanceren.
Kosten
Allereerst was er David Rosenthal die
berekende wat het zou kosten om alle in 2011 gecreëerde data (
1,8 Zettabytes, bijna 2 miljard TB) in the cloud op te slaan:
If we decided to keep it all for the long term in the cloud, we would be effectively endowing it. How big would the endowment be? Applying our model, starting with S3's current highest-volume price of $0.055/GB/mo and assuming that price continues to drop at the 10%/yr historic rate for S3's largest tier, we need an endowment of about $6.3K/TB. So the net present value of the cost of keeping all the world's 2011 data in S3 would be about $11.4 trillion. The 2011 Gross World Product (GWP) at purchasing price parity is almost $80 trillion. So keeping 2011's data would consume 14% of 2011's GWP. The world would be writing S3 a check each month of the first year for almost $100 billion, unless the world got a volume discount.
Daarna berekent hij dat in 2018 het bewaren van alles wat er in dat jaar gecreëerd wordt, evenveel kost als 't gehele Bruto Wereldproduct.
In de
comments voegt hij daar nog een interessant perspectief bij:
Amazon designs S3 for 11 nines of reliability, or a 10^-11 chance that an object will be unrecoverable in a given year. The average size of an object is a megabyte. Thus 2011's 1.8 Zettabytes would be 1.8*10^15 objects, and S3 would lose 18,000 of 2011's objects each year, or 18GB/yr of data.
Maar er is meer...
Groei
Ruim anderhalf jaar geleden schreef
Barclay Blair ook het een en ander over opslagkosten.
Een van de (onuitgesproken) aannames achter de opmerking "opslag wordt goedkoper", is ook dat opslag minder gaat kosten. Blair laat
aan de hand van onderstaand plaatje zien hoe het "echt" zit:
In tien jaar tijd zijn de kosten voor een schijf per GB ongeveer 100 keer zo klein geworden. Dat zie je in de onderste lijn. Maar, en dat is de middelste lijn, de uitgaven voor hardware zijn in die tien jaar gelijk gebleven. Met behulp van een analogie legt Blair uit wat dit betekent:
The average American drives 12,000 miles each year. At a rate of 30 mpg, that means he/she uses 400 gallons of fuel, at current prices of $3.00 per gallon. As such, he/she spends $1200 each year on gas. Now, if the price of gas dropped the equivalent of the price of hard drives - from $3.00 per gallon to 3 cents per gallon, for that same $1200, he/she could drive 1.2 million miles per year, not 12,000. And that is exactly what we have been doing with digital information, as the cost of hard drives has dropped 100 times, we have continued to spend the same amount of money even though the cost is less than 1% of what it was. Clearly, we are “driving” more.
De derde lijn laat zien wat daar de consequentie van is: meer opslag betekent ook dat meer software nodig is om die opslag goed te beheren. Tien jaar geleden bedroegen de softwarekosten nog ongeveer 1/6 van de totale opslagkosten (hardware + software), in 2010 was dat al 1/3.
[Het plaatje dat
hier stond is weg. IKo, 9 juni 2012]
Ook het plaatje hierboven komt
van Blair en laat in de eerste kolom zien dat de data-groei in de komende tien (ondertussen acht) jaar enorm is. Maar, het aantal "bestanden" dat ontstaat en beheerd zou moeten worden, groeit nog sneller!
As we complete the transition from paper to digital, the kinds of data we are creating and the kind of management it requires is changing. According to the study, the amount of data requiring some type of information governance (i.e, for “privacy, compliance, custodial protection, confidentiality, or absolute lock down” purposes) by 2020 will nearly double. Moreover, the portion requiring the highest levels of information governance control will grow 100 times. Furthermore, when viewed from a files – rather than an absolute volume perspective – the number of files requiring some kind of information governance will be over 90%.
En er is nog meer...
Minimalisering
Al die data opslaan is een uitdaging, die misschien wel opgelost wordt door de opslagruimte revolutionair te verkleinen. Zie bijvoorbeeld waar
IBM mee bezig is:
Researchers at I.B.M. have stored and retrieved digital 1s and 0s from an array of just 12 atoms, pushing the boundaries of the magnetic storage of information to the edge of what is possible.
Vraag is natuurlijk hoe lang het gaat duren voordat dit bruikbaar en betaalbaar is.
Maar er is nog een probleem...
Migratie
De huidige digitale dragers (harde schijven, tape) lijden allemaal aan autonoom verval. Dat wil zeggen dat de data die er op staan regelmatig verplaatst moeten worden naar een nieuwe drager, omdat de data anders onleesbaar worden doordat de drager niet meer (goed) toegankelijk is.
Goedaardige verwaarlozing leidt dan onherroepelijk tot verlies van informatie.
Inge Angevaare schreef daar iets interessants over in
haar verslag van
Screening the Future:
Hummel indicated that a single media migration at an (unidentified) major studio took six months! He quoted the 100 Year Archive Task Force of the Storage Networking Industry Association (SNIA) as saying:
It is the contention of the 100 Year Archive Task Force that migration [meaning: media migration, IA] as a discrete long-term preservation methodology is broken in the data center. Today’s migration practices do not scale cost-effectively and won’t be done until a crisis erupts. This means that today’s reliance on [media - IA] migration is taking us down a ‘dead-end path.’ Hear this, under these practice guidelines, the world’s digital information is at great risk.
Daar zijn wel oplossingen voor.
Mijn
Zeeuwse collega zweert bij de
M-Disc van Millenniata, waarbij de nullen en eentjes niet in een laklaag gesmolten worden, maar in een soort steen geëtst worden. De schijven zijn daarna afspeelbaar in ieder "gewoon" cd- of dvd-station. Nadeel is wel dat er "maar" 4,7 GB op een schijfje passen.
Een andere mogelijke oplossing is
DOTS van Group 47:
DOTS (Digital Optical Technology System) is a digital storage media that is archival for no less than 100 years, non-magnetic, chemically inert, immune from electromagnetic fields including electromagnetic pulse (EMP), able to be stored in normal office environments or extremes ranging from -9º - 65º C.
Because there are no demanding climate control requirements, DOTS is a low-cost, environmentally-friendly way to truly archive data long term.
Het idee achter DOTS komt van Eastman Kodak, lijkt een beetje op de
Rosetta-disk van
Long Now en komt overeen met iets waar ik het een paar jaar geleden met Ad van Heijst over had in de marge van een overleg over vervanging:
DOTS is a true optical “eye-readable” method of storing digital files. With sufficient magnification, one can actually see the digital information. Our “Rosetta Leader™” specification calls for microfiche-scale human readable text at the beginning of each tape with instructions on how the data is encoded and instructions on how to actually construct a reader. Because the information is visible, as long as cameras and imaging devices are available, the information will always be recoverable.
Het gaat hier dus om een variant op microfilm, waarbij op 1 tape circa 1 TB opgeslagen kan worden.
Bestandsformaten
Het probleem dat nog speelt bij die laatste twee oplossingen is natuurlijk ook nog de veroudering van bestandsformaten. (Ik laat de veroudering van afspeelapparatuur even buiten beschouwing, maar dat is met name bij M-Disk natuurlijk ook nog een risico. Hoe lang gebruiken we nog cd- of dvd-spelers?)
Zowel bij M-Disk als bij DOTS sla je bestanden op in een bepaalde codering. Dat betekent dat ik te zijner tijd de sleutel (software) nodig heb om die informatie te kunnen "ontcijferen". En hoe gaan we dat doen?
Wat ik eigenlijk wou zeggen
Goed
een lang verhaal kort, opslag wordt inderdaad steeds kleiner, sneller en goedkoper. Maar, de hoeveelheid data die gecreëerd en beheerd moet worden en de totale kosten die dat met zich meebrengt, groeien zo snel, dat ze waarschijnlijk niet of nauwelijks worden gecompenseerd door "Moore en Kryder."
Als je kijkt naar digitale archiefstukken, denk ik daarom dat we om dezelfde reden als bij analoge archiefstukken niet ontkomen aan selectie en vernietiging: het zal gewoon te kostbaar zijn om alles permanent te bewaren.
Gerelateerd
P.S. Deze blog is het resultaat van zes jaar discussiëren met
Chido over alles bewaren of niet. Afgelopen week hebben we er weer eens wat over heen en weer getwitterd. Eigenlijk hadden we een voorstel willen indienen voor
KVAN12, maar dat is er niet van gekomen. Wie weet volgend jaar of misschien doen we de discussie zondagavond voorafgaand aan de KVAN-dagen nog eens in het openbaar en in real-life. Maar misschien ook niet...