vrijdag 1 juni 2012

Opslag wordt steeds goedkoper, dus laten we maar alles bewaren

Er zijn mensen die vinden dat selectie en vernietiging van digitale archiefstukken onnodig is. Vroeger, in de analoge situatie, was de enige reden om dossiers te vernietigen het gebruik van en gebrek aan fysieke opslagruimte. Maar, aangezien digitale opslag nauwelijks fysieke ruimte inneemt en ook nog eens steeds goedkoper wordt (de beroemde Wetten van Moore en Kryder), is digitale vernietiging niet meer nodig: Let's just keep everything!
De afgelopen week heb ik een paar blogs gelezen die deze ideeën toch wat nuanceren.

Kosten
Allereerst was er David Rosenthal die berekende wat het zou kosten om alle in 2011 gecreëerde data (1,8 Zettabytes, bijna 2 miljard TB) in the cloud op te slaan:
If we decided to keep it all for the long term in the cloud, we would be effectively endowing it. How big would the endowment be? Applying our model, starting with S3's current highest-volume price of $0.055/GB/mo and assuming that price continues to drop at the 10%/yr historic rate for S3's largest tier, we need an endowment of about $6.3K/TB. So the net present value of the cost of keeping all the world's 2011 data in S3 would be about $11.4 trillion. The 2011 Gross World Product (GWP) at purchasing price parity is almost $80 trillion. So keeping 2011's data would consume 14% of 2011's GWP. The world would be writing S3 a check each month of the first year for almost $100 billion, unless the world got a volume discount.
Daarna berekent hij dat in 2018 het bewaren van alles wat er in dat jaar gecreëerd wordt, evenveel kost als 't gehele Bruto Wereldproduct.
In de comments voegt hij daar nog een interessant perspectief bij:
Amazon designs S3 for 11 nines of reliability, or a 10^-11 chance that an object will be unrecoverable in a given year. The average size of an object is a megabyte. Thus 2011's 1.8 Zettabytes would be 1.8*10^15 objects, and S3 would lose 18,000 of 2011's objects each year, or 18GB/yr of data.
Maar er is meer...

Groei
Ruim anderhalf jaar geleden schreef Barclay Blair ook het een en ander over opslagkosten.
Een van de (onuitgesproken) aannames achter de opmerking "opslag wordt goedkoper", is ook dat opslag minder gaat kosten. Blair laat aan de hand van onderstaand plaatje zien hoe het "echt" zit:

In tien jaar tijd zijn de kosten voor een schijf per GB ongeveer 100 keer zo klein geworden. Dat zie je in de onderste lijn. Maar, en dat is de middelste lijn, de uitgaven voor hardware zijn in die tien jaar gelijk gebleven. Met behulp van een analogie legt Blair uit wat dit betekent:
The average American drives 12,000 miles each year. At a rate of 30 mpg, that means he/she uses 400 gallons of fuel, at current prices of $3.00 per gallon. As such, he/she spends $1200 each year on gas. Now, if the price of gas dropped the equivalent of the price of hard drives - from $3.00 per gallon to 3 cents per gallon, for that same $1200, he/she could drive 1.2 million miles per year, not 12,000. And that is exactly what we have been doing with digital information, as the cost of hard drives has dropped 100 times, we have continued to spend the same amount of money even though the cost is less than 1% of what it was. Clearly, we are “driving” more.
De derde lijn laat zien wat daar de consequentie van is: meer opslag betekent ook dat meer software nodig is om die opslag goed te beheren. Tien jaar geleden bedroegen de softwarekosten nog ongeveer 1/6 van de totale opslagkosten (hardware + software), in 2010 was dat al 1/3.

[Het plaatje dat hier stond is weg. IKo, 9 juni 2012]

Ook het plaatje hierboven komt van Blair en laat in de eerste kolom zien dat de data-groei in de komende tien (ondertussen acht) jaar enorm is. Maar, het aantal "bestanden" dat ontstaat en beheerd zou moeten worden, groeit nog sneller!
As we complete the transition from paper to digital, the kinds of data we are creating and the kind of management it requires is changing. According to the study, the amount of data requiring some type of information governance (i.e, for “privacy, compliance, custodial protection, confidentiality, or absolute lock down” purposes) by 2020 will nearly double. Moreover, the portion requiring the highest levels of information governance control will grow 100 times. Furthermore, when viewed from a files – rather than an absolute volume perspective – the number of files requiring some kind of information governance will be over 90%.
En er is nog meer...

Minimalisering
Al die data opslaan is een uitdaging, die misschien wel opgelost wordt door de opslagruimte revolutionair te verkleinen. Zie bijvoorbeeld waar IBM mee bezig is:
Researchers at I.B.M. have stored and retrieved digital 1s and 0s from an array of just 12 atoms, pushing the boundaries of the magnetic storage of information to the edge of what is possible.
Vraag is natuurlijk hoe lang het gaat duren voordat dit bruikbaar en betaalbaar is.
Maar er is nog een probleem...

Migratie
De huidige digitale dragers (harde schijven, tape) lijden allemaal aan autonoom verval. Dat wil zeggen dat de data die er op staan regelmatig verplaatst moeten worden naar een nieuwe drager, omdat de data anders onleesbaar worden doordat de drager niet meer (goed) toegankelijk is. Goedaardige verwaarlozing leidt dan onherroepelijk tot verlies van informatie.
Inge Angevaare schreef daar iets interessants over in haar verslag van Screening the Future:
Hummel indicated that a single media migration at an (unidentified) major studio took six months! He quoted the 100 Year Archive Task Force of the Storage Networking Industry Association (SNIA) as saying:
It is the contention of the 100 Year Archive Task Force that migration [meaning: media migration, IA] as a discrete long-term preservation methodology is broken in the data center. Today’s migration practices do not scale cost-effectively and won’t be done until a crisis erupts. This means that today’s reliance on [media - IA] migration is taking us down a ‘dead-end path.’ Hear this, under these practice guidelines, the world’s digital information is at great risk.
Daar zijn wel oplossingen voor.
Mijn Zeeuwse collega zweert bij de M-Disc van Millenniata, waarbij de nullen en eentjes niet in een laklaag gesmolten worden, maar in een soort steen geëtst worden. De schijven zijn daarna afspeelbaar in ieder "gewoon" cd- of dvd-station. Nadeel is wel dat er "maar" 4,7 GB op een schijfje passen.
Een andere mogelijke oplossing is DOTS van Group 47:
DOTS (Digital Optical Technology System) is a digital storage media that is archival for no less than 100 years, non-magnetic, chemically inert, immune from electromagnetic fields including electromagnetic pulse (EMP), able to be stored in normal office environments or extremes ranging from -9º - 65º C.
Because there are no demanding climate control requirements, DOTS is a low-cost, environmentally-friendly way to truly archive data long term.
Het idee achter DOTS komt van Eastman Kodak, lijkt een beetje op de Rosetta-disk van Long Now en komt overeen met iets waar ik het een paar jaar geleden met Ad van Heijst over had in de marge van een overleg over vervanging:
DOTS is a true optical “eye-readable” method of storing digital files. With sufficient magnification, one can actually see the digital information. Our “Rosetta Leader™” specification calls for microfiche-scale human readable text at the beginning of each tape with instructions on how the data is encoded and instructions on how to actually construct a reader. Because the information is visible, as long as cameras and imaging devices are available, the information will always be recoverable.
Het gaat hier dus om een variant op microfilm, waarbij op 1 tape circa 1 TB opgeslagen kan worden.

Bestandsformaten 
Het probleem dat nog speelt bij die laatste twee oplossingen is natuurlijk ook nog de veroudering van bestandsformaten. (Ik laat de veroudering van afspeelapparatuur even buiten beschouwing, maar dat is met name bij M-Disk natuurlijk ook nog een risico. Hoe lang gebruiken we nog cd- of dvd-spelers?)
Zowel bij M-Disk als bij DOTS sla je bestanden op in een bepaalde codering. Dat betekent dat ik te zijner tijd de sleutel (software) nodig heb om die informatie te kunnen "ontcijferen". En hoe gaan we dat doen?

Wat ik eigenlijk wou zeggen
Goed een lang verhaal kort, opslag wordt inderdaad steeds kleiner, sneller en goedkoper. Maar, de hoeveelheid data die gecreëerd en beheerd moet worden en de totale kosten die dat met zich meebrengt, groeien zo snel, dat ze waarschijnlijk niet of nauwelijks worden gecompenseerd door "Moore en Kryder."
Als je kijkt naar digitale archiefstukken, denk ik daarom dat we om dezelfde reden als bij analoge archiefstukken niet ontkomen aan selectie en vernietiging: het zal gewoon te kostbaar zijn om alles permanent te bewaren.

Gerelateerd

Plaatje bovenaan: Fire proof van Derek Bruff

P.S. Deze blog is het resultaat van zes jaar discussiëren met Chido over alles bewaren of niet. Afgelopen week hebben we er weer eens wat over heen en weer getwitterd. Eigenlijk hadden we een voorstel willen indienen voor KVAN12, maar dat is er niet van gekomen. Wie weet volgend jaar of misschien doen we de discussie zondagavond voorafgaand aan de KVAN-dagen nog eens in het openbaar en in real-life. Maar misschien ook niet...

10 opmerkingen:

  1. Goed verhaal, Ingmar. En het gaat ook niet alleen om opslag en om media- of bestandsformaatmigraties: als we al dat spul bruikbaar willen houden, en daar gaat het toch om, moet ook alle metadata uit het OAIS informatiemodel beschikbaar komen/worden toegevoegd. Een heidense klus!
    De archiefwereld is het meest bedreven in selectie, en in andere sectoren (bibliotheken, media, cultureel erfgoed) verwijs ik altijd naar de archiefsector als een goed voorbeeld dat het best wel mogelijk is om te selecteren. En dat we daar van kunnen leren.
    "Maar we weten niet wat de toekomst nodig zal hebben, en wij hebben geen archiefwet" krijg ik dan te horen. Dat is natuurlijk waar. Maar het zou kerntaak van bibliothecarissen, curatoren en datamanagers moeten zijn om op basis van hun vakkennis verstandige keuzes te maken. Dat die niet allemaal goed uit zullen pakken is een gegeven. Het is nooit anders geweest ...

    BeantwoordenVerwijderen
  2. inge angevaare2 juni 2012 om 15:13

    Goed verhaal, Ingmar. En het gaat ook niet alleen om opslag en om media- of bestandsformaatmigraties: als we al dat spul bruikbaar willen houden, en daar gaat het toch om, moet ook alle metadata uit het OAIS informatiemodel beschikbaar komen/worden toegevoegd. Een heidense klus! De archiefwereld is het meest bedreven in selectie, en in andere sectoren (bibliotheken, media, cultureel erfgoed) verwijs ik altijd naar de archiefsector als een goed voorbeeld dat het best wel mogelijk is om te selecteren. En dat we daar van kunnen leren. "Maar we weten niet wat de toekomst nodig zal hebben, en wij hebben geen archiefwet" krijg ik dan te horen. Dat is natuurlijk waar. Maar het zou kerntaak van bibliothecarissen, curatoren en datamanagers moeten zijn om op basis van hun vakkennis verstandige keuzes te maken. Dat die niet allemaal goed uit zullen pakken is een gegeven. Het is nooit anders geweest ... Trouwens: DOTS is nog niet op de markt. Rob Hummel van Group 47 schat dat ze nog zo'n 18 maanden nodig zullen hebben. Inge Angevaare

    BeantwoordenVerwijderen
  3. Dank je Inge.
    Je hebt gelijk dat natuurlijk over al die digitale objecten ook metadata vastgelegd moeten worden. Maar, bij archieven is het wel zo dat je die sowieso vast moet leggen. Als je iets maar een paar jaar wil bewaren, moet je ongeveer dezelfde metagegevens vastleggen als wanneer je iets permanent wil bewaren. Al blijft de hoeveelheid metagegevens per archiefstuk in de loop der tijd natuurlijk wel groeien en groeien. En die metagegevens zijn inderdaad ook digitaal en moeten dus ook ergens opgeslagen worden.

    BeantwoordenVerwijderen
  4. Uitstekende weergave van het opslagdebat. Opslag is een reëel
    probleem. En selectie en waardering
    zullen dus nodig zijn. Maar ik zou pleiten voor een andere focus. Binnen de archivistiek zijn waardering en
    selectie vaak gericht op beheersing door middel van het kleiner maken van de
    hoeveelheid aan informatie. Feit is
    echter dat, zonder iets af te doen aan het hetgeen je hier beschrijft, er op
    dit moment onnoemelijk veel informatie wordt gecreëerd. Daar zullen we mee
    moeten leren omgaan. En ik denk dat het beter is om onze energie niet te
    richten op de beheersing van die informatie, maar op het gebruik. Een drenkeling kan beter leren zwemmen dan
    proberen de oceaan kleiner te maken. Archiveringsfuncties hebben als doel het
    gebruik van records. Zo bezien zouden waardering en selectie informatiefilters
    op moeten leveren die records verrijken of een verrijking of versmalling van
    het perspectief op de aanwezige informatie bewerkstelligen. Wanneer we niet
    vanaf het moment van creatie vaststellen wat de waarde van informatie is dan
    zullen we die informatie ook niet zinvol kunnen gebruiken, laat staan
    vernietigen.

    BeantwoordenVerwijderen
  5. Ruud Yap Dank je Ruud, maar dat is precies het deel uit jouw scriptie dat ik niet snap.
    Om je analogie van de zwemmer en de oceaan aan te houden, je kunt niet tegen alle inwoners van Flevoland zeggen: leer allemaal maar zwemmen, we malen geen water meer naar buiten. Er moet water weg!Jij schrijft ergens: opslag is het probleem dus niet. Als ik het goed begrijp zeg jij dat selectie en waardering nodig zijn om relevante archiefstukken zichtbaar en irrelevante onzichtbaar te maken, afhankelijk van waar je de archiefstukken voor nodig hebt of voor wil gebruiken: informatiefilters noem jij dat en die filters leiden niet (of nauwelijks?) tot daadwerkelijke vernietiging van archiefstukken.Maar dat lost de opslagproblematiek toch niet op? Want in die visie blijf ik niet alleen alles bewaren, maar moet ik ook nog extra metadata opslaan om die filters in de tijd bij te houden. En blijf ik dus tegen bovenstaande problemen op lopen. (Waarbij ik ook informatie kwijt raak, alleen weet ik niet welke. Dat is de portee van de laatste opmerking van Rosenthal.)Ik ben het trouwens wel met je eens dat je alleen kunt vernietigen wat je weet en dat je dus zult moeten beschrijven.

    BeantwoordenVerwijderen
  6. Dag Ingmar, volgens mij spreken we elkaar niet tegen. Een aantal conclusies die je me toeschrijft, heb ik mijns inziens niet getrokken. Zo schrijf ik dat opslag alleen het probleem niet kan zijn om mij verder te richten op andere aspecten van waardering en selectie. Vernietiging sluit ik dan ook nergens uit. Sterker: in sommige gevallen is het een gegeven dat informatie vernietigd moet worden. Ik probeer alleen maar te kijken naar een situatie waarin er meer is dan we kunnen beheersen. Maar ik zal nog wat aan mijn verdediging moeten doen. Zodra de scriptie online staat, praten we verder. Op naar KVAN 2013!

    BeantwoordenVerwijderen
  7. Reactie van Ruud Yap die wel in Blogger, maar niet hier verscheen:Dag Ingmar, volgens mij spreken we elkaar niet tegen. Een aantal conclusies die je me toeschrijft, heb ik mijns inziens niet getrokken. Zo schrijf ik dat opslag alleen het probleem niet kan zijn om mij verder te richten op andere aspecten van waardering en selectie. Vernietiging sluit ik dan ook nergens uit. Sterker: in sommige gevallen is het een gegeven dat informatie vernietigd moet worden. Ik probeer alleen maar te kijken naar een situatie waarin er meer is dan we kunnen beheersen. Maar ik zal nog wat aan mijn verdediging moeten doen. Zodra de scriptie online staat, praten we verder. Op naar KVAN 2013

    BeantwoordenVerwijderen
  8. Tja, dan zal ik ook moeten reageren...
    Ik ga dat hopelijk nog voor KVAN12 uitgebreid doen, maar nu even een korte reactie:


    Horseless Carriage.


    Vooral mijnheer Rosenthal heeft daar last van: met de huidige methoden en prijzen vooruit rekenen is absurd.


    Trouwens, het debat loopt al jaren en de 'onoverkomelijke problemen' verschuiven en veranderen steeds. Eerst was het de onbetaalbare opslag. Dat blijkt toch niet echt het probleem. Toen was het enorme aantal bestandsformaten onoverkomelijk. Ook dat is steeds minder een probleem door standaardisering in opslagformaten. Daarna kwam de terugvindbaarheid: 'we moeten vernietigen om het allemaal toegankelijk te houden. Het is teveel.' Google is still laughing...
    De laatste loot aan de 'ja maar, de beheerskosten'-stam is de software. Ach. De afgelopen 10 jaar is er simpelweg meer digitaal geworden. De softwarekosten zouden sowieso gestegen zijn, of we nu wel of niet vernietigen.


    Interessant is daarbij om te kijken naar de inflatiecijfers. Als je die meeneemt zijn de softwarekosten relatief gezien niet zo veel gestegen en is de prijs per GB nog veel verder gedaald dan het nu lijkt.


    Tot zover. Ik ga nog uitgebreid inhoudelijk reageren.

    BeantwoordenVerwijderen
  9. Gelukkig Nieuwjaar! Toch wel fijn die lijstjes. Belofte maakt schuldhttp://www.scriptiesonline.uba.uva.nl/420183

    BeantwoordenVerwijderen