maandag 11 november 2013

Digitaal archiveren in the cloud

Data Matters heeft deze maand zijn "DM archiefcloud NL" gepresenteerd. Aangezien de "cloud" hot is, snap ik wel waarom Data Matters dit op deze manier 'verkoopt.' Maar is een commerciële "cloud" wel zo handig voor het lang bewaren van digitale archieven?
Om verschillende redenen denk ik van niet.

Wat levert archiveren in the cloud op?
"The cloud" lijkt vooral geschikt voor "piek-werkzaamheden", waarbij je telkens voor een korte tijd veel 'resources' nodig hebt, tijdelijke werkzaamheden of ontwikkelomgevingen. In dit soort gevallen kan het zeer voordelig zijn om alleen te betalen voor wat je nodig hebt, op het moment dat je het nodig hebt. Of zoals iemand in The Register een tijdje geleden schreef:
The cloud is great for bursty workloads, temporary workloads, or dev environments. It's great for getting something working fast or for a fixed timeframe. Want to run for president? Well, you could invest in a sea can full of servers to do the work you need, or you can spin it all up on a public cloud for a couple of years and then tear it down after the election's over. Pay as you go means no upfront investment.
Maar bij digitale archivering gaat het niet om kortstondige pieken, of tijdelijke opslag. Integendeel zelfs. De omvang van de opslag groeit langzaam maar gestaag en de data moeten juist permanent (of in ieder geval voor langere tijd) bewaard en toegankelijk blijven. Nu en dan moeten bestanden geraadpleegd worden, maar het of dit een "piek" oplevert die hoog genoeg is, is twijfelachtig.
Het is dan maar zeer de vraag of cloud-opslag goedkoper is dan het zelf regelen. Het opslaan van 100 GB bij Amazon lijkt per maand heel goedkoop, maar als je opslag gestaag groeit, dan wordt dat na verloop van tijd een enorme rekening per maand. Hier legt David Rosenthal heel gedetailleerd uit dat langetermijnopslag op eigen servers voorlopig een stuk voordeliger is dan opslag bij de grootste en goedkoopste cloud-aanbieder (Amazon dus).

Hoe kom ik bij mijn data wanneer ik dat wil?
Stel je hebt je hele digitale archief bij een commerciële aanbieder ondergebracht. Dan kost de opslag van de data geld, maar in de meeste gevallen kost ook het dataverkeer voor het downloaden van bestanden geld. Een van de gevolgen daarvan kan zijn dat het na verloop van tijd helemaal niet meer mogelijk is om je data bij de cloud-aanbieder weg te halen. De kosten van het downloaden kunnen zo hoog zijn, dat een organisatie dat helemaal niet meer kan opbrengen. Dan zit je dus opgesloten in je wolk.

Van wie zijn de data?
Het is al vaker gezegd: data zijn juridisch gezien niets. Dat betekent dat je, als die commerciële provider failliet gaat, of door Justitie om wat voor reden dan ook 'gesloten' wordt, waarschijnlijk kunt fluiten naar je archieven. Of, zoals Arnout Engelfriet schreef:
De claim “het is mijn data en ik wil deze terug” gaat hem niet worden. Data “is” niets in de zin van de wet, en deze kan dus niet worden opgeëist.
[...]
“Ik heb betaald voor de hardware”. Ah kijk, nú komen we ergens. Als een server daar eigendom is van de klant, dan kan deze hem opeisen. Natuurlijk moet wel het strafrechtelijk onderzoek zijn afgerond, maar de klant is in dat geval een onschuldige derde-eigenaar en die heeft recht op zijn spullen terug. Maar bij de cloud koop je zelden de fysieke hardware (dedicated server).
“Ik húúr dat ding netjes”. Nee, als huurder heb je geen recht op toegang tot het gehuurde als de verhuurder in de problemen raakt. Je hebt recht op je eigendommen terug, maar dat zou hier dus die data zijn en die hadden we al gehad.
Hoe betrouwbaar is "the cloud"?
Dit gaat niet alleen over mogelijke haperingen in dataverbindingen, maar ook om back-ups.
Voor "fysieke" opslag vinden we het heel gewoon dat gegevens op twee of soms wel drie verschillende plekken bewaard worden, zodat bij een calamiteit geen informatie verloren gaat. Maar hoe doe je dat bij je cloud-aanbieder?
Het idee van "the cloud" is juist dat je geen idee hebt waar je informatie staat opgeslagen en dat je de continuïteit regelt in de overeenkomst met de leverancier. Maar wat als die leverancier failliet gaat, of toch door een calamiteit getroffen wordt? Een tijdje geleden raakten enkele klanten van Amazon heel wat data kwijt, door een menselijke fout bij Amazon.
Stel nu dat dit jouw archief was?
Je kunt natuurlijk zelf een back-up maken bij een andere cloud-leverancier (bij dezelfde zou waarschijnlijk een beetje dom zijn), maar dan verdubbel je sommige van de problemen die hierboven staan alleen maar. Je kunt natuurlijk ook off-line een back-up maken. Maar waarom zou je je materiaal dan überhaupt in "the cloud" opslaan?

Even voor de duidelijkheid, in het voorgaande zeg ik niets over de kwaliteit van de dienst die Data Matters levert, daar weet ik te weinig van. Het enige dat ik hier wil aangeven is dat er nog wat haken en ogen kunnen zitten aan langetermijn archivering bij een commerciële cloud-aanbieder.

Gerelateerd
Een cloudstrategie en alweer beroepsdeformatie
Cloudcomputing bij de bank

Plaatje: frame uit Cloudy with a chance of meatballs

5 opmerkingen:

  1. Hoi Ingmar,

    Overzichtelijke argumentatie.

    Volgens mij kunnen we onderscheid maken tussen de cloud (het centraal opslaan van data) en het businessmodel erachter. Als we de functionele behoefte die de cloud nu meestal invult anders invullen en een ander betaalmodel bedenken, levert dat wellicht nog steeds een werkbare, betere en efficientere oplossing dan datacenters lokaal inrichten. De eerste twee tegenargumenten kunnen dan volgens mij vervallen.

    Hetzelfde geldt min of meer voor het laatste argument. Amazon maakt een risico-inschatting, gebaseerd op het functionaliteit die het aanbiedt. Als het goed is, is iemand die gebruik maakt van Amazon zich bewust van deze risico's en hoe zij door Amazon worden afgehandeld. Als een "echte" "archief'-cloud zou worden opgericht, worden er andere functies en risico's bekeken en beheerst, wat met een ander kostenmodel moet worden vergoed.

    Het argument van Arnout Engelfriet is denk ik het sterkst, Maar wetten kunnen veranderen.

    Groet,

    Ivo

    BeantwoordenVerwijderen
  2. Als je in het verhaal 'cloud' vervangt door 'huren va servercapaciteit' dan blijft het verhaal de zelfde strekking hebben, behalve dan dat er meer archieven zijn die servercapaciteit huren (hun IT hebben ge-outsourced) dan hip de cloud in gaan. De betrouwbaarheid van de cloud is mijns inziens vergelijkbaar met de betrouwbaarheid van Nederlandse dienstverleners, ook daar dus risico's, beheerders die fouten kunnen maken en SLA's.

    Naast wellicht het businessmodel is het verschil tussen 'cloud' en 'huren van servercapaciteit' met name dat het bij de cloud lastiger is de fysieke server aan te wijzen, met name als dit buiten Nederland of Europa is komen er weer andere uitdagingen om de hoek kijken...

    BeantwoordenVerwijderen
  3. Aansluitend op Ivo: vermoedelijk zullen (net als in de 'fysieke' situatie) bepaalde cloud services wel goedgekeurd worden als archiefruimte of -bewaarplaats en andere niet.

    Het is daarbij interessant om te kijken naar de waarde die het bedrijf zelf aan data hecht. Google (ook een cloudservices aanbieder) hecht bijzonder veel waarde aan de data, veel meer dan Amazon. Dat vond ik in het Big Data boek van Mayer-Schönberger erg interessant: de vergelijking tussen Amazon en Google en hoe ze over data denken. Amazon ziet er niet meer dan een tijdelijk belang in, terwijl Google een lange termijn strategie heeft.

    Ik zou dan ook nooit mijn kostbare data opslaan bij zo'n Amazon opslagservice...

    BeantwoordenVerwijderen
  4. @Ivo Dank voor je reactie. Zoals ik al twitterde ben ik het met je eens. Mijn punt is dan ook niet dat een archiefcloud niet kan. Het gaat er mij om (zoals ik min of meer in de laatste alinea zeg) dat er nog wat punten zijn waar je over na moet denken als je je archiefstukken in een commerciële cloud onderbrengt.

    @Bob Er zit inderdaad principieel niet zo heel veel verschil tussen het huren van servercapaciteit en cloudopslag. Maar, ik heb op dit moment de indruk dat de servercapaciteit die gehuurd wordt, vooral om het opslaan en toegankelijk maken van "reproducties" gaat. Aan de andere kant - en daar raak je een belangrijk punt - heb ik nooit begrepen waarom Nederlandse archiefdiensten zich voor een van hun kerntaken - het beschrijven van archieven - bijna volledig afhankelijk maken van twee of drie leveranciers (uit Groningen, Heiloo en Bunschoten).

    @Chido Het zou best kunnen dat cloudservices "goedgekeurd" worden, maar ik denk dat het "Engelfriet-argument" dan de doorslag zal geven. Het discutabele "eigendom" van de data vormt bij particuliere, commerciële aanbieders een enorm risico. Ook de strategie van Google kan wijzigen en dan is de kans groot dat je twee weken de tijd krijgt om je data te redden.
    In comes ArchiveTeam!

    BeantwoordenVerwijderen
  5. Het eigendomsverhaal bij data zit 'm er in dat het juridisch gezien geen 'goed' is. Dat betekent dat de normale civielrechtelijke uitgangspunten voor andermans eigendom bij een faillissement op dit punt niet gelden *tenzij je dat van tevoren contractueel regelt*. En daar zit het probleem: dat is bij veel cloudservices niet af te spreken, omdat het gestandaardiseerde contracten zijn met een take it or leave it acceptatiemethode. (Daar komt nog bij dat bij services waar wel maatwerkcontracten te regelen zijn, overheden dit punt nog wel eens vergeten.)
    Het is iets dat bij papieren opslag ook niet altijd even goed geregeld is. Zo wordt vaak niets afgesproken over de database die bijhoudt waar welke doos staat. Dan ben je de stukken niet kwijt, maar zijn ze niet meer toegankelijk.

    Het zou interessant zijn om te kijken of bijv. Google wel geïnteresseerd zou zijn in maatwerk als je als Nederlandse overheid aanklopt met het verzoek een archiefcloudservice voor alle overheidslagen in te richten.
    Niet dat ik het zou aanraden. Uit beveiligingsoverwegingen zou ik voor een puur Nederlands (of misschien Europees) bedrijf kiezen en het liefst zou ik als overheid een eigen cloudservice opzetten.

    BeantwoordenVerwijderen