vrijdag 7 januari 2011

Infopocalypse, kent u dat?

Eerder deze week kwam ik via-via bij Infopocalypse: The cost of too much data, een interessant stuk over de Amerikaanse data deluge. In het artikel beschrijft Chris Faraone van The Phoenix de omvang van de federale databestanden:
Our nation is drowning in data. At any given time, federal agencies use more electronic storage units than could fill every NFL stadium from Oakland to Foxboro. At last count, the US government owns or leases at least 2100 data centers, and spends about half of its multi-billion dollar IT budget on digital storage. The United States Census Bureau alone maintains about 2560 terabytes of information — more data than is contained in all the academic libraries in America, and the equivalent of about 50 million four-door filing cabinets of text documents. In addition to the federal deluge, tens of thousands of municipal and state facilities maintain data ranging from driver's-license pics to administrative e-mails — or at least they're required to.
Op zich is dit natuurlijk weinig nieuws, ik verwijs in mijn presentaties regelmatig naar deze grafiek over de dataproductie per dag bij het Britse ministerie van Cultuur.
Maar Faraone beschrijft wel een paar andere dingen, waar ik nog niet zo bij stil had gestaan. Hij citeert bijvoorbeeld John Wonderlich van de Sunlight Foundation, die een vergelijking maakt met het begin van de twintigste eeuw, toen de typemachine en later het kopieerapparaat hun intrede deden:
"If you look at the early 20th century, the number of paper documents was growing exponentially as all of these huge government agencies were popping up. (...) Back then they didn't know what to throw out, what to standardize, or how to organize. The challenges we face with data are in similar scope — that's why it's so important that these issues are addressed head-on before it's too late."
Misschien klopt de vergelijking wel als het gaat om de relatieve stijging van documenten, maar er zijn natuurlijk ook grote verschillen tussen toen en nu. Toen ging het vooral om fysieke objecten, die redelijk uniform waren: eindige, papieren documenten en een kopie verschilde daadwerkelijk van een origineel. Tegenwoordig is het probleem (en dat blijkt onder andere ook uit het artikel) dat het voor een groot deel gaat om (gestructureerde) 'data' in allerlei formaten en niet zozeer om 'documenten.' De bestanden zijn niet tastbaar en kopieën zijn makkelijk gemaakt en nauwelijks te onderscheiden van "het origineel".

Een andere interessante observatie, waarvan ik niet zeker weet of het waar en zinvol is, gaat over de menselijke inbreng die nodig is om van data informatie te maken.
As a society, we've decided we want government to be more transparent and more accountable. The government has responded, but the more information we keep, the harder it becomes to search for what we want. Data, in and of itself, isn't the answer — unless you've got people to make sense of it. Even with millions being spent on storage solutions, public workers warn that at the bottleneck of information flow sits a shortage of good old-fashioned manpower.
De oplossing zou zijn om juist meer informatie online te zetten. Hierdoor zou het beantwoorden van WOB-vragen (FOIA in de VS) minder tijd gaan kosten, omdat er minder WOB-vragen gesteld hoeven te worden. Maar deze oplossing bijt zichzelf in de staart, want om die data online te zetten heb je toch ook weer mensen nodig om de data 'begrijpelijk' te maken.

Het derde punt dat ik opvallend vind in het artikel is dat het alleen gaat over IT-afdelingen die deze problemen moeten oplossen. Recordsmanagers of archivarissen worden niet genoemd, net zo min als 'uitvoerende' ambtenaren. Terwijl dat toch de mensen zijn die de data begrijpelijk moeten maken. In die zin is het artikel dus erg techniek-georiënteerd.
De oplossingen worden toch vooral gezocht in standaardisatie en consolidatie. Hoewel ik denk dat dat ook zinvol is, zal de echte oplossing toch ook liggen in betere (al dan niet automatische) beschrijving van de data en bestanden.

Je weet pas wat je hebt, als je dat hebt vastgelegd.

Gerelateerd
E-mail is toch geen archief
Is archief wel procesgebonden informatie?
Wat is de relatie tussen een hamer en een RMA?
Taggen of ordenen?

Afbeelding: Information explosion van Emilie Ogez

1 opmerking: