Posts tonen met het label metadata. Alle posts tonen
Posts tonen met het label metadata. Alle posts tonen

vrijdag 29 november 2013

Nog één keer: telefoonmetadata

Seinhuis Zuidbroek telefoon
De AIVD heeft vandaag op zijn website een Engelstalige verklaring over het afluisteren van telecommunicatie gepubliceerd.
Interception of telecommunications by the AIVD: rules and regulations
The interception of telecommunications by secret services is surrounded by myths and misunderstandings. What is interception according to the Dutch intelligence services and what kinds of interception do we define? What does the law say? By whom and how are the Dutch intelligence services supervised?
En opnieuw wordt het afluisteren gebagatelliseerd door te benadrukken dat het vooral om metagegevens gaat:
Content and metadata
Telecommunications consist of the message (content) and all the data added for the purpose of transport (metadata), such as a telephone number, an IP number, an email address or location data.
Intercepting telecommunications first and foremost means collecting metadata. Metadata is less substantial in size and can be analysed more quickly. In addition, gathering metadata is a less serious privacy infringement. Analysis of the metadata shows whether the matching content of traffic may be relevant for AIVD investigations.
Most data is irrelevant for AIVD investigations. If, based on a carefully designed assessment trajectory, the data does prove to be important, the Minister of the Interior and Kingdom Relations must be asked for permission to also look at the content.
Vorige week beschreef Slate, op basis van een verklaring van professor Felton van Princeton hoeveel die onschuldige metadata kunnen onthullen. De voorbeelden zijn redelijk Amerikaans, maar toch:
NSA collection of our metadata means the government knows when we’ve called a rape hotline, a domestic violence hotline, an addiction hotline, or a support line for gay teens. Hotlines for whistleblowers in every agency are fair game, as are police hotlines for “anonymous” reports of crimes. Charities that make it possible to text a donation to a particular cause (say, Planned Parenthood) or political candidate or super PAC could reveal an enormous amount about our political activities. And calling patterns can reveal our religious beliefs (no calls on Sabbath? Heaps of calls on Christmas?) or new medical conditions. If, for instance, the government knows that, within an hour, we called an HIV testing service, then our doctor, and then our health insurance company, they may not “know” what was discussed, but anyone with common sense—even a government official—could probably figure it out.
But there’s more, says Felten: By analyzing our metadata over time, the government can separate the signal from the noise and use it to identify behavioral patterns. The government can determine whether someone is making lots of late-night calls to someone who isn’t his spouse, for example. When those calls cease, the government might reasonably conclude that the affair has ended. Metadata may reveal whether and how often someone calls her bookie or the American Civil Liberties Union or a defense attorney. And by analyzing the metadata of every American across a span of years, the NSA could learn almost as much about our health, our habits, our politics, and our relationships as it could by eavesdropping on our calls. It’s not the same thing, but the more data the government collects, the more the distinction between metadata and actual content disappears.
En als Target op basis van allerlei aankopen voorspellingen kan doen, dan kan de regering vast ook wel het een en ander afleiden hè.
De PreCogs komen er aan en ze gebruiken big data...

Gerelateerd
Hoe de supermarkt weet wat je nodig hebt
Het waren slechts metadata
Dat metadata niet zo onschuldig zijn...

Plaatje:By Smiley.toerist (Own work) [GFDL or CC-BY-SA-3.0-2.5-2.0-1.0], via Wikimedia Commons

vrijdag 1 november 2013

Het waren slechts metadata

De NSA luisterde in Nederland geen hele telefoongesprekken af, maar verzamelde alleen metadata, waaruit kan worden afgeleid wanneer en tussen wie gesprekken plaatsvonden. Dat schrijft minister Plasterk (PvdA) in een brief (pdf) aan de Tweede Kamer.
Dat schreef de NRC gisteravond. Die metadata-spin is al vanaf het begin van de Snowden-heisa de reactie van de NSA om het belang van de onthullingen te verkleinen. Plasterk sluit zich daar nu bij aan.
Eind juni schreef ik al over Finding Paul Revere, waaruit blijkt dat die metagegevens interessant en veelzeggend genoeg zijn (want anders zouden ze niet verzameld worden.)
So, there you have it. From a table of membership in different groups we have gotten a picture of a kind of social network between individuals, a sense of the degree of connection between organizations, and some strong hints of who the key players are in this world. And all this—all of it!—from the merest sliver of metadata about a single modality of relationship between people.
Lees dat stukje vooral nog een keer...

Wat eigenlijk nog interessanter is, is waarom er tussen 10 december 2012 en 8 januari 2013, maar 1,8 miljoen gesprekken geregistreerd zijn. Dat is maar een fractie van het totaal aantal gesprekken dat in die 28 dagen gevoerd moet zijn. Zou er dan toch enige selectie zitten in het afluisteren?

Gerelateerd
Dat metadata niet zo onschuldig zijn...
Mobiele telefoons zijn Stalins droom

Plaatje: This phone is tapped van David Drexler

vrijdag 5 juli 2013

De Amerikaanse posterijen registreren alle brieven

Eigenlijk is het heel logisch, maar toch hè, maar toch...
De New York Times schreef eergisteren over het Mail Isolation Control and Tracking program: de US Postal Service maakt blijkbaar een foto van de voor en achterkant van alle poststukken die ze verwerken. Het gaat hierbij om ongeveer 160 miljard (!) enveloppen. Het is niet bekend hoe lang de foto's daarna bewaard worden.
The Mail Isolation Control and Tracking program was created after the anthrax attacks in late 2001 that killed five people, including two postal workers. Highly secret, it seeped into public view last month when the F.B.I. cited it in its investigation of ricin-laced letters sent to President Obama and Mayor Michael R. Bloomberg. It enables the Postal Service to retrace the path of mail at the request of law enforcement. No one disputes that it is sweeping.
“In the past, mail covers were used when you had a reason to suspect someone of a crime,” said Mark D. Rasch, who started a computer crimes unit in the fraud section of the criminal division of the Justice Department and worked on several fraud cases using mail covers. “Now it seems to be, ‘Let’s record everyone’s mail so in the future we might go back and see who you were communicating with.’ Essentially you’ve added mail covers on millions of Americans.”
En het gaat natuurlijk om de metadata:
“Basically they are doing the same thing as the other programs, collecting the information on the outside of your mail, the metadata, if you will, of names, addresses, return addresses and postmark locations, which gives the government a pretty good map of your contacts, even if they aren’t reading the contents,” he said.
Dat die metagegevens heel interessant en veelzeggend kunnen zijn, heb ik zaterdag al beschreven.
Maar het plaatje hierboven is wat dat betreft ook interessant. Het is een weergave van de relaties van Jacob Goldstein, van NPR, enkel gebaseerd op zijn Gmail-metadata:
The relationships it maps are, more or less, my life — orange circles for Planet Money, purple for Brooklyn, brown for college. The big red circle that gets cut off at the bottom of the screengrab is my mom.
The picture shows just how revealing metadata can be. Without knowing anything about the content of my emails, you can paint a pretty complete picture of my personal and professional universe.
Het plaatje is gemaakt met het programmaatje Immersion van MIT:
Once you log in, Immersion will use only the From, To, Cc and Timestamp fields of the emails in the account you are signing in with. It will not access the subject or the body content of any of your emails.
Upon logging out of Immersion, you will be presented with a choice to save or delete your data, which contains your compressed email metadata and user profile.
Heel confronterend, zeker als je het combineert met bijvoorbeeld je LinkedIn-contacten.

Gerelateerd
Dat metadata niet zo onschuldig zijn

zaterdag 22 juni 2013

Dat metadata niet zo onschuldig zijn...

Een van de manieren waarop de Amerikaanse overheid het "Snowden-lek" probeert te minimaliseren, is door te zeggen dat de NSA niet meeluistert met gesprekken: de dienst legt "enkel de metadata vast". The Guardian heeft een mooie site gemaakt, waar je kunt zien om welke metadata het allemaal kan gaan.
Maar wat zou de NSA nou kunnen met die metagegevens? Een van de mooiste blogs die dat duidelijk maken, vind ik toch wel Using metadata to find Paul Revere van Kieran Healy.
In zijn blog doet Healy alsof hij werkt voor de achttiende eeuwse "Royal Security Agency", en in 1772 op basis van zeer beperkte informatie moet zien te achterhalen wie mogelijk koloniale (Amerikaanse) opstandelingen zijn.
[...]I should emphasize again that I know nothing of current affairs in the colonies. However, our current Eighteenth Century beta of PRISM has been used to collect and analyze information on more than two hundred and sixty persons (of varying degrees of suspicion) belonging variously to seven different organizations in the Boston area.
Rest assured that we only collected metadata on these people, and no actual conversations were recorded or meetings transcribed. All I know is whether someone was a member of an organization or not. Surely this is but a small encroachment on the freedom of the Crown’s subjects. I have been asked, on the basis of this poor information, to present some names for our field agents in the Colonies to work with. It seems an unlikely task.
Daarna legt Healy stap voor stap uit hoe je op basis van enkel de lidmaatschapsgegevens van zeven clubs, heel interessante gegevens kunt achterhalen. Je kunt niet alleen zien wie wie kent van welke club, je kunt ook allerlei interessante netwerk-plaatjes maken, zoals die hierboven.
Het interessante van dat netwerk is dat in het midden een naam ziet staan van iemand, die als een soort "kruispunt" fungeert: Paul Revere. (Als je inzoomt, zie je het ook)
Ook andere netwerk-berekeningen op basis van die 7 bij 255 rijen tonen aan dat die Revere een centrale rol speelt in het opstandige Boston rond 1770.

Nu is wat historische achtergrond essentieel.
Paul Revere speelde namelijk inderdaad een cruciale rol bij de opstand tegen het Britse leger. Zo was hij onder andere belast met het verzamelen van informatie over de Engelse militairen die in 1775 Boston belegerden.
Als die Britten wat beter hadden kunnen rekenen, hadden ze dat dus kunnen weten!
So, there you have it. From a table of membership in different groups we have gotten a picture of a kind of social network between individuals, a sense of the degree of connection between organizations, and some strong hints of who the key players are in this world. And all this—all of it!—from the merest sliver of metadata about a single modality of relationship between people. I do not wish to overstep the remit of my memorandum but I must ask you to imagine what might be possible if we were but able to collect information on very many more people, and also synthesize information from different kinds of ties between people! For the simple methods I have described are quite generalizable in these ways, and their capability only becomes more apparent as the size and scope of the information they are given increases. We would not need to know what was being whispered between individuals, only that they were connected in various ways. The analytical engine would do the rest! [...]
I admit that, in addition to the possibilities for finding something interesting, there may also be the prospect of discovering suggestive but ultimately incorrect or misleading patterns. But I feel this problem would surely be greatly ameliorated by more and better metadata. At the present time, alas, the technology required to automatically collect the required information is beyond our capacity. But I say again, if a mere scribe such as I—one who knows nearly nothing—can use the very simplest of these methods to pick the name of a traitor like Paul Revere from those of two hundred and fifty four other men, using nothing but a list of memberships and a portable calculating engine, then just think what weapons we might wield in the defense of liberty one or two centuries from now.
 Fascinerend en eng tegelijk!

maandag 13 mei 2013

Alice en metagegevens


'De naam van het lied heet ‘Schelvis Ogen’.’
‘O, dat is de naam van het lied zeker?’ zei Alice, die haar best deed om belangstelling te tonen.
‘Neen, je begrijpt me niet,’ zei de Ruiter, en keek een beetje geërgerd ‘Zo heet de naam. De naam is in werkelijkheid “De Hoogbejaarde Baas”.’
‘Dus ik had moeten zeggen zo heet het lied?’ verbeterde Alice zich zelf.
‘Neen, dat had je niet: dat is heel wat anders. Het lied heet ‘Het Middel en het Doel’: maar zo heet het enkel maar.’
‘Ja maar, wat is het lied dan?’ vroeg Alice die nu langzamerhand volkomen in de war was.
‘Daar wilde ik nu juist naar toe,’ zei de Ruiter. ‘Het lied is in werkelijkheid “Gezeten op een Hek”: en de melodie heb ik zelf verzonnen.’

Uit De avonturen van Alice van Lewis Carrol, vertaald door Alfred Kossmann

Dus daarom is een toepassingsprofiel belangrijk.

Gerelateerd
De datum van een archiefstuk
Koe of paard, het zijn metadata
Dat is maar een mening: metadata in documenten

Plaatje: The White Knight van John Tenniel

maandag 18 februari 2013

Koe of paard, het zijn metadata

Een jaar of twaalf geleden was dit een van de eerste alinea's uit mijn scriptie voor Archiefwetenschap:
Meestentijds zijn de ordeningen en classificaties die we toepassen impliciet en onzichtbaar. Ze worden pas zichtbaar wanneer iemand zich er (al dan niet bewust) niet aan houdt. Een voorbeeld hiervan is het ongemak dat ontstaat wanneer een man het damestoilet bezoekt. Of, maar dan veel ingrijpender, de classificatie die gegeven wordt aan vuurwerk. Zolang de codering op de collo overeenkomt met de inhoud ervan, is er niets aan de hand. Na de vuurwerkramp in Enschede op 13 mei 2000, bleek echter dat een groot deel van de etiketten een lichtere categorie aangaf dan er in de verpakkingen zat.
Nu zou ik waarschijnlijk een stukje uit de NRC van afgelopen weekend citeren over vlees:
De route die het paardenvlees heeft afgelegd voor het illegaal terechtkwam in kant-en-klaarmaaltijden die in talloze Europese landen in supermarkten werden verkocht, is duidelijk. De paarden werden geslacht in Roemenië en door Draap naar Nederland gehaald. Het vlees, dan nog in grote bevroren blokken, werd opgeslagen in het Bredase bedrijf Nemijtek. Vanuit hier ging het naar Spanghero, in het Zuid-Franse Castelnaudary. Deze vleesverwerker verkocht het vlees door aan Comigel, een producent van diepvriesmaaltijden. En vanuit de fabriek in het Noord-Franse Metz vond de distributie naar de supermarkten plaats.
De vraag is op welk moment het paardenvlees – op het etiket – in rundvlees veranderde. De Franse regering die onafhankelijk onderzoek verrichtte, wijst Spanghero aan als hoofdschuldige. De Zuid-Franse fabriek zou doelbewust paardenvlees als rundvlees hebben verhandeld.
It's all about the metadata... Of draaf ik nu door?

Hoe dan ook, er zit ook nog een echt archief-aspect aan deze affaire. De Franse krant Le Parisien heeft van Draap drie facturen gefaxt gekregen waaruit zou moeten blijken dat het Franse Spanghero wist dat het paardenvlees gekocht heeft. De krant twijfelt echter aan de authenticiteit van de rekeningen:
Selon ces factures, la société Spanghero a réceptionné d’importantes quantités de minerai de cheval (NDLR : un mélange de maigre, de gras et de collagène, sous forme de viande hachée). Quarante-deux tonnes très exactement. Dix-huit tonnes et demie le 4 janvier, 18 t le 9 janvier et 4 t le 12 janvier. Les factures sont adressées par Draap Trading Ltd, une société de trading chypriote domiciliée à Limassol, la deuxième ville de l’île. Celle-ci n’a pas pu être jointe et n’a pas pu certifier l’authenticité des factures, qui ont été adressées aux autorités vétérinaires roumaines pour les besoins de l’enquête. Destinataire : « Spanghero viandes elabore », à Castelnaudary. Sur le document apparaît la mention « minerai » suivie du code 0205 0080. Cela signifie « viande de cheval congelée » dans la nomenclature internationale.
Een gefaxte factuur authentiseren lijkt me trouwens ook knap lastig. Maar Draap heeft op zijn minst ook de schijn tegen, want, schrijft de NRC, het bedrijf is vorig jaar veroordeeld wegens vleesfraude.
Tussen december 2007 en september 2009 heeft hij aan twee Franse bedrijven Zuid-Amerikaans paardenvlees verkocht als ritueel geslacht halal rundvlees uit Duitsland.
Fasen importeerde het paardenvlees uit, bijvoorbeeld, Mexico. Leverde het vervolgens op papier aan een halal vlees slachterij in Amsterdam. Dit bedrijf stuurde dan – eveneens op papier – exact dezelfde hoeveelheid vlees terug, à 7 cent per kilo meer. In werkelijkheid vonden er geen leveringen plaats, maar het maakte wel de weg vrij om een halal certificaat te verkrijgen. Hiermee kon Fasen het paardenvlees als Duits of Nederlands halal rundvlees aan Frankrijk doorverkopen.
Wat ook meteen de waarde van certificaten en toezicht aantoont.

Gerelateerd
Certificaten, kwaliteit en toezicht
Valse nucleaire certificaten
Dat is maar een mening, metadata in documenten

woensdag 6 februari 2013

De dag dat de Kamer opnieuw over metadata sprak

Metadata
Uit het Tweede Kamerdebat van 31 januari over het Prorail-rapport:
Mevrouw Van Veldhoven (D66):
Nog even over die datum van 6 september en de datum van 31 augustus. 31 augustus is de datum die op de nota staat. Is dat de datum van ontvangst door de minister? Waar moet ik dan die datum van 6 september terugzien? Een opdracht van de minister om het naar de Kamer te sturen moet altijd een brief zijn. Er moet een handtekening onder staan. Er is gewoon een extra stuk van, dat gaat niet zo op basis van de nota naar de Kamer.
De voorzitter:
De minister kan hier antwoord op geven, begrijp ik.
Minister Schultz van Haegen-Maas Geesteranus:
Laat ik hier antwoord op geven, misschien neemt dat wat onduidelijkheid weg. We hebben dit ook in de tijdlijn gezet, want ik was al bang dat 31 augustus en 6 september weer tot nieuwe vragen zouden leiden. 31 augustus stuurt de inspectie het rapport naar de Directie Bestuursondersteuning. Het wordt daar op 31 augustus gestempeld. De Directie Bestuursondersteuning is onze directie die altijd groentjes doet op rapporten en zegt: u kunt tekenen of let op, dit heeft een samenhang met een ander dossier. Zij heeft dat naar mij gestuurd en ik heb dat op 4 september ontvangen. Dat staat ook in de tijdlijn. Ik heb het snel afgehandeld, want twee dagen later heb ik al mijn paraaf erop gezet. Zo gaat dat dus. Er wordt gevraagd of geadviseerd om de rapporten aan te bieden aan de Tweede Kamer. De aanbiedingsbrief met de beleidsreactie wordt opgesteld door DGB, onze interne dienst, dus ik heb daar een paraaf op gezet, omdat ik ook vind dat die rapporten naar de Tweede Kamer moeten.
Daarna is het vervolgens niet goed gegaan. Dat heeft de staatssecretaris ook uitvoerig betoogd. Er had natuurlijk uiteindelijk weer een brief naar de Kamer moeten komen, met de rapporten erbij. Dat is niet gebeurd. Toen is die hele discussie intern ontstaan. Ik hoop dat de Kamer ons niet kwalijk neemt dat wij niet continu controleren of wat wij uitgezet hebben, ook daadwerkelijk weer binnengekomen is.
En kijk, op het ministerie werkt een persvoorlichter die goed gearchiveerd is:
De heer Bashir (SP):
Wat mij betreft is de tijdlijn nog steeds niet duidelijk. De staatssecretaris zegt dus dat er contact is geweest met haar persambtenaar rond 30 november. Vervolgens heeft de persambtenaar rond 30 november aangegeven dat de Kamer heel snel op de hoogte zou worden gesteld van het bewuste rapport. Zelfs de persambtenaar van de minister, of beter gezegd de persvoorlichter van de minister, wist van het rapport af, maar de staatssecretaris dus niet. Klopt dat? Waarom is toen verteld dat de Kamer snel op de hoogte zou worden gesteld van het rapport terwijl wij pas gisteren het rapport hebben gekregen?
Staatssecretaris Mansveld:
De persvoorlichter over wie u het hebt, heeft haar archief per ongeluk, of niet per ongeluk, want ze is goed gearchiveerd … Zij heeft in haar aantekeningen kunnen terugvinden dat de journalist heeft gevraagd naar het rapport. Zij heeft toen gezegd dat het rapport eerst naar de Tweede Kamer zou worden verzonden. Zij heeft gevraagd of er een rapport was en wat er zou gebeuren met dat rapport. Toen werd haar bekendgemaakt dat het nog niet naar de Tweede Kamer was gezonden. Zij heeft gezegd dat het rapport eerst naar de Tweede Kamer moest worden verzonden. Dus niet als in "ik weet het, ik heb het" et cetera, nee, zij heeft tegen de journalist gezegd dat de informatie eerst naar de Tweede Kamer zou gaan en dan naar de journalist. Als gevolg van dat telefoongesprek heeft de Volkskrant op 3 december per mail een WOB-verzoek ingediend.
Gerelateerd
De dag dat de Kamer over metadata sprak

Plaatje: Metadata van xmacex

woensdag 30 januari 2013

Nog een keer: Beschrijf je foto's!

Afgelopen vrijdag zat ik met iemand in het café die tegen me zei: 
"Mijn man was helemaal in zijn element. Hij heeft van Sinterklaas een negatievenscanner gekregen en zit al de hele middag foto's te scannen."
Mijn eerste reactie was: 
"Zeg tegen hem dat hij die foto's ook even beschrijft, want IMG00001.jpg kan van alles zijn."

Toevallig las ik zaterdagochtend de "top 5 tips" om foto's te bewaren van Sally Jacobs - The Practical Archivist:

1. You can’t keep it all. Really, you can’t.
Maak een selectie van wat je wil bewaren. Je achterkleinkinderen zitten echt niet te wachten op al die vakantiefoto's. Kies er een paar uit en gooi de rest weg!

2. If it’s worth keeping, it’s worth treating right.
Probeer de temperatuur en vochtigheid van de ruimte waar je je afgedrukte foto's bewaard, zo stabiel mogelijk te houden. Kelder, zolder of garage zijn daarom waarschijnlijk niet de ideale opslagplekken.

3. The shortest pencil is better than the longest memory.
Beschrijf, beschrijf, beschrijf wat je bewaart! 
Of, om in archivaris-termen te blijven: 
"It's the metadata, stupid!" 


4. Digital is more fragile than you think.
In the world of digital, there is no equivalent of shoving your photos in a shoebox and stashing them in a closet. No, sir. If you want to bring your digital photos with you into the future, you will have to migrate them to new storage devices every 3-5 years. You’ll also have to save them in the newest version of the software that turns the 1′s and 0′s into your vacation snapshots. Quick solution? Scan your prints and print your digitals. Print out any image that you can’t stand to lose. Upload it to your favorite photo processing store. Make lots of copies of your favorite digitals and spread them around.
5. Rescue your photos from the Chemical Sandwich of Doooom!
Haal je (oude) foto's zo snel mogelijk uit die ouderwetse foto-albums! 
Je weet wel, die albums van die dikke kartonnen vellen met een soort lijm, waar je foto's tegenaan plakte en waar je daarna zo'n "plastic" vel overheen moest doen. 

Gerelateerd

maandag 24 december 2012

En toen. Over dementie, foto's en metadata


Terwijl in Nederland drie disc jockeys in een glazen huis zitten, om geld collecteren voor baby's in een ver buitenland, vond in Vlaanderen Music for life plaats. Tot vorig jaar was deze actie van Studio Brussel vergelijkbaar met Serious Request, maar toen had de zender al besloten dat 2011 de laatste glazen-huis-actie zou zijn. Dit jaar ging Music for life niet om geld voor problemen op afstand, maar om iets dat veel dichter bij  is: dementie.
Music for life 2012 wil het bewustzijn en de beeldvorming rond dementie in onze samenleving op de agenda zetten en daarvoor hebben we meer dan ooit je engagement nodig. Dat kan op drie manieren: registreer je Song For Life, draag de Badge For Life en bedank mensen met een badge.
Dementie is de grootste zorguitdaging voor de toekomst. De kans dat iemand dementie krijgt is op dit moment één op vijf. In Vlaanderen hebben meer dan 100 000 mensen dementie. In heel België zijn dat er 165 000. Drie keer meer mensen komen rechtstreeks of onrechtstreeks in contact met dementie. Niet alleen mantelzorgers, maar uiteraard ook familie en vrienden… En toch blijft de aandoening nog vaak onder de radar. Daar wil Music For Life 2012 iets aan doen.
Het ging dus niet om het grote geld, maar eerder om bewustwording en het kleine, menselijke gebaar. Mooi.
Het filmpje hierboven is het introductie-filmpje voor de app En toen, waar Romina Pompei de HKU-award mee won.
Naar aanleiding van haar eigen ervaringen binnen de zorg voor dementerenden, ontwikkelde Romina Pompei de iPad-applicatie ‘En Toen’. Hiermee kunnen verzorgenden samen met de dementerenden herinneringen ophalen, ook als familieleden er niet bij zijn. Via een aan de applicatie gekoppelde website kunnen familieleden foto’s opladen en informatie verschaffen. In de hal van het verzorgingstehuis kan een scherm met gezichtsherkenning opgehangen worden, zodat de dementerende in het voorbijgaan een foto uit zijn verleden te zien krijgt. 
 In de NRC van 21 december zei Pompei:

Het ophalen van herinneringen is bijvoorbeeld volgens Pompei een basisbehoefte die mensen met dementie delen. In een aantal verzorgingshuizen in Nederland wordt hier aandacht aan besteed. „Niet alleen omdat de bewoners dit prettig vinden, maar ook omdat ze er rustig van worden”, zegt Pompei. Maar een gewoon familiealbum garandeert geen goed gesprek. Pompei: „Personeel kent de verhalen achter de foto’s niet. Daardoor valt het gesprek gauw stil.” Daarom zijn de foto’s in Pompeis applicatie gerangschikt per thema én voorzien van achtergrondinformatie. Aan de hand hiervan kan personeel makkelijk een gesprek over vroeger voeren met bewoners.
En toen is geschikt voor traditionele verzorgingshuizen. Pompei: „Verzorgers hebben tien minuten persoonlijke aandacht per bewoner per week. Ik zorg ervoor dat er binnen tien minuten een goed persoonlijk gesprek gevoerd kan worden.”
De ontwerpster heeft ook iets bedacht waarvoor helemaal geen beroep op de tijd van de verzorgers hoeft worden gedaan: een beeldscherm voor in de hal, plek waar veel bewoners de dag spenderen. Hierop verschijnen beelden uit het verleden van diegene die langsloopt. Dankzij een webcam boven het scherm worden de bewoners herkend.
De kracht van de app ligt, maar dat is waarschijnlijk al duidelijk, natuurlijk in de metagegevens die de familieleden aan foto's toevoegen.

Pompei zoekt nog investeerders voor de ontwikkeling van de app. Dus...

maandag 29 oktober 2012

Dat is maar een mening: metadata in documenten

Een apart bericht op Joop.nl dit weekend.
Duizenden documenten van (semi-)overheidsorganisaties op internet blijken een Latijnse titel te hebben: At opinio facillime sumitur. 
Zoek zelf maar even en het resultaat zal vergelijkbaar zijn met het plaatje hierboven: documenten van de Inspectie voor de Gezondheidszorg, het ministerie van Sociale Zaken, het SBV-Z, Kansen op werk bij multiproblematiek en ga zo maar door.
Uit onderzoek van Joop.nl blijkt dat de oorzaak ligt bij Studio Dumbar.
Ontwerpers gebruiken meestal een standaardtekst voor opmaakvoorbeelden, de zogeheten 'Lorem ipsum', een soort Latijnse neptekst die een beeld geeft van hoe een tekst oogt. Studio Dunbar pakte het anders aan en gebruikte als voorbeeldtekst een deel uit de in 1511 gepubliceerde Lof der Zotheid van Erasmus. Daarin komt de frase at opinio facillime sumitur voor en die staat bijvoorbeeld op de instructie voor het samenstellen van rapporten als eerste zin. In sommige programma's wordt de eerste zin van een document automatisch als titel gekozen. Als vervolgens dat document weer als basis wordt gebruikt, gaat de titel ook mee.
Hoe werkt dat dan? Nou kijk.
Hierboven zie je de eigenschappen van de Word-versie van mijn scriptie over die rederijkers in Kaapstad. In het bestand zijn de titel en de auteur ervan als metadata opgenomen. Ik had er nog meer gegevens aan toe kunnen voegen, maar dat vond ik blijkbaar niet de moeite waard.
Als je nu naar de eigenschappen kijkt van bijvoorbeeld het Aanvraagformulier verklaring van vakbekwaamheid (doc) voor psychotherapeuten met buitenlandse diploma's om in het BIG-register te worden opgenomen, dan zie je dit:

En als je een word-bestand converteert naar pdf, dan gaan titel en auteur gewoon mee. Kijk maar (via ctrl-d in je pdf-reader): mevrouw Hes is ook auteur van de XIS Testtool (pdf) van het Ministerie van Volksgezondheid, Welzijn en Sport en het rapport 'Dat werkt' (pdf) van de Inspectie Werk en Inkomen.

(Opvallend is trouwens, dat mw. M. Hes als zoekterm geen in dit kader relevante zoekresultaten oplevert. Het veld "auteur" wordt blijkbaar niet geïndexeerd door Google.)

Waarom is dit zo erg, zul je misschien denken?
Tja, een van de mantra's van digitale archivering is dat je metagegevens automatisch in de archiefbestanden kunt opnemen en uit de bestanden kunt extraheren. Maar, op deze manier worden de overheidsarchieven natuurlijk niet echt heel toegankelijk en betrouwbaar.

Alles is maar een mening en mw. M. Hes is 's rijks auteur.

Gerelateerd
Rottende bitjes in de gemeenteraadsverslagen? #kvan11

vrijdag 17 augustus 2012

Nog een keer: metadata in foto's

Vorig jaar pleitte ik voor het opnemen van zo veel mogelijk metadata in de afbeeldingen die archieven online zetten. In een iets andere context kunnen die metadata ook ongewenste effecten hebben:
Ten women in the St. Louis area have filed lawsuits in federal court after discovering that an Internet search for their names returned "before and after" photos of their breast augmentation surgeries, theSt. Louis Post-Dispatch reports.

How the Photos Were Posted
Plastic and cosmetic surgeons often post photos online -- usually without showing faces -- so potential customers can view their work.
The plaintiffs in the lawsuits -- who were patients of plastic surgeon Michele Koo -- signed a waiver stating that Koo and other physicians could use their photos, videos and case histories in presentations, websites or other materials "for the purpose of informing the medical profession or the general public."
However, the waiver also stated, "Neither I, nor any member of my family, will be identified by name in any publication."

About the Lawsuits
The lawsuits allege that Koo was negligent because the photos on her website included information that could be linked to the plaintiffs' names. If patients' names are not removed from computerized picture file information, the names can be displayed with the images during a Web search.
 Oops...

Gerelateerd
Metadata in je plaatjes

Plaatje: Before and after?

donderdag 28 juni 2012

Metadata en de WOB

Begin deze week speelde ik even met de gedachte om weer eens een Wob-verzoek in te dienen. Deze keer zou het meer gaan om de metagegevens over archiefstukken dan om de inhoud van de documenten.
Aanleiding voor mijn voornemen was dit stukje van Folkert Jensma over de ontruiming van het tentenkamp in Ter Apel en dan met name de volgende passage:
Om het terrein vervolgens leeg te mogen houden, kwam er een nieuw konijn uit de hoed. De gemeente en het asielzoekerscentrum blijken een gebruikerscontract voor dit grasveldje te hebben gesloten. En wel al twee weken vóór de aankomst van de eerste demonstrant. Een wonderbaarlijk toeval. En, nog veel bijzonderder, in de overeenkomst belooft het asielzoekerscentrum de gemeente een boete te betalen van 500 euro per dag voor iedereen die op dat terrein komt. Nog voorkennis ook dus! In de 16 dagen van het tentenkamp heeft het centrum dus zogenaamd een schuld van 8.000 euro aan de gemeente Vlagtwedde opgebouwd. En ook betaald? Ik geloof er geen biet van. Die gebruiksovereenkomst is achteraf gesloten om dat terrein leeg te kunnen houden. De overheid heeft snel een belang gecreëerd. De rechter die daarna over de hekken om het weiland mocht oordelen, trapte erin.
De "valsheid in geschrifte" die Jensma hier suggereert zou waarschijnlijk blijken uit de metagegevens van de ondertekende contracten in de archieven van COA en de gemeente Vlagtwedde, was mijn redenering. En om dat te achterhalen zou ik dus niet alleen de contracten (en eventuele voorgaande correspondentie tussen gemeente en COA) moeten opvragen, maar ook de vastgelegde registratiegegevens: wanneer ontvangen, wanneer vastgelegd, wanneer ondertekend.
Uiteindelijk heb ik geen verzoek ingediend, omdat de hulplijn die ik had ingeschakeld al snel op de proppen kwam met de besluitenlijst van het college van B&W van 24 april 2012. Daaruit blijkt dat het college toen al - dus inderdaad ruim voordat de uitgeprocedeerde asielzoekers hun tentenkampje oprichtten - besloten had om de grond aan het COA in bruikleen te geven.
Het lijkt me onwaarschijnlijk dat de gemeente zo geraffineerd is, dat ze een besluitenlijst op deze manier vervalst. Maar het zou natuurlijk wel kunnen. Ik heb mij en de gemeente en het COA in ieder geval de moeite bespaard.

Wat ik wel nog interessant vind, is dat iemand anders me een verwijzing stuurde naar een Wob-zaak in Weesp, waar een ontslagen ambtenaar om de overlegging van metadata gevraagd heeft om aan te tonen dat er in zijn ontslagprocedure sprake was van een vervalste brief. De gemeente weigert de metagegevens echter te openbaren:
Dat zijn geen inhoudelijke beslissingen maar gegevens over de datum en de wijze waarop in de computer van de gemeente documenten zijn opgeslagen. Tiemens beschuldigt de gemeente met data te hebben gerommeld om hem te kunnen ontslaan wegens disfunctioneren. Hij wil ongeveer 200 metagegevens hebben uit de periode maart 2008 toen zijn ontslag zich aandiende.
De gemeente stelt dat Tiemens er een gewoonte van heeft gemaakt om allerlei beschuldigingen te uiten aan het adres van zijn voormalige werkgever. De metagegevens krijgt hij niet, zegt de gemeente die hierover bij de Raad van State in hoger beroep is gegaan tegen een uitspraak van de Amsterdamse rechtbank. ‘’We zijn niet verplicht die openbaar te maken’’. Het eind zou trouwens zoek zijn want dan kan iedere burger reeksen metagegevens gaan opvragen, aldus de gemeente.
De zaak is blijkbaar in april in de Raad van State behandeld, maar ik heb de uitspraak helaas nog niet kunnen vinden (net zomin als het vonnis van de Amsterdamse rechtbank trouwens).
Ik ben wel heel benieuwd naar de opvattingen van de Raad over de status van metagegevens...

Gerelateerd
De dag dat de Kamer over metadata debatteerde

Plaatje: LP van Jah Wobble. Het volledige album kun je hier via Spotify beluisteren.

donderdag 19 april 2012

Beschrijf je foto's


Since digital photography is instantaneous, we take and collect an enormous amount of photos. But as our personal collections grow, it becomes more and more difficult to find specific photos. If your digital photos are difficult for you to manage, how will your loved ones be able to make sense of them in the future? This video explains how you can add descriptions and tags to your digital photo files to make it easier to organize and search your collection.
Gerelateerd
Metadata in je plaatjes
Embedded metadata manifesto
Het verhaal van een fotoalbum

vrijdag 13 april 2012

Ik lees, ik lees wat jij niet leest (2)

Gisteren beschreef ik dat analoge teksten over het algemeen stabiel zijn: ze beginnen linksboven en eindigen na een lineair proces rechtsonder. David Smits zegt daarover:
‘Een auteur van een boek weet precies wat een lezer gelezen heeft wanneer hij bij een bepaalde pagina is [...]
Bij een website is dat anders. Het is moeilijk om te zien waar de lezer vandaan komt en welke pagina de gebruiker vooraf heeft bekeken. En dat is wel relevant voor dat wat je als auteur op de volgende pagina wil schrijven. Mijn systeem maakt dat op een generieke manier mogelijk voor een auteur. Hij ontwerpt niet alleen de inhoud van zijn pagina's, maar ontwerpt ook een domeinmodel. Daarbij koppelt hij de onderwerpen en de relaties tussen de onderwerpen.'
De uiterste consequentie heeft Smits bij zijn proefschrift toegepast: de tekst bestaat alleen online en is niet alleen een beschrijving van de door hem uitgedachte techniek, maar tegelijk ook de demonstratie ervan.
‘Ik vraag de lezer van mijn proefschrift bijvoorbeeld eerst naar zijn belangstelling. Ben je als leek geïnteresseerd in het onderwerp of zit je als expert in het vakgebied? In dat laatste geval hoef ik je niet lastig te vallen met allerlei hints of verhinderen dat je gedetailleerde stukken moeilijk kunt bekijken. Elke muisklik bevestigt dat de lezer iets heeft gelezen en belangstelling heeft in een nieuw onderwerp. Zo leert het systeem van de gebruiker, past het zich aan en gaat andere pagina's aanbevelen. In principe zou een lezer er niets van moeten merken. In de ideale omstandigheid zul je als gebruiker alleen die dingen lezen waar je naar op zoek was en die je kunt begrijpen.'
Dit had niet alleen tot gevolg dat de promotiecommissie niet met papier, maar met tablets aan tafel zal, maar ook - en daar gaat het mij om - dat ieder lid van de commissie een eigen versie van het proefschrift heeft gelezen! Het proefschrift bestaat niet.
(Op dit moment is dat letterlijk zo. Het proefschrift zou hier moeten staan, maar ik krijg al twee dagen een "Bad Gateway" na de redirect. Jammer, jammer, jammer...)

Ik heb de indruk dat die adaptieve webserver nogal wat gevolgen kan hebben voor de archivering van documenten.

In de voorbeelden van gisteren liet ik al zien dat er al jaren op papier en digitaal minder stabiele teksten zijn. Maar die zijn in wezen maar "spielerei". De ga-je-naar-links-of-ga-je-vechten-boekjes zijn dat letterlijk en de andere voorbeelden zijn 'maar' literatuur. Hierbij was het doel van in ieder geval Walter van den Broeck juist om te laten zien dat de wereld niet zo eenduidig en stabiel is, als wij vaak denken.
Maar bij archieven komen we op een ander vlak. Archieven documenteren gebeurtenissen en zijn "bewijs" van die gebeurtenissen. Dit betekent niet dat archiefstukken "waar" of "neutraal" zijn, maar wel dat het op basis van de archiefstukken mogelijk is om een gebeurtenis te reconstrueren. Vaak gaat het hierbij om de vraag: Wie wist wat op welk moment?
Het antwoord op die vraag hangt af van metadata, zoals onder andere bleek uit de discussie over metadata in de Tweede Kamer en Oswald and the CIA. Natuurlijk, een paraaf of een stempel op een papieren document betekent niet onomstotelijk dat iemand iets ook echt gelezen heeft, of zoals De Grave het zij: De minister is wel geïnformeerd, maar hij was niet op de hoogte.
En nu komt daar dus nog een element bij. Want de minister kan geïnformeerd zijn, hij kan het stuk zelfs gelezen hebben en toch niet op de hoogte zijn.
De slimme software van Smits ging er misschien wel van uit dat de minister allerlei zaken al wist en hij dus allerlei informatie over kon slaan. (Of, maar dat is gemeen, misschien vond de software dat sommige passages voor de minister te ingewikkeld waren en kreeg hij ze daarom niet gepresenteerd.)
In principe zou een lezer er niets van moeten merken, nee, maar je zou het wel moeten kunnen weten.

Wat kan dit betekenen voor archieven?
Volgen mij past hier het citaat van Bearman van gisteren op:
If we wished to preserve the game as an archive, the record of my actual ‘moves’ and their consequences would need to be preserved in a way that was directly tied to the actual game I played; these would be represented independently of the technology in which I played the game.
Op de een of andere manier zal dus het pad dat door het document gevolgd is, duurzaam vastgelegd en raadpleegbaar moeten zijn.
Zou Smits daaraan gedacht hebben? Ik denk dat ik hem maar eens een e-mail stuur met deze vragen.

Wat kan het nog betekenen voor archieven?
Een heel ander aspect van deze adaptieve systemen waar archieven hun voordeel mee zouden kunnen doen, is ze gebruiken bij het maken van (digitale) archieftoegangen. De TU/e gebruikt het systeem van Smits al als GALE (Generic Adaptive Learning Environment):
Gebruikers van GALE beseffen nog nauwelijks dat ze aan de hand worden genomen op basis van hun eigen gedrag. Want GALE onthoudt alle gegevens van een lezer. Iedere muisklik van de gebruiker en elke pagina die hij bezoekt worden in het geheugen van een webserver opgeslagen. Op basis van dat 'verleden' komt telkens nieuwe informatie beschikbaar. Meestal in de vorm van aanbevelingen via gekleurde verwijzingen. Maar het kan ook voorkomen dat de webserver stukken informatie (nog) niet toegankelijk maakt omdat de gebruiker wordt geacht zich eerst te verdiepen in andere materie.
Misschien kun je als archiefdienst op deze manier de bezoekers van de digitale studiezaal allemaal individueel bij de hand nemen en helpen of sturen waar dit nodig is. Interessant materie om nog eens wat langer over na te denken.
Misschien moeten we Smits gewoon eens uitnodigen voor een korte speel-en-deelsessie...

Gerelateerd
De dag dat de Kamer over metadata debatteerde
Gelezen: John Newman - Oswald and the CIA
Ik lees, ik lees wat jij niet leest (1)

T-shirt: Heren T-shirt SSSST Ik lees

dinsdag 3 april 2012

Waarom full-text-search niet zaligmakend is

Ik had het al een tijdje niet meer gehoord of gelezen, maar deze week was het weer raak: "Waarom hebben we metadata en ordening nodig, als we slimme zoekmachines hebben?"
Nou hierom... Uit een onderzoek van Blair & Maron bleek enkele jaren geleden dat advocaten met behulp van een zoekmachine uit een collectie van 40.000 documenten, slechts 20% van de relevante documenten vonden. Voor het gemak citeer ik dat onderzoek hier tweedehands (pdf, p.24). Het gaat om een onderzoek naar een ongeluk op een metrostation.
In the legal case in question, one concern of the lawyers was an accident that had occurred and was an object of litigation. The lawyers wanted all the reports, correspondence, memoranda, and minutes of meetings that discussed this accident. Formal queries were constructed that contained the word ‘accident’ along with the names of the [city] where it occurred. In the search for unretrieved relevant documents, the experimenters later found that the accident was not always referred to as an ‘accident,’ but as an ‘event,’ ‘incident,’ ‘situation,’ ‘problem,’ or ‘difficulty,’ often without mentioning the relevant proper name – the name of the city in which it occurred. The manner in which an individual referred to the accident was frequently dependent on his or her point of view. Those who discussed the event in a critical or accusatory way referred to it quite directly – as an ‘accident.’ Those who were personally involved in the event, and perhaps culpable, tended to refer to it euphemistically as, inter alia, an ‘unfortunate situation,’ or a ‘difficulty.’ Sometimes the accident was referred to obliquely as ‘the subject of your last letter,’ ‘what happened last week was...,’ or, as in the opening lines of the minutes of a meeting discussing the issue, ‘Mr. A: We all know why we’re here....’ [the words ‘accident’ and the name of the city were not used at any time in the meeting either]. Sometimes relevant documents dealt with the problem by mentioning only the technical aspects of why the accident occurred, but neither the accident itself no[r] the people or place involved. Finally, much relevant information discussed [contributing factors in] the situation prior to the accident and, naturally, contained no reference to the accident itself.
En dan blijven typefouten of slechte OCR nog buiten beschouwing!

Gerelateerd
Hoeveel is veel


Plaatje: The Droids we're googling for van Stéfan

donderdag 15 december 2011

Embedded Metadata Manifesto

Even terugkomen op een bericht van een paar weken geleden...
"Embedded Metadata Manifesto":
  1. Metadata is essential to describe, identify and track digital media and should be applied to all media items which are exchanged as files or by other means such as data streams.
  2. Media file formats should provide the means to embed metadata in ways that can be read and handled by different software systems.
  3. Metadata fields, their semantics (including labels on the user interface) and values, should not be changed across metadata formats.
  4. Copyright management information metadata must never be removed from the files.
  5. Other metadata should only be removed from files by agreement with their copyright holders.
Lees meer op http://www.embeddedmetadata.org en sla dan vooral de use cases niet over.

Het manifest is trouwens een initiatief van verschillende organisaties onder andereWAN-ifra, Pyramide Europe, CEPIC en BVPA

Gerelateerd
Metadata in je plaatjes

dinsdag 15 november 2011

Metadata in je plaatjes

Naar aanleiding van een tweet van Edwin las ik dit weekend de discussie op Archief 2.0 over watermerken in afbeeldingen nog eens helemaal. Een paar dingen vallen me nu op.
Een van de argumenten die gebruikt wordt voor het plaatsen van watermerken, is dat daarmee de metadata van de afbeelding te achterhalen zijn. Want:
Wij, archivarissen, besteden veel tijd en geld aan het beschrijven van het beeldmateriaal en vinden het daarom belangrijk dat de herkomst gewaarborgd blijft.
Bob heeft dit argument al grotendeels onderuit gehaald (want een watermerk bevat nauwelijks relevante metadata), maar ik zit ook nog even met de betekenis van het citaat hierboven.
Ja, archivarissen besteden veel tijd en geld (als het goed is bijna al hun tijd en geld) aan het beschrijven van archiefstukken. Maar die beschrijvingen gelden vooral voor de archiefstukken die zij in beheer hebben. Ik vraag me af of archivarissen ook verantwoordelijk zijn voor de metadata van de kopieën van archiefstukken die zij verstrekken aan derden. Naar analogie met een opmerking van Christian: als we een kopietje van een briefje uit een dossier maken, voegen we daar toch ook niet de hele beschrijving uit de inventaris aan toe?

Embedden
Iets anders wat opvalt, is dat de hoop gevestigd wordt op embedden, om op die manier de "link" naar de beheerder te bewaren. Hierbij gaat het om het embedden van het plaatje vanaf de servers van de archiefdienst. Bijvoorbeeld zoals ik eerder een plaatje vanuit Gahetna.nl in een blog over geweren geplaatst heb.
(Overigens en terzijde: het lijkt dus alsof je de foto's vanuit Gahetna.nl niet kunt downloaden, maar in de embed-code staat wel een rechtstreekse url naar het plaatje, waardoor dat bestand dus wel apart opgeslagen kan worden.)

Maar er is natuurlijk nog een andere manier van embedden...
De foto's hierboven en hieronder zijn afkomstig van het BHIC. Je kunt deze foto niet meteen embedden, maar wel downloaden. De foto hierboven is de versie zoals ik die gedownload heb, de foto hieronder heb ik ietwat gemanipuleerd.
Dat zie je niet aan de foto, maar aan de eigenschappen van het bestand. Om dit te zien zijn een paar extra stappen nodig...
Download alletwee de foto's en geef ze een afwijkende naam, open ze in bijvoorbeeld Picasa en bekijk de "Eigenschappen" (alt+enter). Bij de bovenste foto zie je dit:

Maar, bij de onderste foto zie je dit:

In de onderste zeven velden zie je dezelfde beschrijvingsgegevens als bij het BHIC op de website. Ik heb die velden op zondagavond met behulp van PhotoMe een beetje in het wilde weg ingevuld (ik heb ook nog ergens een url toegevoegd, maar die zie ik nu nergens meer terug), dus allerlei gegevens staan er dubbel in. Maar, met wat meer overleg moet het lukken om hier logische afspraken over te maken.

Dus, als we die metadata zo relevant vinden en als we het belangrijk vinden dat duidelijk blijft wat de bron van het plaatje is, is dit embedden dan niet een veel elegantere manier dan een lelijk watermerk?

Overigens, deze methode hoeft natuurlijk niet beperkt te blijven tot foto's, maar kan toegepast worden bij ieder digitaal archiefstuk dat beschikbaar gesteld wordt.

Bronnen en inspiratie
Het bovenstaande heb ik niet zelf verzonnen en is ook helemaal niet nieuw.
Ik moest er aan denken door een blog van de Library of Congres over het toevoegen van beschrijvingen aan foto's. Daarnaast eist een van de Brabantse archiefdiensten iets vergelijkbaar bij de vervanging van bouwvergunningen. Daar moeten in de "scanbestanden" ook allerlei context-data opgenomen worden. (Ik heb niet kunnen achterhalen of ze dit ook al doen bij de foto's uit hun beeldbank.)
En tenslotte is dit ook ongeveer wat David Bearman meer dan vijftien jaar geleden zei, toen hij het had over "metadata encapsulated objects" en de eis dat data-objecten die als records dienen "self documenting" zouden moeten zijn.

vrijdag 7 oktober 2011

De dag dat de Kamer over metadata debatteerde

Gisteren nam Frans Scholten "feestelijk afscheid" als provinciaal archiefinspecteur van Gelderland. Daarbij hield Max Beekhuis van Doxis een presentatie over de "Nulmeting Archieven 2011"
De nulmeting geeft inzicht in de stand van zaken rondom de archiefzorg en [het] -beheer in de provincie.
Het ging dus vooral over interbestuurlijk toezicht, vertrouwen en KPI's. Allemaal heel interessant hoor, maar het meest interessante van de presentatie van Max was toch wel het filmpje waar hij mee begon en dat hierboven staat. (Met dank aan Max, dat ik het op Youtube kon zetten...)

Het is een passage uit een Tweede Kamer-debat die enkel over metadata gaat!
De kamer praat over het Srebrenica-rapport van het NIOD, nadat Wim Kok naar aanleiding daarvan het ontslag van het kabinet al eerder heeft ingediend bij de koningin.
In deze passage gaat het om twee schijnbaar tegenstrijdige "feiten":

1. De minister was WEL geïnformeerd.
2. De minister was NIET op de hoogte.

Zoals je De Grave, die ten tijde van het debat minister van Defensie was, hierboven hoort zeggen en hier kunt nalezen:
Ik denk dat het allebei waar is. De minister werd geïnformeerd, want er is een aantekening naar hem gestuurd. Ik heb geen aanleiding om het tegendeel aan te nemen, omdat zowel de staatssecretaris van Defensie, als de chef defensiestaf, als de plaatsvervangende chef defensiestaf die aantekening hebben ontvangen; dat bleek ook uit de parafen. Tegelijk heb ik in het archief niet de aantekening aangetroffen met de paraaf van de toenmalige minister van Defensie Voorhoeve.
Dit debatje is vooral interessant, omdat het weer aantoont dat het "parafencircuit" dat voorheen op analoge documenten zelf werd bijgehouden, een functie heeft. Ik citeer voor het gemak Eric Burger maar weer, die hier eerder dit jaar het volgende over schreef:
It is the metadata, stupid!
Als we deze prachtige en rijke bronnen vertalen naar de archiveringssystemen van heden ten dage, dan zouden we toch zeker de informatie die verbonden is met de routering van een zaak of document, zorgvuldig bij het dossier willen bewaren. Dat die informatie tegenwoordig niet op het document aangebracht of aan het document is gehecht als parafenvel, doet niet ter zake. Data van workflow en transactie èn metadata over onder meer versie, behandelaar en archivering maken nog steeds deel uit van het te archiveren object. Dat de gegevens tegenwoordig in gescheiden formaten en mogelijk in gescheiden systemen zijn ondergebracht is daarbij geen argument om samen te behouden wat samen inzicht geeft in een nabije en verre toekomst.
Hou bovenstaand debat dus in je achterhoofd als het gaat over het belang van behandelroutes en parafen. Die metadata kunnen cruciaal zijn en moeten "onlosmakelijk" verbonden blijven met en even lang bewaard worden als de documenten waar het om gaat.


Gerelateerd
Gelezen: John Newman - Oswald and the CIA
Een nieuw avontuur van DigiMan
Een bouwvergunning vervangen
150 dozen met e-mails?
RMA, SOA en MoReq2010
Gebeurtenissen in MoReq2010
Interne e-mail is geen archief

donderdag 23 juni 2011

Het verhaal van een fotoalbum


This album, which surfaced recently in New York, shows the Eastern Front and Bavaria.
Tony Cenicola/The New York Times
Eergisteren verscheen op het "fotografie-blog" van de New York Times een bericht over een mysterieus album met foto's uit de Tweede Wereldoorlog. In "de pers" ging de meeste aandacht hierbij uit naar de snelheid waarmee de lezers van het weblog de identiteit van de tot dan toe onbekende fotograaf hebben achterhaald.
Vanuit archief-oogpunt is dat interessant, want dit toont aan dat je op die manier met een beetje geluk en verstandig gebruik van weblog, social media en een krant (onderschat niet dat het hier om de New York Times gaat) delen van je collectie kunt interpreteren.
Wat ik echter nog interessanter vindt, is het onderstaande citaat van professor Taylor:
Professor Taylor called attention to the fact that the pictures were printed on two different types of paper: Agfa Brovira and Leonar. He invited us to consider the possibility that the pictures were culled from a number of sources, not just the PK photographer’s own work; that the album may have been compiled and pasted up by his companion or someone else with little interest in faithful narrative cohesion or chronological order.
Beware of inference, in other words. Professor Taylor has learned this lesson from dealing with other personal photo albums. “We think we can get so close to these people, but we can’t,” Professor Taylor said. “They are not the same people we are. We come up with assumptions — and the material always undermines what we think.”
En L'Archivista voegt daar een digitale equivalent aan toe:
And if you believe that the digital age will be devoid of archival mystery, let me assure you that, thanks to missing and incorrect metadata, corrupted files, ill-advised migrations and conversions, murky transfers of custody, and a host of other problems, we are on the cusp of a most mysterious age. Earlier today, I was looking through a series of born-digital photographs in an effort to find exhibit-worthy images and started scrutinizing their internal timestamps, which are visible only when the images are displayed at 10 times their original size and which aren't included in the metadata that accompanied these images. I quickly realized that when sorted by file name, these images, which were taken seconds apart and run through a variety of systems before they were transferred to my repository, are actually in reverse chronological order -- something that escaped me when I initially processed these files several years ago. This isn't the first digital mystery I've encountered, and it most certainly won't be the last.
Soms moet je twee keer kijken om te zien wat er echt staat...

donderdag 4 november 2010

Zoeken naar Boeken met Google

Bij het zoeken naar websites maakt Google gebruik van het grotendeels geheime algoritme PageRank. In de kern gaat dit uit van de relaties tussen webpagina's. Kort gezegd, als websites waar veel naar gelinkt wordt, naar een bepaalde pagina verwijzen, dan is die laatste pagina redelijk belangrijk. Als alleen pagina's waar amper naar verwezen wordt naar een pagina verwijzen, dan komt die laatste minder hoog in de zoekresultaten te staan. Maar er is meer en de finesses daarvan worden natuurlijk niet bekend gemaakt.
Bij boeken zou een dergelijk systeem van verwijzingen alleen werken als het om wetenschappelijke publicaties met voetnoten gaat. Je kunt dan meten wie hoe vaak naar welke publicatie verwijst en daarmee de waarde van een publicatie bepalen. Maar lang niet alle boeken in Google Books hebben voetnoten...
In The Atlantic wordt een tipje gelicht van de sluier die over zoeken naar boeken ligt.
Now, the book search algorithm takes into account more than 100 "signals," individual data categories that Google statistically integrates to rank your results. When you search for a book, Google Books doesn't just look at word frequency or how closely your query matches the title of a book. They now take into account web search frequency, recent book sales, the number of libraries that hold the title, and how often an older book has been reprinted.

So, if you search "Help" now, you get a big blow-up of Kathryn Stockett's 2009 book, not one of the dozens of other books with the same title. Or if you search "dragon tattoo," you get Stieg Larsson's blockbuster, not the 2008 children's book actually called Dragon Tattoo.
 Vooral dat laatste zinnetje vind ik apart...

Gerelateerd
Metadata, digitalisering en Google Books
Is Google goed voor Geschiedenis?

Plaatje: AlaskanLibrarian