donderdag 8 augustus 2013

Het kopieerapparaat verandert cijfertjes

Kijk, nu wordt het interessant...
Een van de discussiepunten bij digitalisering (waarmee ik het scannen van papieren documenten bedoel) is het gebruik van compressie om de bestandsomvang van de reproducties te beperken. Zolang je geen cruciale informatie verliest en "met mate" comprimeert, vond ik altijd dat compressie moest kunnen.
Maar comprimeren kan ook zeer ongewenste, maar moeilijk te constateren gevolgen hebben. Eergisteren beschreef David Kriesel namelijk dat Xerox-kopieerapparaten geen identieke kopieën maken, maar cijfertjes veranderen.
In diesem Artikel dokumentiere ich ausführlich, wie weit verbreitete Firmen-Scankopierer der Firma Xerox bei gescannten Seiten Ziffern, Zahlenreihen oder andere Bildfragmente unvorhersehbar vertauschen/ersetzen – und zwar nicht aufgrund irgendwelcher Texterkennung, sondern richtig hart in den Pixeldaten. Das Ergebnis sind Dokumente, die falsch sind, aber häufig so subtil, dass man es auf den ersten Blick nicht bemerkt. So etwas kann extrem gefährlich sein oder sogar Menschenleben kosten. Der Phantasie sind keine Grenzen gesetzt:
  1. Abrechnungen, die plötzlich nicht mehr stimmen.
  2. Baupläne mit vertauschten Quadratmeterzahlen.
  3. Falsche Ingenieurspläne, die wiederum Menschenleben gefährden würden (stellt euch vor, eine Autobahnbrücke hat in der Statik einen Zahlendreher verbaut).
  4. Arzneimitteldosierungen mit Zahlendrehern, eigentlich noch schlimmer.
Hieronder staan twee tabellen uit het artikel van Kriesel. Links het  "origineel", rechts de "foute" kopie.
"Origineel" Kopie

Hoe kan dit nou gebeuren? Nou, eigenlijk heel simpel.
Hoogstwaarschijnlijk wordt in de machines gebruik gemaakt van JBIG2-compressie. Dit algoritme deelt - heel simpel gezegd - het plaatje op in segmenten en bekijkt dan of een segment overeenkomt met een al eerder opgeslagen segment. Als dat het geval is, dan wordt een verwijzing naar het eerste segment vastgelegd en het "dubbele" segment verwijdert. Of, zoals Wikipedia het omschrijft:
After performing image segmentation and match searching, and if a match exists, we code an index of the corresponding representative bitmap in the dictionary and the position of the character on the page. The position is usually relative to another previously coded character. If a match is not found, the segmented pixel block is coded directly and added into the dictionary. Typical procedures of pattern matching and substitution algorithm are displayed in the left block diagram of the figure below. Although the method of PM&S can achieve outstanding compression, substitution errors could be made during the process if the image resolution is low.
En op die manier verschijnen dus in het bovenstaande voorbeeld achten waar er zessen hadden moeten staan.

Dus, DIV-ers en repro-verantwoordelijken:

Wilt u allemaal even verifiëren of uw scanners en kopieerapparaten ook gebruik maken van JBIG2-compressie? 

Je weet maar nooit...

Gerelateerd
Wat doen we met de vervanging
Substitutie, magda?
Kleur, resolutie en compressie

Plaatje: Xerography_24This photo of Chester F. Carlson with his model of a xerographic office copier (courtesy Xerox) is part of the slideshow on the re-make of the first xerographic photocopy by Klaus Urbons in the Office Museum, Muelheim an der Ruhr, Germany

Geen opmerkingen:

Een reactie plaatsen