Als je actief bent op internet, ben je vast wel eens een figuurtje als hiernaast tegen gekomen. Soms krijg je ook kleine rekensommetjes aangeboden en dat alles dient ervoor om te onderscheiden of degene die een formulier invult een mens is of een computer. Want internet wordt druk bezocht door mensen maar ook heel veel computers schuimen het internet af op zoek naar invulvelden waar ze spam kunnen achterlaten.
Vandaar dat er steeds vaker een drempel wordt opgeworpen. Immers een computer heeft grote moeilijkheden om de letters en cijfers hiernaast te herkennen. Een “eenvoudige” spamcomputer kan het zeker niet. De naam hiervoor is Een captcha (een afkorting van “completely automated public [[wikipedia:Turingtest]] to tell computers and humans apart”) Oftewel een openbare test om computers van mensen te kunnen onderscheiden.
Maar bij veel van deze controle mechanismen is er een erg leuke bijkomstigheid. Want heel vaak wordt er een stukje tekst aangeboden wat niet door computers kon worden herkend. Example of OCR errors
In het bovenstaande voorbeeld zijn mensen wel in staat het goed te herkennen wat computers niet goed lukt. Dus naast het weren van spamcomputers levert een dergelijke controle ook een stukje tekstherkenning op. Inmiddels is er voor 10-duizenden mensuren aan tekstherkenning door mensen gedaan zonder dat ze er erg in hebben. Een beetje onder het mom als er dan toch energie gestopt moet worden in het weren van booswichten dan is het handig gelijk deze energie ook te gebuiken voor een nobeler doel.

Op dit moment wordt Captcha gebruikt om oude New York Times te digitaliseren. Iets wat ik hoop dat binnenkort ook met het Dagblad gaat gebeuren. De Leeuwarder Courant heeft al een poosje de oude kranten online staan. Prachtig om hierin te zoeken. Nu de oude edities van het Nieuwsblad van het Noorden nog!!

Archief