Inhalt:
.CAPTCHAs im Spannungsfeld zwischen Accessibility und Sicherheit
CAPTCHAs im Spannungsfeld zwischen Accessibility und Sicherheit
Peter Purgathofer forscht und lehrt am Institut für Gestaltungs- und Wirkungsforschung (TU Wien)
Moderatorin, Eva Papst: Es bleibt so spannend, wie es bisher war. Ich darf Ihnen den nächsten Referenten ankündigen. Er kommt aus Wien: Es ist Dr. Peter Purgathofer vom Institut für Gestaltungs- und Wirkungsforschung der Technischen Universität Wien, Bereich User Interface Design - ich muss das ablesen, ich konnte mir das leider nicht mehr merken - und besonders interessiert er sich, hat er mir geschrieben, für das Wechselspiel zwischen gesellschaftlicher und technologischer Weiterentwicklung. Und genau in diese Richtung geht auch das folgende, spannende Thema, wo es um barrierefreies Interface Design geht, und zwar CAPTCHAs im Spannungsfeld zwischen Accessibility und Sicherheit.
Peter Purgathofer: Grüß Gott! Ich bedanke mich für die Einladung und Gelegenheit hier zu sprechen. Ich bin ein wenig aufgeregt, ich glaube ich hatte noch nie ein so anspruchsvolles Publikum.
Man findet sehr wenig, wenn man nach Accessibility von Präsentationsunterlagen sucht, es gibt sehr wenig, das man dazu findet, was nicht generell für gute Präsentationsunterlagen gilt. Ich werde mich bemühen. Ich habe versucht, verschiedene Dinge abzuwechseln. Also sagen wir, ich habe mich bemüht, mehr werde ich nicht schaffen.
Der Titel ist lang: CAPTCHAs im Spannungsfeld zwischen Accessibility und Sicherheit. Ich kann meine Vorstellung eigentlich auch überspringen. Mein Name ist Peter Purgathofer, ich arbeite an der Fakultät für Informatik. Das Institut beschäftigt sich sehr stark mit der Gestaltung von Technologien, und dort spielt das Wechselspiel zwischen Gesellschaft und Technologie immer eine wesentliche Rolle.
So! Ein bisschen viele sich öffnende Türen, eigentlich war die nur für diesen Übergang gedacht. Der Vortrag hat eigentlich den Titel »Inaccessibility?, hier dargestellt als eine in CAPTCHA verzerrte Form. Und ich möchte das Thema der CAPTCHAs andiskutieren, bevor ich konkret auf das Design eingehe.
Das Problem und der Grund, warum CAPTCHAs existieren, geht zurück auf das Problem von Software, die Webseiten verwendet, obwohl sie das nicht soll. Das ist eine Software, wo man Kommentare hinterlassen kann und um zu verhindern, dass hier Software Kommentare postet und nur Menschen Kommentare posten, gibt es dieses CAPTCHA.
Hier ein Bild in verzerrter Schrift - kann man ein bisschen größer machen. »Hinterlassen Sie Ihren Kommentar« und hier gibt es also dieses verzerrte Ding. Und da muss man dann raten, was das jetzt heißt, das unten hinschreiben, und wenn man das schafft, dann ist das erlaubt. Der Grund, warum Software auf Seiten Kommentare posten will oder sich als Benutzer registrieren lassen will, also die zwei großen Anwendungsfälle für CAPTCHAs, liegt darin, dass sie dann Spam posten können.
Sie wissen, Spam geht zurück auf Hormel Dosenfleisch und einen Sketch von Monthy Python. Spam an sich ist eine unangenehme Geschichte, sie wissen, lästig, macht unsere Inbox voll, macht unsere Kommentare voll - es ist aber ein schwerwiegenderes Problem, denn in Spam verbirgt sich oft Malware: Viren, Würmer, trojanische Pferde, ähnliche Dinge, die unseren Computer angreifen. Und deshalb ist das ein sehr guter Grund, sich mit Spam näher auseinander zu setzen als sich nur drüber zu ärgern.
Warum, abgesehen von dem Positionieren von Malware, versucht man, Kommentare in Spams zu posten? Der wesentliche Grund dafür ist, dass, wenn man es schafft, einen Link auf eine Seite zu positionieren, die ein gutes Ranking hat, die gut dasteht im Internet, dann passiert Folgendes:
Man rutscht im Google-Ranking nach oben. Das heißt, wenn ich es schaffe viele Links auf meine Seite auf Seiten zu plazieren, die ein gutes Ranking haben, dann steigt auch mein Ranking und ich rutsche in Google nach oben. Wenn man wie hier - natürlich nur vorgespielt - nach Viagra sucht, dann findet man hier oben die Seiten, die es besonders gut verstehen, über Spam ihren Link nach oben zu pushen, denn niemand verlinkt Viagra-Seiten.
So, wenn wir jetzt wissen könnten, als das Web-Service, das hier angegriffen wird, ob der, der postet, ein Mensch oder eine Maschine ist - Paradebeispiel Arnold Schwarzenegger als Terminator, halb Mensch, halb Maschine quasi - wenn wir das prüfen könnten, dann wären wir dieses Problem los.
Und das ist genau das, was CAPTCHA versucht. CAPTCHA ist ein Akronym für Completely Automated Public Turing Test To Tell Computers And Humans Apart. Sie wissen, Informatiker haben diese Schwäche für Akronyme, aus vielen Wörtern den Anfangsbuchstaben seltsame Bedeutungen, seltsame Kunstwörter zusammen zu bauen. Also es soll ein Weg sein, um diese Prüfung durchzuführen, um herauszufinden, ob ein Nutzer einer Website ein Computer oder ein Mensch ist.
Und grob vereinfacht, versuchen CAPTCHAs das so zu machen, dass sie den Beutzer dieser Website vor ein Problem stellen, das hoffentlich nur ein Mensch lösen kann und ein Computer nicht. Vielleicht zahlt es sich kurz aus, weil hier »Turing Test« steht, ganz kurz drauf einzugehen: Was ist denn der Turing Test?
Der Turing Test ist ein Gedankenexperiment von Alan Turing. Alan Turing war quasi der theoretische Erfinder des Computers, der Erfinder des Algorithmuses, der Erfinder von vielen Dingen, die die theoretische Basis unserer heutigen Informationsgesellschaft ausmachen. Und er hat irgendwie vorhergesehen, verstanden vielleicht besser, dass Computer sehr schnell irgendwo hin kommen werden, wo wir uns fragen: Ist das jetzt intelligent? Ist das jetzt bewusst? Oder ist das eine Maschine oder ist das ein Mensch?
Ganz so schnell ist das nicht gegangen, wie er sich das vorgestellt hat, aber er hat sich einen Test überlegt und der schaut so aus: Wir setzen einen Menschen an ein Terminal, verbinden dieses Terminal mit einer Schnur durch eine Mauer, durch eine Wand, und auf der anderen Seite sitzt ebenfalls ein Mensch an einem Terminal - oder eben nicht. Und die Frage ist: Kann der Mensch, der auf der drüberen Seite der Mauer sitzt, durch Komminkation über die Tastatur feststellen, ob dieser andere ein Mensch oder eine Maschine ist? Und so lange er das feststellen kann, ist der Turing Test nicht bestanden. Wenn Maschinen elektronisch so kommunizieren können, dass wir sie in diesem Turing Test nicht mehr vom Menschen unterscheiden können, dann, so sagt Alan Turing, ist der Computer intelligent geworden.
Also: Das Akronym Completely Automated Public Turing Test To Tell Computers And Humans Apart. Jetzt ist es sehr nett, dass der Turing Test hier erwähnt wird, aber eigentlich ist das kein Turing Test, denn auf der linken Seite der Mauer sitzt kein Mensch. Auf der linken Seite der Mauer sitzt eine Maschine. Eine Maschine versucht festzustellen, ob auf der rechten Seite der Mauer ein Mensch oder eine Maschine sitzt. Eigentlich ist das kein Turing Test. Es ist ein verkehrter Turing Test, könnte man sagen.
So, ich möchte jetzt ein paar Beispiele für CAPTCHAs bringen, wie man sie in der »freien Wildbahn« gerne antrifft. Das ist ein sehr gutes CAPTCHA, zumindest nach den Aussagen von Hackern, die versuchen, diese CAPTCHAs zu überlisten. Es ist jetzt durch die Sonne hier herinnen ein bisserl hell geworden, aber die Beispiele sind auch nicht so wahnsinnig wichtig.
Das hier ist ein CAPTCHA, das findet man auf Wikipedia, wenn man nach »CAPTCHA« sucht. Man muss jetzt SMWM in diese Textbox eingeben und dann hat man gewonnen, ist man drinnen.
Da ist ein anderes, das sind jetzt relativ harmlose Beispiele. Und wenn man sich die anschaut, dann kann man auch verstehen, wie versucht wird, die Information hier oder das Bild oder den Text hier so zu zerstören, dass Maschinen ihn nicht lesen können. Es wird darauf vertraut, dass wir Menschen bestimmte Eigenschaften der Informationsverarbeitung, des Formenerkennens haben, die Maschinen nicht oder vielleicht auch noch nicht haben.
Zum Beispiel tun sich Maschinen sehr schwer, die einzelnen Formen voneinander zu trennen. Das fällt uns leicht, das ist ein sehr einfaches CAPTCHA, y4y7d, Maschinen tun sich mit dem sehr schwer - außer sie kennen das Prinzip, nach dem die Buchstaben hier zusammengebastelt werden.
Und das ist ein großer Ansatzpunkt. Die meisten dieser Texte werden zufällig erstellt. Dementsprechend kommt es manchmal zu kleinen Problemen. Ein typisches Problem ist das hier. [Gelächter]
Das ist 4rsch, liest sich sehr ähnlich wie... ja. Oder sowas: [Gelächter] fuckue ist natürlich im Englischen nicht so... oder das hier: retard (=Volltrottel). Das ist eine Beleidigung des Benutzers, ohne dass es gewollt ist, weil diese Buchstabenfolge natürlich zufällig ist. Aber wir kennen diese Geschichte mit dem Affen, der unendlich lange tippen darf und irgendwann kommt Shakespeare heraus.
Ein anderes Problem ist, dass es technologische oder technische Probleme geben kann, dass das Bild nicht kommt. Hier steht: »Type the characters you see in the picture below. Sorry, we are unable to handle your request at this time. Please try again later.« Ich bin neugierig, wenn ich das abtippe, ob ich dann hineinkomme oder nicht.
Natürlich gibt es auch Audio-CAPTCHAs, die hören sich dann ungefähr so an. Schauen wir, ob wir etwas hören... [weibliche Stimme liest undeutlich Buchstaben auf Englisch: fjp, wiederholt sich immer wieder] Das könnte f, j und p heißen, nicht ganz heraushörbar. Tatsache ist, hier wird genauso versucht, durch das Unterlegen von Rauschen die Maschinen in die Irre zu führen.
Ebenso wird darauf gehofft, dass wir Menschen dieses Rauschen gut ausblenden können, weil wir wesentlich besser verstehen können als Computer, dass wir das also entschlüsseln können und die Maschinen nicht.
Diese Bild-CAPTCHAs und auch diese »Erkenne bitte etwas, was ich dir hinwerfe«-CAPTCHAs, die haben Probleme, auf die ich noch eingehen werde. Daher gibt es auch andere Ansätze. Zum Beispiel diesen hier: Hier ist eine Folge von Zeichen und darunter steht der Code, wie man diese Zeichen zu verstehen hat, und das muss man dann entschlüsseln und oben hinschreiben. Da sitzt man schon eine Zeit lang und Sie können sich vorstellen, dass das eine ganz eigene Klasse von Problemen für Menschen bringt, die sich mit so etwas schwer tun. Oder hier: »Please answer this simple math question: 6+61=?«
Im Grunde ist das hier, was wir in der Informatik »security by obscurity« nennen. Diese Aufgabe kann ein Computer natürlich viel einfacher lösen und vor allem viel schneller - Nanosekunden wahrscheinlich um das auszurechnen, wenn er wüsste, was hier steht. Er weiß es aber nicht, daher funktioniert das so lange, bis jemand hergeht und eine spezifische Attacke für dieses CAPTCHA schreibt. Dann ist dieses CAPTCHA vollkommen wertlos.
Man kann das jetzt natürlich eskalieren und sagen, wir machen ein bisserl schwierigere Mathematik-Aufgaben [Gelächter]. Ich bin jetzt kein Mathematiker mehr, aber ich vermute, dass irgendwie eins oder null das Ergebnis ist oder ein Drittel oder so etwas. Vielleicht eine Spur ernster, tatsächlich... Also ob das ein Hoax ist, das vorige, weiß ich nicht. Ich hab es gefunden und es ist großartig.
Etwas ernst zu nehmender ist das hier: 15+10=?? Das kann man in der Größe ganz gut lesen, wenn das Ihnen in so hundert mal zwanzig Pixeln begegnet, dann tun Sie sich ein bisschen schwerer. Ganz ernst genommen wird?s nicht immer, das ist ein Hoax:
»To complete your web registration, please prove that you're human. When Littlefoot's mother died in the original Land Before Time, did you feel sad? Yes/No. (Bots, no lying.)« [Gelächter] Dahinter steckt, dass es tatsächlich CAPTCHAs gibt, die Sachfragen stellen. Zum Beispiel: Was ist die Hauptstadt von Australien? Und nachdem die meisten von uns Sydney sagen würden, hätten wir keine Chance dort jemals hineinzukommen. Sydney is nicht die Hauptstadt von Australien.
Es gibt noch weitere Ansätze, zum Beispiel den sogenannten Kitten-CAPTCHA: Hier sehen Sie neun Bilder, drei davon sind Katzen, die soll man anklicken. Wenn man das schafft, ist man drinnen. Das Problem hier ist, das basiert natürlich auf einem sehr begrenzten Vokabular an Bildern, die haben vielleicht tausend Bilder auf der Seite, da waren sie schon sehr fleißig. Wenn ich als Hacker mir dieses Vokabular herunterhole, händisch bewerte, habe ich eine Software, die das jedes Mal lösen kann. Das ist ebenfalls ein Kitten-CAPTCHA: »Please select all the cat photos.«
Und Sie erkennen es nicht nur hier nicht, was eine Katze ist. Das zweite Bild von links in der unteren Zeile ist einfach nicht erkennbar. Das vierte Bild von links in der unteren Zeile ist nicht erkennbar, ob das jetzt eine Katze oder ein Hund ist. Hier tippe ich eher auf Hund, zu Hause war es eher eine Katze. Ist schwierig.
Und ein fast schon unappetitlicher Versuch ist das sogennante Hot CAPTCHA. »In order to prove us that you're not a robot, select the three hot people.« [Gelächter] Gibt es in Männer- und Frauen-Variante. Das ist natürlich Geschmackssache. Okay, also da gibt es ziemlich harte Dinge.
So, hinter diesem Problem mit den CAPTCHAs steht, dass wir mit Identität im Internet Schwierigkeiten haben, und ich möchte Ihnen das an einem kurzen Beispiel vorführen.
Identität: Also das bin ich. Ich habe heute abend russische Gäste, daher entschließe ich mich dazu, eine Flasche Wodka zu kaufen. Wahrscheinlich wäre es besser, ich kaufe fünf, aber ich besorge jetzt einmal eine: Also gehe ich in ein entsprechendes Geschäft, wo diese Dinge verkauft werden. Dort treffe ich auf strenge Menschen, die von mir einen Nachweis einfordern, dass ich über einundzwanzig bin oder wie alt man bei uns sein muss - weil ich so jung aussehe. Also lege ich zum Beispiel meinen Führerschein vor. Dort interessiert er sich eigentlich nicht für welche Gruppen ich den Führerschein habe, sondern nur für mein Geburtsdatum oder spezifisch für mein Geburtsjahr. Und wenn er sieht, das ist 1963, rechnet er sich aus, vierundvierzig Jahre, kein Problem! Dem verkaufe ich eine Flasche Wodka, geht in Ordnung. Zack, da ist mein Wodka. Und damit kann ich das Geschäft dann verlassen und bin glücklich.
Das ist ein Modell, das wir sehr oft verwenden - in vielen Fällen. Und es hat drei wesentliche Vorteile, drei wesentliche Eigenschaften: Es ist schnell, es ist unkompliziert und einfach, und es ist anonym. Das stimmt natürlich jetzt nicht ganz. Es ist ziemlich schnell. Jemand, der umständlich ist, kann mich eine Zeit lang aufhalten und sagen »Ich will einen anderen Ausweis sehen, Ihr Dienstausweis von der TU gilt nicht« oder was auch immer. Stundentenausweise, da hat man gern Schwierigkeiten. Es ist natürlich nur relativ sicher, denn wir wissen, Ausweise kann man fälschen. Wow, super. Und es ist auch nur quasi anonym. In einem Dorf ist das ganz egal, dass das Modell an sich relativ anonym ist, der würde mich trotzdem kennen. Es ist auch nur quasi anonym, weil ich ja einen namentlichen Ausweis hingebe. Wenn der aber von jedem Ausweise verlangt, kann er sich unmöglich alle Personendaten aufschreiben, merken, von Leuten, die er hier überprüft. Er hat auch kein Interesse daran. Also, wir können es als quasi anonym bezeichnen. Und das ist ein ganz wichtiger Punkt, denn anonyme Identität ist etwas, was wir im Internet eigentlich noch nicht kennen.
Identität ist im Internet also normalerweise damit verbunden, dass wir uns identifizieren. Identität oder Aspekte unser Identität und Identifizierung sind aber eigentlich zwei verschiedene Dinge. Und da liegt die Wurzel des Problems: Könnten wir Aspekte unserer Identität einfach, schnell, sicher und anonym nachweisen (alles drei so einigermaßen) dann bräuchten wir keine CAPTCHAs.
So, jetzt möchte ich ein paar CAPTCHA-Probleme ganz schnell durchgehen, denn CAPTCHAs haben eine Menge von Problemen. Und das erste kennen Sie, CAPTCHAs sind entsetzlich inaccessible.
Die Definition von CAPTCHA kann man in vieler Art und Weise formulieren, eine ist zum Beispiel diese: »CAPTCHA is a programme that can generate and create tests that most humans can pass, current software can't pass.« Also, Menschen können dieses Problem lösen, und hier steht schon drin »most humans«. Eigentlich ist das schon ein Affront gegen den Rest der »most«, den Nicht-«most«. Und »current software can't pass« ist ein frommer Wunsch.
Steve Gibson, einer der ganz wunderbaren, großartigen Menschen in diesem Bereich, Technologie - Gesellschaft, Sicherheitsexperte, hat das so formuliert: »Unfortunately hard for computer today also means hard for humans.« Computer sind in den letzten paar Jahren ziemlich schnell geworden, und um etwas schwer zu machen für Computer, stellt sich heraus, muss es auch schwer sein für Menschen. Und da stimmt irgendwas nicht, wenn wir eine Technologie einführen, die es uns schwer macht hineinzukommen, und für Computer ist es dann oft nicht schwer!
CAPTCHAs müssen also per definitionem inaccessible sein. Nur wenn CAPTCHAs inaccessible sind, sind sie auch erfolgreich. Und das ist ein ganz schwieriges Problem. Die kann man nicht ohne weiteres lösen, denn jeder Versuch CAPTCHAs mehr accessible zu machen für Screenreader-Software, für Menschen mit besonderen Bedürfnissen, bedeutet auch mehr Accesibility für die Spambots, für die, die Attacken gegen diese CAPTCHAs fahren oder gegen diese Schutzmaßnahmen.
Wir haben hier ein Spannungsfeld: Das gilt leider nicht nur für CAPTCHAs. Das gilt für jede Maßnahme gegen Spam. Jede Maßnahme gegen Spam ist in gewisser Weise eine Verschleierung gegenüber Angreifern und damit auch eine Verschleierung gegenüber willkommenen Angreifern, die Screenreader sozusagen darstellen.
Ein zweites Problem ist, wir haben das schon gehabt: CAPTCHAs werden geknackt. Jemand schreibt eine Software, die ein bestimmtes CAPTCHA knacken kann. Daher müssen CAPTCHAs ständig besser werden. Und das ist ein Problem, das im System der CAPTCHAs liegen kann.
Gute Kryptographie ist sicher, ganz egal ob man den Source-Code kennt oder nicht. Gute Kryptographie ist sicher, wenn ich den Schlüssel groß genug mache, dann gibt es keine Chance, dass man das knackt, ganz egal, wie viel man darüber sonst weiß. Schlechte Kryptographie muss geheim bleiben und mit jedem Knacken muss ich neue Schutzmechanismen einbauen, damit ich das noch sicher halte.
Genauso geht es mit CAPTCHAs. CAPTCHAs können nicht sicher sein. Wir kennen keinen Weg, Dinge so zu machen, dass ein Mensch sie auf jeden Fall erkennt und eine Maschine auf jeden Fall nicht. Daher müssen CAPTCHAs ständig mit ihren Angreifern Schritt halten.
Bill Holden, ein Gast bei Steve Gibson in dessen Podcast »Security Now« hat einmal gemeint: »What if my computer is smarter than your computer?« Wenn mein Computer Tests macht, die er selber nicht lösen kann und daher davon ausgeht, dass nur Menschen sie lösen können, und ich hab aber einen smarteren Computer, dann ist dieser Test natürlich kaputt.
Und siehe da, wir finden zum Beispiel - schwierig auszusprechen - PWNTCHA, ebenfalls ein Akronym, aussprechen tut man es »Owntcha«. Pwn ist »own«, das kommt aus dem Computer-, aus dem Hacker-Jargon, bedeutet so viel wie: »I own your computer« heißt der gehört jetzt mir, ich kontrolliere den, du hast keine Chance mehr. Oder ich habe deine Software geknackt, ich habe deine Verschlüsselung geknackt, »I own«.
Und das schreibt man mit einem p aus einem seltsamen Grund, das geht jetzt zu sehr in die Tiefe. Und das hier ist ein Screenshot von einer Seite, wo der Autor von diesem PWNTCHA, das heißt übrigens Pretend We?re Not A Turing Computer But A Human Antagonist. [Gelächter]
Also, Sie sehen, Informatiker lieben seltsame Akronyme. Das ist ein Screenshot von dieser Seite: Der listet hier der Reihe nach CAPTCHAs auf und wie effizient er sie schon geknackt hat.
Und hier sehen wir: Das schaut nicht gut aus für CAPTCHAs! Aber es müssten gar nicht 99 Prozent sein. Es würden schon zehn Prozent genügen oder ein Prozent! Um aus einer Million Attacken auf eine Site (um Kommentare zu posten) zehntausend Hits zu haben, genügt ein Prozent Erfolg beim Knacken der CAPTCHAs! Auf das kommen wir noch einmal zurück.
Oder hier von einer anderen Site: Ich werde die Folien zum Download anbieten. Ich werde versuchen sie möglichst accessible zu machen, aber sie finden die URLs dann zum Teil einfach in den Folien. Von Greg Morey und Jitendra Malik - was für Namen. Und das ist also ihr Versuch, einen bestimmten CAPTCHA-Anbieter zu knacken, und sie sehen immer hier unten drunter das Wort, das entdeckt wurde. Das hier sind acht Beispiele und eins, nämlich aus Mark wurde Sock, alle anderen sind richtig erkannt.
Und das genügt. »Our method can successfully pass that test ninety-two percent of the time.« Dieses CAPTCHA ist tot. Daher finden wir alle möglichen Gegenmaßnahmen. Dieser CAPTCHA-Anbieter verspricht zehn neue Algorithmen jeden Monat, das heißt, Sie lassen von irgenwo CAPTCHAs erzeugen, binden dieses Service in Ihre Seite ein - und jeden Monat werden zehn neue Algorithmen generiert. Das hat irgendwann ein Ende.
Oder es kommen Dinge heraus wie das hier: Das ist nicht nur für Menschen, die nicht gut sehen, unerkennbar. Wir können auch weiter machen, es kommen Dinge heraus wie das hier: Das findet man übrigens, wenn man nach »worst CAPTCHA ever« googelt. [Gelächter] Stimmt aber nicht. Das ist von Yahoo, das ist echt.
Das könnte Ihnen morgen passieren. Das ist auch unleserlich, wenn es auf Ihrem Bildschirm ist. Und es wird noch schlimmer, so etwas. Oder das berühmteste Beispiel, das hier. [Gelächter] Das sind alles echte Beispiele, die sind verbürgt. Also, das ist komplett unleserlich - und das ist der Weg, auf dem wir sind. Das ist die Eskalation zwischen Knacken und Erhöhung der Sicherheit, wo es für uns immer schwieriger wird und die Maschinen jede Generation wieder knacken.
Das gilt auch für Audio-CAPTCHAs, hören wir uns eines an. [männliche Stimme liest Zahlen auf Englisch: 416, mit Geräuschen unterlegt und immer wieder wiederholt] Ja, das darunter ist verkehrter Ton drinnen, das klingt ein bisschen wie Tonbandstimmen. Also mir ist es unheimlich, ich finde das extrem unangenehm. Und ich verstehe nicht was gesagt wird, irgendwelche Zahlen. Four, six vielleicht? Na ja.
Also, das ist ganz schwierig. CAPTCHAs unterliegen einer technischen Eskalation. Und aus dieser Eskalation gibt es kein Ausbrechen. Wie die Gewaltspirale ist das hier eine Spirale des Knackens und der Erhöhung der Sicherheit, die immer schlimmer werden wird. CAPTCHAs werden wiederum systembedingt immer mehr inaccessible. Diese Eskalation ist systemisch bedingt und unausweichlich.
Drittens, und das ist jetzt eigentlich der schlimmste Punkt: Es gibt unausweichliche Angriffe, und ich zeige Ihnen das an einem Beispiel: Ich mache eine Webseite. Diese Webseite, hier heißt sie Cute Funny Animals, ist unglaublich beliebt. Sie können sich das in Ihrer Phantasie ausmalen, also sie hat einen sehr hohen Traffic. Sie können sich in Ihrer Phantasie jetzt Seiten ausdenken, die tatsächlich einen hohen Traffic haben. Es wird nicht schwer sein, sich hier etwas auszudenken, mit dem man sehr schnell sehr hohen Traffic erzeugt.
Und dann mache ich einen Bereich auf dieser Seite, der mit einem CAPTCHA gesichert ist. Da sage ich nur »solve this CAPTCHA«: also »Lösen Sie dieses CAPTCHA«, um in den Bereich dahinter zu kommen. Dort sind dann die wahren cute funny animals.
Und wenn da jetzt jemand klickt, dann präsentiere ich ihm mit diesem Dialog, aber ich habe ja noch kein CAPTCHA. Also geh ich nach Yahoo. Yahoo hat für seine Registration ein CAPTCHA, hier unten. Ich möchte einen Yahoo-Account generieren, das ist mein Ziel als Hacker, also nehme ich dieses CAPTCHA, schneide es aus, und präsentiere es dem Benutzer bei Cute Funny Animals.
Der macht das dann für mich, tippt also hier hinein ru73ad. Das nehme ich dann - das macht alles meine Software - und setze es hier hinein, und schon habe ich einen Yahoo-Account, vollkommen maschinell und automatisch, nur weil jemand auf Cute Funny Animals in diesen abgesperrten Bereich wollte. Und mit jedem Mal, wenn jemand hinein will, kann ich mir einen Yahoo-Account generieren. Das ist die »Relay-Attacke«. Die Relay-Attacke ist unabwendbar. Sie können versuchen, sie schwerer zu machen, Sie können sie nicht abwenden. Wenn ich mich darauf einlasse, komme ich wieder in diese Eskalations-Spirale: Dann kann ich jedes Mal nachprogrammieren und meinen Spambot, meine Angriffs-Software gegen Ihre Site besser machen als Ihr Versuch, das abzuwehren.
Also es gibt hier systematische Schwächen. Diese Attacke ist eine systematische Schwäche, und die unterliegt zwar ebenfalls dieser Eskalation, aber das kann uns kein Trost sein.
Und viertens, das vierte große Problem von CAPTCHAs ist: Sie sind unmenschlich. Das hier ist ein Beispiel für ein CAPTCHA, das man nicht wahnsinnig gut entziffern kann, das dritte hier könnt ein b sein, wahrscheinlich ist es ein Dreier. Da drüben ist ein Achter, ein g... also das zieht sich. Dieses CAPTCHA ist für Menschen schwer lösbar und für Maschinen ganz einfach.
Dieses CAPTCHA ist von der Website, wo ich vorhin schon war, von diesem Hacker, und das hat hier eine Erfolgswahrscheinlichkeit von einhundert Prozent. Und das ist das Schicksal von nahezu jedem CAPTCHA:
Früher oder später findet jemand heraus, wie es generiert wird, und kann dementsprechend einen Angriff schreiben, der diese Transformationen quasi zurücknimmt und das CAPTCHA entschlüsselt. Aber wie schon gesagt, wir brauchen nicht hundert Prozent, es genügt ein Prozent oder noch weniger, damit wir erfolgreich spammen können.
Also, CAPTCHAs sind unmöglich unmenschlich. Wir kennen das aus anderen Bereichen: Kopierschutz bei Musik beispielsweise ist eine Form, Menschen zu bestrafen, die dafür bezahlen.
Sie kaufen kopiergeschützte Musik und dann haben Sie Einschränkungen zu erleiden, nur weil Sie dafür bezahlt haben. Hätten Sie das aus dem Internet heruntergeladen, wäre kein Kopierschutz darauf und Sie könnten alles damit machen, was Sie mit Ihrer CD auch gemacht haben. Für Hacker sind diese Kopierschutzmaßnahmen meistens aber nur eine Barriere ungefähr so hoch wie diese auf dem Boden verlegten Kabel hier, also keine.
Die können das alles knacken und können systematisch den Kopierschutz unterwandern. Das heißt, wir haben es hier mit einer Maßnahme zu tun, die gegen die eigentliche Zielgruppe ineffektiv ist und für alle anderen lästig. Und genau dasselbe ist hier bei CAPTCHAs. Interessanterweise, und darum bringe ich das Beispiel Kopierschutz bei Musik - Kopierschutz bei Musik verschwindet gerade aus genau diesem Grund. Es ist nicht effektiv. Funktioniert nicht! Die Menschen hassen es. Daher hören jetzt alle auf mit Kopierschutz bei Musik.
Also, ähnlich wie ein Kopierschutz bestrafen sie die Braven, die, die wir wollen. Jetzt haben wir eine Website, endlich will jemand kommentieren und er scheitert am CAPTCHA.
So, also diese vier Punkte noch einmal zusammengefasst: Sie sind inaccessible, sie unterliegen der technologischen Eskalation, es gibt unabwendbare Attacken, systembedingt, und sie sind unmenschlich.
Was kann man in dieser Situation noch machen? Und ich möchte Ihnen ein Beispiel bringen, das versucht, genau diese vier Punkte zu lösen.
Also, um accessible zu sein, kann man natürlich mehrere verschiedene Kanäle anbieten, ein Bild-CAPTCHA und falls das für jemand unmöglich ist, ein Audio-CAPTCHA.
Das unlösbare Problem im CAPTCHA-Bereich sind CAPTCHAs für Menschen, die sowohl blind als auch gehörlos sind. Die bleiben natürlich trotzdem draußen. Die Eskalation: Wir können versuchen, aus dem, was hier passiert, Innovation abzuleiten. Ein Beispiel macht das auf sehr schöne Art und Weise: Die unabwendbaren Attacken, wir können Kryptografie einsetzen, um sie einmal schwer zu machen und schauen, wie lang wir diese Spirale aushalten. Und sie sind unmenschlich, wir können eine Kompensation anbieten.
Wir können sagen, das ist zwar jetzt eigentlich eine Sauerei, was ich hier mit dir mache, aber es dient einem höheren Zweck. Und alles das macht der ReCAPTCHA. ReCAPTCHA versucht es zumindest. ReCAPTCHA basiert darauf, dass im Zuge des Gutenberg-Projekts Bücher digitalisiert werden, Bücher, die nicht mehr copyright-geschützt sind, die in der Public Domain sind. Heutige Schrifterkennungs-Software weiß ziemlich gut, ob das Wort erkannt wurde oder nicht und sagt: »Da, bei diesem Wort bin ich mir unsicher«. Und diese Worte, bei denen sich die Schrifterkennung unsicher ist, die werden in CAPTCHA eingesetzt. Das heißt, wenn wir Worte verwenden, die die beste Schrifterkennungs-Software, die wir kennen, nicht erkennen kann, ist das schon einmal ein guter Anfang. Dann legt man noch gebogene Linien darüber, um sie miteinander zu verbinden und diese Identifizierung der einzelnen Buchstaben für Maschinen noch zu erschweren.
Und dann haben wir CAPTCHAs, die ziemlich gut sind. Wenn es jemandem gelingt, Software zu schreiben, die diese CAPTCHAs knackt - vielleicht sage ich an der Stelle dazu: Die meisten, die versuchen CAPTCHAs zu knacken, sind nicht die fiesen Spammer, sondern das sind neugierige Menschen, die an Technologie interessiert sind, die das dann auch zur Verfügung stellen.
Also wenn es jemand gelingt, dieses CAPTCHA zu knacken, dann würde Schrifterkennung im Gutenberg-Projekt besser werden, das ist ja schon einmal großartig. Aber wir helfen auch dem Gutenberg-Projekt, indem wir diese CAPTCHAs von Wörtern, die die Schrifterkennung nicht erkennen kann, händisch decodieren. Das heißt, wir kriegen die Worte, mit der die Schrifterkennung nichts anfängt, sagen, was es wirklich bedeutet und das Gutenberg-Projekt profitiert davon. Das ist diese Kompensation, von der ich gesprochen habe. Wir helfen also mit, freie Inhalte in Büchern, die ans Papier gefesselt sind, zu befreien und elektronisch zu machen.
Wie das funktioniert, dass die dann wissen, ob das richtig ist, geht jetzt zu weit. Und die machen das also so, mehrere Medien, sie bieten ein Audio-CAPTCHA an, Innovation, sie verwenden diese Worte, die nicht erkannt werden und jeder, der es schafft, hier zu hacken, liefert einen guten Beitrag zur Schrifterkennung. Sie setzen Kryptografie ein um Relay-Attacken möglichst gut abzuwehren und sie kompensieren, »you help to digitize old texts«.
Also, das ist ein Ansatz, der einzige Ansatz, den es gibt, mit dem man zumindest ansatzweise sagen kann, wenn schon CAPTCHAs, dann die hier! Sind auch einfach einzubinden.
So, um ein Resümee zu ziehen:
Erstens, These Eins: CAPTCHAs sind als nachhaltige und menschenfreundliche Lösung des Problems von Bot-Angriffen theoretisch wie praktisch ungeeignet. Als nachhaltige Lösung und als menschenfreundliche Lösung versagen sie in beiden Fällen.
Wir können uns überlegen, wie wir dieses Versagen ausgleichen, so wie ReCAPTCHA, aber das ändert nichts daran - eigentlich sind sie ungeeignet. Aus dem Grund lehne ich CAPTCHAs eigentlich ab und sage, CAPTCHA-Sites interessieren mich nicht. Das W3C, das Komitee für Webstandardisierung ist derselben Meinung. Dahinter steckt noch mehr. Hier gibt es mehrere Eskalationen, und eine Eskalation, die hier passiert ist, dass neue Formen von Angriffen, Schwachstellen, die gefunden werden, durch technische Mittel ausgeglichen werden. Und wir finden uns wieder in einer Situation, wo sich jemand eine coole Technologie einfallen lässt, das CAPTCHA, und wir uns damit auseinandersetzen müssen, dass die nicht menschenfreundlich ist. Das heißt, wir stehen auf einmal technologiegetriebenem Design gegenüber. Und das ist immer eine schlechte Idee, wenn wir uns von den Notwendigkeiten der Technologie und von den Reaktionen der Technologie auf Situationen im Design treiben lassen.
These Zwei, um auf die Identität zurück zu kommen: Wir brauchen ganz dringend neue Verfahren der Online-Identifikation, die es erlauben, schnell, sicher und anonym Aspekte der eigenen Identität nachzuweisen. Und das ist etwas, was tatsächlich am Weg ist. Open ID ist ein Schritt in die Richtung, tatsächlich gibt es eine Technologie von Microsoft, CardSpace, die dann ganz spannend ist. SAML und OpenSAML und SXIP - Simple Extendable Identity Protocol, SXIP.
Es gibt dazu einen Vortrag, der heißt Identity 2.0 von Dick Hardt - auf dem Netz können Sie das Video runterladen, die URL ist in den Folien - der genau diese Frage diskutiert: einen Aspekt meiner Identität schnell, sicher und anonym nachzuweisen online.
Das ist ein ganz großartiger Vortrag. Aber bis wir das haben, werden wir uns mit Spam jedes Mal neu auseinandersetzen müssen und mein Wunsch, oder eigentlich meine Forderung ist, dass das nicht mit CAPTCHAs geschieht, sondern einfallsreich und ständig, leider ständig eskalierend. Beispiele für ganz einfache Methoden, Spam in den Griff zu kriegen - hoppla, wir brauchen die Folie dazu - also, bis dahin werden wir uns mit Spam einfallsreich und ständig eskalierend auseinandersetzen müssen. Beispielsweise über sehr einfach umzusetzende Honeypot-Systeme. Ganz einfacher Trick: wir machen drei E-Mail-Felder. Sie wissen, es wird oft gefordert, dass man E-Mail zweimal eingibt, weil sich Menschen so oft bei der E-Mail-Adresse vertippen, macht man drei Felder und versteckt davon eines unter einem Bild oder noch besser mit CSS.
Dann füllen die Bots dieses dritte Feld trotzdem aus, weil sie nicht wissen, dass das im CSS versteckt ist. Wenn aber dieses Feld ausgefüllt ist, dann wissen wir, dass es ein Spambot war, und können dem zurückmelden, er war erfolgreich und das, was er postet, wegwerfen. Also, das ist ein sogenannter Honeypot, wir stellen einen Honigtopf hin und der Bär, wir wissen, dass der Bär dorthin geht und alle anderen nicht, und dann haben wir den Bären.
Das Problem hier ist, dass auch Screenreader unter Umständen darauf hereinfallen. Ich weiß nicht, wie gut Screenreader mit versteckten Feldern umgehen können. [unverständlicher Kommentar aus dem Publikum] Ja, das ist, wenn sie es selber liest, dann wüsste es der Spambot auch wieder, nicht? Also, wir haben hier ein Problem, dass wiederum jede Maßnahme, die wir treffen, um die Spambots abzuwehren, auch eine Maßnahme ist, um Screenreadern das Leben schwer zu machen.
Aber wir werden Wege finden müssen, nicht? Der Zwang zum Preview von Kommentaren: Wenn wir auf einem Weblog einen Kommentar posten und wir zwingen den Menschen, zuerst einen Preview anzuschauen, bevor er diesen Kommentar dann postet, steigen 99,9 Prozent aller Spambots aus.
Das können sie nicht. Das können wir. Quasi auch ein CAPTCHA, aber ein CAPTCHA, der nicht sich drauf verlässt, dass wir sehen können, dass wir besser sehen können als wir eigentlich können.
Oder die einfache Verschleierung von Formularen: Natürlich wieder, Formulare zu verschleiern, bedeutet, Screenreadern das Leben schwer zu machen. Also, wir sind hier in einem schwierigen Spannungsfeld gefangen, und ebenfalls wieder gegebenenfalls einer Eskalation. Und damit schließe ich ein bisschen mit einem schwierigen Ausblick, aber hoffentlich guten Einsichten. Danke.
Applaus
Eva Papst: Vielen Dank für diesen höchst interessanten Vortrag. Habe ich zu viel versprochen? Und auch einen sehr launigen Vortrag! Ich glaube, wir sind jetzt wieder ganz dynamisch, es ist noch Zeit, Fragen zu stellen. Nützen Sie die Gelegenheit, wir haben noch ein paar Minuten.
Zuhörer: Der Vortrag hat mich sehr begeistert, muss ich sagen. Zu dem letztgesagten, was Sie gesagt haben: Es gibt Lösungen, Honeypots, die Screenreader nicht aussperren. Das können wir nachher besprechen, da gibt es Regelungen und auf unserer Seite, und viele andere haben das auch schon eingesetzt und sind sehr effektiv.
Peter Purgathofer: Ich möchte nur dazu sagen, es ist nur eine Frage der Zeit bis die Spambots auf diese Regelungen einsteigen und wir in der Eskalationspirale sitzen. Es gibt Möglichkeiten, drumherum zu kommen. Die erfordern, dass wir alle ein höheres Verständnis davon, von der Problematik um die?s hier geht, haben.
Wenn auf dieser Seite mit dem Honeypot E-Mail-Feld, wo der Screenreader reinfallen würde, in echtem Text erklärt ist, was hier los ist, und ich das mit einem Screenreader lesen kann und verstehen kann als Mensch, dass ich sag: »Für Menschen, die einen Screenreader verwenden: Vorsicht, das mittlere E-Mail-Feld muss leer bleiben, denn das ist ein Honeypot für Spambots.« Dann werden die Spambots trotzdem reinfallen und Sie nicht. Also das wär eine Lösung.
Zuhörer: So ist es ohnehin.
Peter Purgathofer: Aha, so ist es eh gemacht.
Eva Papst: Ja, um das ganz kurz zu erklären für die, die es nachmachen möchten und auch sollen: es reicht, wenn man in das Label des Input-Feldes dazuschreibt: »Bitte dieses Feld leer lassen.? Das reicht völlig aus. Und kein Screenreader-Nutzer wird, wenn er nicht sehr, sehr unaufmerksam ist, da noch reinfallen. Dann ist er aber selber schuld.
:Peter Purgathofer: Natürlich, es ist eine Frage der Zeit bis vor allem auf high-profile Seiten, die bei Google ganz oben sind, wo Spam sehr wirksam ist, die Spambots das auch wissen. Dann werden wir wieder nachlaufen müssen.
Moderatorin, Eva Papst: Vielen Dank.
(Transkription: Christine Schubert und Gerhard Wagner, www.freak-online.at)