Die prognostizierte Gefahr gefährlicher Prognosen

8. März 2018

Dass Digitalisierung und Automatisierung für Umwälzungen am Arbeitsmarkt sorgen, ist schon Gemeinplatz. Die meisten gehen allerdings davon aus, die Leidtragenden der Veränderungen jene mit niedrigerem Bildungsniveau sein werden. Das selbstfahrende Auto würde die unzähligen Kraftfahrer arbeitslos machen, nicht aber die Ingenieure, die dieses entwickeln, die Soziologen, die dies deuten, und die Therapeuten, die trösten. Wahrscheinlich wird es genau umgekehrt sein: Die hinter dem selbstfahrenden Auto stehende künstliche Intelligenz ersetzt eher den Akademiker als den Handwerker.

Diese Perspektive bestätigt eine Analyse von Joshua Gans über die ökonomischen Implikationen künstlicher Intelligenz. Seine Analyse beruht darauf, menschliche Wirtschaftstätigkeiten in fünf Gruppen aufzuteilen: Datenerhebung, Prognose, Beurteilung, Durchführung und Ergebniserhebung. Insbesondere die zweite Gruppe ist durch die technische Entwicklung direkt betroffen:

Künstliche Intelligenz ist im Grunde genommen eine Prognosetechnologie, sodass sich die wirtschaftliche Verschiebung um einen Rückgang der Prognosekosten drehen wird […] Der erste Effekt künstlicher Intelligenz wird darin bestehen, die Kosten von Waren und Dienstleistungen zu senken, die auf Prognosen beruhen. Dies ist wichtig, weil Prognose ein Input für eine Vielzahl von Aktivitäten ist, darunter Transport, Landwirtschaft, Gesundheitswesen, Energieerzeugung und Einzelhandel. (Gans 2016)

Wenn Prognose so weit gefasst wird, wie es Gans tut, dann befindet sich ein großer Teil von Berufen, die akademische Ausbildung voraussetzen in diesem Bereich. Es geht um die Anwendung abstrakterer und komplexerer Regeln, um Musterkennung und Diagnose. Dabei überschätzen akademische Berufe allerdings systematisch die Trefferquote ihrer Prognosen. Zwei Probleme zeigen sich nämlich bei menschlichen Prognosen: Bias und noise, Voreingenommenheit und mangelnde Wiederholbarkeit. Voreingenommenheit entsteht in besonders akademischen Berufen, die wenig Wechselwirkung mit der Realität zeigen – nach Nicholas Taleb dort, wo Menschen kein “skin in the game” haben und es sich deshalb leisten können “Intellectual Yet Idiot” zu sein,

jene Klasse von paternalistischen halb-intellektuellen Experten mit Zertifikat einer Eliteuniversität, die dem Rest von uns sagen, 1) was wir tun, 2) essen, 3) wie wir sprechen, 4) denken … und 5) wen wir wählen sollen. (Taleb 2016)

Künstliche Intelligenz könnte womöglich weniger voreingenommen sein als die menschliche – in aller Regel zeigt sie aber natürlich die Voreingenommen ihrer menschlichen Programmierer, bzw. der von Menschen definierten Optimierungsaufgabe. Ist etwa die algorithmische Nachrichtenauswahl in social streams und news feeds besser oder schlechter als menschliche journalistische Leistung? Rose-Stockwell schließt:

Der News Feed-Chefredakteur ist ein Roboter-Chefredakteur, und er ist viel besser als normale menschliche Chefredakteure. Es kann vorhersagen, worauf Sie eher klicken als jeder andere, den Sie kennen. Prof. Pablo Boczkowski von der Northwestern University nannte ihn “den größten Chefredakteur der Menschheitsgeschichte”. … Nach traditionellen journalistischen Maßstäben ist der Newsfeed-Herausgeber jedoch ein sehr, sehr schlechter Redakteur. Es unterscheidet nicht zwischen Fakten und Dingen, die wie Fakten aussehen. (Rose-Stockwell 2017: 10)

Die Antwort auf obige Frage hängt jedoch von der eigenen Voreingenommenheit ab. Wer die Voreingenommenheit der meisten etablierten Journalisten teilt, wird dem Journalisten Rose-Stockwell zustimmen, wer eine andere Voreingenommenheit an den Tag legt, wird sich dank Internet – was heute eben immer mehr algorithmische Nachrichtenauswahl bedeutet – für besser informiert halten, weil die menschlichen Torhüter der Information zum Teil ausfallen. Egal, wie man dazu steht, unstrittig ist, dass menschliche Redakteure am Arbeitsmarkt unter der künstlichen Konkurrenz leiden. Weite Teile der herkömmlichen Presse würden ohne Subventionen nicht mehr überleben.

Voreingenommenheit ist nahezu gleichbedeutend mit Expertise. Aufgrund der notwendigen Gleichschaltung in einem Bildungssystem verbreiten sich funktionelle Methoden genauso wie kollektive Irrtümer. Taleb gibt ein gravierendes Beispiel für Voreingenommenheit unter den höchstangesehenen Experten unserer Zeit, den Ärzten:

Der berühmte, verkannte österreichisch-ungarische Arzt Ignaz Semmelweis hatte beobachtet, dass es mehr Todesfälle bei gebärenden Frauen in Krankenhäusern gab als unter den Frauen, die ihr Kind auf der Straße bekamen. Er bezeichnete die Ärzte seiner Zeit als eine Bande Krimineller – womit er recht hatte; allerdings konnten die Ärzte, die reihenweise ihre Patienten umbrachten, seine Fakten nicht akzeptieren oder ihr Handeln ändern, da er »keine Theorie« für seine Beobachtungen vorlegen konnte. Semmelweis wurde depressiv – er war außerstande, das aufzuhalten, was er als Mord einschätzte, und zutiefst abgestoßen von der Haltung seiner Zunft. Er wurde später in eine Nervenheilanstalt eingewiesen, wo er ironischerweise an eben dem Hospitalfieber starb, vor dem er gewarnt hatte. (Taleb 2013)

Gewiss, seither haben gerade Mediziner viel gelernt und einen erheblichen Beitrag zum Sinken der Sterblichkeit geleistet. Doch bei allem Fortschritt bleibt die zweite Problematik, die bis heute ärztliche Diagnosen trübt: Die mangelnde Wiederholbarkeit oder Streuung. Jeder Schütze kennt die Bedeutung der Streuung: Ein guter Schütze unterscheidet sich von einem schlechten nicht dadurch, immer ins Ziel zu treffen, sondern eine geringere Streuung seiner Treffer zu zeigen. Bei geringer Streuung bedarf er nämlich nur noch einer Einstellung zwischen Kimme und Korn, um das Ziel zu treffen, auch wenn man es anfangs verfehlte.

Ein Artikel von Daniel Kahnemann und anderen präsentiert erschreckende Studienergebnisse, die zeigen, dass das Problem der Streuung bei Expertendiagnosen und -prognosen höher ist als gedacht:

Forscher haben wiederholt bestätigt, dass Fachleute häufig ihren eigenen früheren Urteilen widersprechen, wenn ihnen die gleichen Daten bei verschiedenen Gelegenheiten vorgelegt werden. Beispielsweise wurden Softwareentwickler an zwei verschiedenen Tagen gebeten, die Fertigstellungszeit für eine bestimmte Aufgabe zu schätzen: Die von ihnen prognostizierten Stunden differierten im Durchschnitt um 71 Prozent. Als Pathologen zwei Beurteilungen von Biopsie-Ergebnissen durchführen mussten, war die Korrelation zwischen ihren Ratings nur 0,61 (von perfekten 1,0), was darauf hinweist, dass sie ziemlich oft inkonsistente Diagnosen erstellten. Die Urteile durch verschiedene Menschen gehen sogar noch stärker auseinander. Untersuchungen haben bestätigt, dass die Entscheidungen von Experten bei vielen Aufgaben sehr unterschiedlich sind: Bewertung von Aktien, Bewertung von Immobilien, Verurteilung von Straftätern, Bewertung der Arbeitsleistung, Prüfung von Abschlüssen und mehr. Die unausweichliche Schlussfolgerung ist, dass die Fachleute oft Entscheidungen treffen, die deutlich von denen ihrer Kollegen, von ihren eigenen Vorentscheidungen und von Regeln abweichen, die sie selbst zu befolgen vorgeben. […] Das vielleicht enttäuschendste Ergebnis: Erfahrung scheint das Rauschen nicht zu reduzieren. […] In den letzten 60 Jahren sind Menschen in mehreren hundert Genauigkeitswettbewerben gegen Algorithmen angetreten, die von der Vorhersage der Lebenserwartung von Krebspatienten bis hin zur Vorhersage des Erfolgs von Doktoranden reichen. Algorithmen waren in etwa der Hälfte der Studien genauer als die menschlichen Fachleute und in der anderen Hälfte ungefähr gleich genau. […] Unterm Strich heißt das: Wenn Sie einen Algorithmus zur Reduzierung des Rauschens verwenden wollen, müssen Sie nicht auf Ausgangsdaten warten. Sie können die meisten Vorteile nutzen, indem Sie mit gesundem Menschenverstand Variablen auswählen und die einfachste Regel verwenden, um sie zu kombinieren. Studien haben gezeigt, dass der Mensch zwar nützliche Inputs in Formeln liefern kann, dass Algorithmen aber in der Rolle des endgültigen Entscheidungsträgers besser abschneiden. (Kahneman et al. 2016)

Der “gesunde Menschenverstand” bleibt als Meta-Beurteiler unersetzbar, doch all jene “ungesunden” Automatismen menschlicher Regelbefolger werden den zuverlässigeren digitalen Regelbefolgern nach und nach weichen. Gans prophezeit, dass, da die Prognosekosten sinken, die Nachfrage nach Urteilsvermögen steigen wird [Gans 2016:2]. Das liegt daran, dass Urteilsvermögen eben der notwendig komplementäre Produktionsfaktor zur Prognose sei. Ähnlich war es zuvor bei der Arithmetik gewesen:

Mit Halbleitern können wir billig rechnen, sodass Aktivitäten, bei denen die Arithmetik eine wichtige Rolle spielt, wie Datenanalyse und Berechnung, deutlich günstiger wurden. Wir haben aber auch damit begonnen, die nun erschwingliche Arithmetik zu nutzen, um Probleme zu lösen, die historisch keine arithmetischen Probleme waren. Ein Beispiel ist die Fotografie. Wir haben uns von einem filmorientierten, chemiebasierten Ansatz zu einem digital orientierten, arithmetisch basierten Ansatz gewandelt. Andere neue Anwendungen für billige Arithmetik sind Kommunikation, Musik und Medikamentenforschung. (Gans 2016: 1)

Wenn Prognose günstiger wird, werden also immer Probleme als Prognoseprobleme behandelt. Eine Folge könnte ständige und alles durchdringende Diagnose sein, insbesondere im engeren ärztlichen Sinne:

Zum Beispiel, wenn die Vorhersage billig ist, wird die Diagnose häufiger und bequemer sein, und so werden wir viel mehr frühzeitige, behandelbare Krankheiten erkennen. Das bedeutet, dass mehr Entscheidungen über die medizinische Behandlung getroffen werden, was eine größere Nachfrage nach der Anwendung von Ethik und emotionaler Unterstützung durch den Menschen bedeutet. (Gans 2016: 2)

Das Problem, das Gans hierbei übersieht, sind die “false positives”: Wer ständig sucht, findet irgendwann Dinge, die gar nicht da sind. Wenn in einem von Tausend Fällen durch eine Verkettung unglücklicher Umstände eine Fehldiagnose getroffen wird, diese Diagnose aber bei Milliarden Menschen durchgeführt wird, werden Millionen Menschen Fehlbehandlungen unterworfen, deren Risiko in Summe den Vorteil für diejenigen übertreffen kann, bei denen die Diagnose richtig war. Taleb warnt vor solcher iatrogener Krankheit, das heißt, Krankheit als Folge fehlgeleiteter Heilungsversuche. Er geht so weit, sarkastisch zu empfehlen:

Wenn Sie den Tod eines Mitmenschen beschleunigen wollen, bezahlen Sie ihm einen Leibarzt. […] In sehr vielen Fällen (bei leichteren Krankheiten) wird Ihnen alles helfen, was Sie davon abhält, zum Arzt zu gehen, und Sie stattdessen ermächtigt, nichts zu tun (und damit der Natur die Möglichkeit gibt, ihre Arbeit zu machen). […] Immer wieder stößt man in Tempeln auf Inschriften mit dem Grundtenor: Apollo hat mich gerettet, meine Ärzte versuchten, mich umzubringen. (Taleb 2013)

Je mehr Daten erhoben werden, desto größer das Problem der Datenbewertung. Dass sich aus vergangenen Daten die Zukunft nicht extrapolieren lässt, liegt nicht an der mangelhaften Begabung des Menschen für Datenauswertung – auch künstliche Intelligenz kann keine Kausalität schaffen, wo sie nicht determiniert ist. Als Hilfsmittel wäre es zwar großartig, präzise Maßzahlen für die Wägbarkeiten zu erhalten. Diese Präzision täuscht aber stets über das Unwägbare hinweg. Taleb weist etwa auf folgende Wirkung von Prognosen hin:

Es gibt zahlreiche empirische Belege für den Effekt, dass jemand, dem eine zufällige numerische Prognose angeboten wird, eine erhöhte Risikobereitschaft an den Tag legt, und zwar selbst dann, wenn er weiß, dass die Hochrechnungen zufällig sind. (Taleb 2013)

Zugleich wächst in einer dauerdiagnostizierten Gesellschaft der Risikoeindruck. Gerade dann, zwischen erhöhter Risikobereitschaft und erhöhter Risikowahrnehmung, wird Urteilsvermögen besonders wichtig, wohl lebenswichtig. Dieses Vermögen besteht gerade darin, nicht alle Diagnosen und Prognosen ernst zu nehmen, mit Unwägbarkeiten und Ungewissheiten fruchtbar umzugehen und sich das Leben nicht von zahlenspeienden Algorithmen aus der Hand nehmen zu lassen. Auf dem Weg dahin werden, durch die schwindende Bedeutung der Akademiker, hoffentlich genügend Ressourcen frei, dieses Urteilsvermögen aufzubauen. Dann wird die künstliche Intelligenz die menschliche Intelligenz nicht ersetzen, sondern auf ein neues Niveau heben. Mein Algorithmus beziffert die Wahrscheinlichkeit dieses Szenarios mit 54,321 Prozent – die Tugend der Hoffnung auf drei Nachkommastellen. Oder die Tugend, nicht alles so ernst zu nehmen wie es klingt?

Literatur

Gans, Joshua. 2016. “The Simple Economics of Machine Intelligence. Digitopoly.” November 17, 2016. http://www.digitopoly.org/2016/11/17/the-simple-economics-of-machine-intelligence/.

Kahneman, Daniel, Andrew M. Rosenfield, Linnea Gandhi, and Tom Blaser. 2016. “Noise – How to Overcome the High, Hidden Cost of Inconsistent Decision Making.” Harvard Business Review, no. OCT 2016 (October). https://hbr.org/2016/10/noise.

Rose-Stockwell, Tobias. 2017. “This Is How Your Fear and Outrage Are Being Sold for Profit. Medium.” July 14, 2017. https://medium.com/the-mission/the-enemy-in-our-feeds-e86511488de.

Taleb, Nassim Nicholas. 2013. Antifragilität Anleitung Für Eine Welt, Die Wir Nicht Verstehen. Translated by Susanne Held. München: Random House. http://nbn-resolving.de/urn:nbn:de:101:1-201302275015.

———. 2016. “The Intellectual yet Idiot. INCERTO.” September 16, 2016. https://medium.com/incerto/the-intellectual-yet-idiot-13211e2d0577.