Warum manche Prompts nicht funktionieren

Der Schmerzpunkt: Frustriert durch schlechte Ausgaben

Stell Dir vor, Du stellst einem KI-Assistenten eine einfache Frage und erhältst eine verwirrende oder falsche Antwort zurück. Viele Nutzer haben das erlebt: Du stellst einem System wie ChatGPT oder Claude eine Frage und erwartest eine klare Antwort, aber die Antwort ist falsch, vage oder voller “Kauderwelsch”. Du versuchst, umzuformulieren oder Folgefragen zu stellen, aber die Antworten der KI verfehlen immer noch das Ziel.

Das kann schnell zu Frustration führen und Dein Vertrauen in das System untergraben. Tatsächlich stellen Forscher bei Google DeepMind fest, dass große Sprachmodelle (LLMs) zwar leistungsstark sind, aber ihr “Griff auf faktische Genauigkeit unvollkommen bleibt” – sie können sogar falsche Informationen “halluzinieren”, was verständlicherweise “das Vertrauen in LLMs untergraben kann”.

KI-Experten verwenden den Begriff “Halluzination”, um Fälle zu beschreiben, in denen das Modell eine Antwort produziert, die nicht in der Realität verankert ist. IBM gibt eine anschauliche Beschreibung: Im Allgemeinen erwartet ein Nutzer eine korrekte Antwort, aber “manchmal produzieren KI-Algorithmen Ausgaben, die nicht auf [den] Trainingsdaten basieren… oder keinem erkennbaren Muster folgen. Mit anderen Worten, es ‘halluziniert’ die Antwort.”

In einem OpenAI-Beispiel fragte ein Nutzer einen Chatbot nach dem Titel einer bestimmten Doktorarbeit – der Bot gab selbstbewusst eine Antwort, aber sie war komplett falsch. Als er erneut gefragt wurde, gab er einen anderen Titel, ebenfalls falsch, und ein dritter Versuch lieferte wieder eine falsche Antwort.

Diese Art von selbstbewusster Fehlinformation ist erschütternd. Es fühlt sich an, als würde die KI autoritär klingenden Unsinn von sich geben, was die Nutzer verwirrt oder in die Irre führt. Das Endergebnis ist oft Enttäuschung (“Warum kann sie mir nicht einfach die richtige Antwort sagen?!”) und Skepsis gegenüber der Zuverlässigkeit der KI.

Wie LLMs tatsächlich funktionieren (in einfachen Worten)

Um zu verstehen, warum diese Fehler passieren, hilft es zu wissen, wie LLMs wie ChatGPT in einfacher Sprache funktionieren. Diese KI-Modelle haben keine Datenbank mit verifizierten Fakten oder ein echtes “Verständnis” der Welt. Stattdessen ist ein LLM im Wesentlichen eine riesige statistische Engine, die Wörter vorhersagt.

OpenAI erklärt, dass ChatGPT “Muster aus großen Mengen an Informationen lernt” und diese Muster verwendet, um “das nächste wahrscheinlichste Wort vorherzusagen, wenn es eine Antwort generiert, ein Wort nach dem anderen.” Mit anderen Worten: Die KI macht etwas Ähnliches wie eine fortgeschrittene Version der Autovervollständigung. Sie wurde auf massiven Datensätzen trainiert (zum Beispiel große Teile des Internets, Bücher, Artikel usw.), und durch dieses Training hat sie gelernt, wie Sprache verwendet wird und welche Wörter in verschiedenen Kontexten typischerweise auf andere Wörter folgen.

Da sie Antworten generiert, indem sie nach plausiblen oder wahrscheinlichen Wortfolgen sucht, kann ein Sprachmodell sehr selbstbewusst und flüssig klingen – es imitiert die Muster menschlich geschriebener Texte. Es weiß jedoch nicht wirklich, ob eine Aussage korrekt ist. Es hat keinen eingebauten Faktenprüfer oder bewusstes Verständnis; es ist nur so gut wie die Muster, die es gesehen hat.

Wenn ein Prompt nach etwas fragt, das nicht klar in seinen Trainingsdaten abgedeckt war, versucht das Modell möglicherweise, eine Antwort aus welchen Bruchstücken auch immer zusammenzusetzen, die zu passen scheinen, selbst wenn das Ergebnis ungenau ist. Das Modell versucht nicht zu lügen – es versucht, hilfreich zu sein, indem es etwas liefert, das wie eine Antwort aussieht. Leider bedeutet das, dass es das ausgeben könnte, was KI-Forscher eine Halluzination nennen: eine Antwort, die vernünftig klingt, aber völlig erfunden oder falsch ist.

OpenAIs Forscher definieren diese Halluzinationen als das Modell, das “selbstbewusst eine Antwort generiert, die nicht wahr ist.” Es ist eine direkte Folge des Trainingsprozesses der KI. Während des Trainings sieht das Modell viel korrekten Text, wird aber nicht explizit darüber informiert, welche Aussagen wahr oder falsch sind. Es lernt, Text nachzuahmen, nicht Fakten zu überprüfen.

IBM zieht eine clevere Analogie: KI-Halluzinationen sind wie wenn Menschen manchmal Formen in Wolken sehen – unser Gehirn nimmt ein Muster wahr, das nicht wirklich da ist. Auf die gleiche Weise könnte ein LLM eine plausible Antwort in den Mustern “sehen”, die es kennt, auch wenn diese Antwort nicht real ist. Kombiniert mit dem Mangel an echtem Verständnis des Modells erklärt dies, warum Du manchmal Antworten bekommst, die daneben liegen. Es ist keine Böswilligkeit oder Dummheit; es ist die Konsequenz dessen, wie die KI gebaut und trainiert wurde – sie liefert statistisch wahrscheinliche Antworten, keine garantiert korrekten.

Blog illustration

Die Rolle von Prompts: Müll rein, Müll raus

Was hat nun der Prompt des Nutzers damit zu tun? Eine ganze Menge, wie sich herausstellt. Es gibt ein altes Sprichwort in der Informatik: “Müll rein, Müll raus.” Wenn Du einem System schlechte Eingaben gibst, erhältst Du schlechte Ausgaben. LLMs folgen strikt den Anweisungen und Informationen in Deinem Prompt. Sie sind keine Gedankenleser oder Hellseher. Eine vage oder schlecht formulierte Frage kann das Modell leicht in die Irre führen oder es zwingen, zu erraten, was Du wirklich willst. Umgekehrt kann ein gut formulierter Prompt das Modell dazu steuern, eine viel bessere, genauere Antwort zu liefern. Das Modell wird buchstäblich auf genau das antworten, was gefragt wurde (nach bestem Vermögen), also formt die Qualität der Frage die Qualität der Antwort.

Betrachte ein einfaches Beispiel. Wenn Du “Ernährung” fragst und nichts weiter, hat die KI fast keine Ahnung, wonach Du suchst. Willst Du eine Definition von Ernährung, einen Diätratschlag, Informationen über Ernährungswissenschaft? Die Antwort, die Du bekommst, könnte extrem breit, generisch oder sogar irrelevant sein.

Das Team hinter der Perplexity-Antwortmaschine merkt an, dass sie am besten funktioniert, wenn Du eine spezifische Frage stellst, nicht etwas übermäßig Breites. Anstatt zum Beispiel einen Ein-Wort-Prompt wie “Ernährung” einzugeben, könntest Du fragen: “Was sind die gesundheitlichen Vorteile einer mediterranen Ernährung?”. Diese Frage ist fokussiert und klar darüber, welche Informationen Du suchst. Wie der Perplexity-Leitfaden erklärt, wird die spezifischere Anfrage eine “direktere und nützlichere Antwort” liefern. Im Allgemeinen könnte das Modell, wenn Dein Prompt mehrdeutig ist oder Details fehlen, Lücken mit eigenen Annahmen füllen – und diese Annahmen können falsch sein.

LLMs haben auch keinen Kontext außer dem, was Du bereitstellst (abgesehen von einem eventuellen Gesprächsverlauf im Chat). Klarheit ist der Schlüssel: Du musst genau erklären, worüber Du sprichst. Anthropic, das Unternehmen hinter Claude, gibt ein nützliches mentales Modell dafür: Stelle Dir die KI als brillanten, aber sehr neuen Mitarbeiter mit Amnesie vor – Du musst ihr jedes Mal explizite Anweisungen und den gesamten relevanten Kontext geben. Sie erinnert sich nicht an die Details Deines Projekts, es sei denn, Du fügst sie hinzu, und sie wird nichts annehmen, was Du ihr nicht gesagt hast. Je genauer Du erklärst, was Du willst, desto besser wird die Antwort der KI sein.

Blog illustration

So schreibst Du bessere Prompts (umsetzbare Tipps)

Die gute Nachricht ist, dass Nutzer die Antworten einer KI dramatisch verbessern können, indem sie ein bisschen Prompt-Gestaltung lernen. Du brauchst kein technisches Fachwissen, nur ein paar praktische Strategien. Hier sind einige umsetzbare Tipps zum Schreiben von Prompts, die gut funktionieren:

Sei spezifisch und klar darüber, was Du willst

Hab keine Angst, die KI anzuleiten. Sag ihr genau, wonach Du suchst, einschließlich aller besonderen Details oder Formate, die Du benötigst.

– Vage: “Erzähl mir über OpenAI.”

– Besser: “Gib mir eine 3-Sätze-Zusammenfassung dessen, was OpenAI macht, in einfachen Worten.”

Je mehr Du die Aufgabe definierst, desto weniger muss das Modell raten. OpenAIs eigene Richtlinien betonen, “so spezifisch, beschreibend und detailliert wie möglich über den gewünschten Kontext, das Ergebnis, die Länge, das Format, den Stil usw.” in Deinem Prompt zu sein. Kurz gesagt: Buchstabiere Deine Erwartungen aus.

Gib Kontext oder Hintergrundinformationen

Wenn Deine Frage ein bestimmtes Szenario betrifft oder Du bestimmte Anforderungen hast, füge das in den Prompt ein. Nimm nicht an, dass die KI weiß, warum Du fragst oder mit welcher Situation Du es zu tun hast. Zum Beispiel ist die Frage “Wie sollte ich meinen Router einrichten?” in Ordnung, aber “Wie sollte ich meinen Heim-WLAN-Router für ein zweistöckiges Haus mit vielen Geräten einrichten?” ist noch besser, weil sie Kontext gibt.

Anthropics Claude-Leitfaden schlägt vor, dem Modell so viel Kontext wie möglich zu geben: Erkläre den Zweck der Aufgabe, die Zielgruppe oder alle relevanten Details darüber, was Du tust. Diese zusätzlichen Informationen helfen der KI, ihre Antwort auf Deine Bedürfnisse zuzuschneiden, anstatt eine Einheitsantwort auszuspucken.

Teile große oder komplexe Aufgaben in kleinere Teile auf

Wenn Du eine extrem breite Frage stellst (“Erkläre alles über den Klimawandel”), wird das Modell entweder eine sehr oberflächliche Antwort geben oder sich verheddern beim Versuch, zu viel abzudecken. Es kann helfen, komplexe Anfragen in mehrere, einfachere Prompts aufzuteilen.

Du könntest zuerst um eine Zusammenfassung eines Aspekts bitten und dann eine Folgefrage zu einem anderen Aspekt stellen. Dieser schrittweise Ansatz liefert oft klarere Informationen.

Tatsächlich wird Perplexitys eigene erweiterte Suchfunktion eine komplexe Anfrage in kleinere Teilfragen aufteilen, um bessere Antworten zu finden. Du kannst das nachahmen, indem Du die KI Schritt für Schritt durch ein Thema führst. Beginne zum Beispiel mit “Was sind die Hauptursachen des Klimawandels?” und stelle dann eine Folgefrage wie “Was sind die Auswirkungen auf Wettermuster?” und so weiter. Indem Du Deine Prompts verkettst, hilfst Du dem Modell, sich zu fokussieren und gründlichere Antworten zu liefern.

Bitte das Modell, seine Argumentation zu zeigen oder Quellen anzugeben

Eine weitere Möglichkeit, die Antwortqualität zu verbessern, besteht darin, das Modell ausdrücklich zu bitten, zu erklären, wie es zu einer Antwort gekommen ist, oder nach Zitaten zu fragen. Du könntest zum Beispiel prompten: “Erkläre Deine Argumentation Schritt für Schritt” oder “Gib mir die Quelle dieser Information an.” Das kann manchmal Fehler aufdecken (wenn die Argumentation fehlerhaft ist) oder die Genauigkeit erhöhen (das Modell überprüft sich möglicherweise selbst, bevor es eine Begründung liefert).

Einige KI-Systeme sind so konzipiert, dass sie automatisch Quellen zitieren. Die Perplexity-Antwortmaschine enthält zum Beispiel klickbare Zitate bei jeder Antwort, damit Du die Details überprüfen kannst. Wenn Du eine KI verwendest, die standardmäßig nicht zitiert (wie normales ChatGPT), kannst Du sie trotzdem auffordern, Referenzen anzugeben oder zumindest zu erwähnen, woher sie ihre Informationen hat.

Behalte im Hinterkopf, dass nicht alle Modelle echte Quellen spontan abrufen können, aber nach einer Begründung zu fragen kann helfen sicherzustellen, dass die Antwort nicht einfach aus dem Nichts gezogen wurde. Es ermutigt auch Dich, den Nutzer, die Antwort kritisch zu bewerten.

Verwende Folgefragen, um die Ausgabe zu verfeinern

Gib nicht auf, wenn die erste Antwort nicht perfekt ist. Einer der Vorteile von konversationeller KI ist, dass Du eine weitere Frage stellen kannst, um zu klären oder tiefer zu graben. Anstatt von vorne anzufangen mit einem ganz neuen Prompt, setze das Gespräch fort.

Wenn die Antwort zum Beispiel zu allgemein war, kannst Du sagen: “Kannst Du mehr Details zu X geben?” oder “Was ist mit Situation Y?” Dieser iterative Ansatz führt oft zu einem besseren Ergebnis als einmalige Anfragen.

Der Kontext aus Deiner ursprünglichen Frage bleibt im Gespräch, sodass das Modell weiß, was es Dir bereits gesagt hat. Das Perplexity-Team weist darauf hin, dass Du auf vorherigen Fragen natürlich aufbauen kannst, was ein reicheres Verständnis ermöglicht, ohne von vorne anfangen zu müssen.

In der Praxis bedeutet das, dass Du die KI korrigieren oder lenken kannst: “Eigentlich meinte ich diesen spezifischen Fall. Könntest Du das näher erläutern?” Indem Du den Prompt verfeinerst oder in Folgefragen mehr Details anforderst, lenkst Du die KI zu den Informationen, die Du wirklich willst. Es fühlt sich weniger an wie ein Gespräch mit einer ahnungslosen Maschine und mehr wie eine Zusammenarbeit mit einem Assistenten, um die Antwort einzugrenzen.

Fazit

Das Fazit ist, dass wenn eine KI eine schlechte Antwort gibt, es oft kein zufälliger Fehler ist – vielmehr folgt sie den Hinweisen (oder dem Mangel an Hinweisen) im Prompt. Wenn der Prompt schlecht formuliert ist, wirst Du wahrscheinlich eine schlechte Antwort bekommen. Die Kehrseite ist ermächtigend: Indem wir lernen, klar mit diesen Modellen zu kommunizieren, können wir deutlich bessere Ergebnisse erzielen. Es ist ein bisschen so, als würde man einer Person Anweisungen geben.

Eine vage Anfrage führt zu einem unsicheren Ergebnis, aber eine klare Anfrage erledigt die Arbeit. Ja, LLMs haben inhärente Einschränkungen (sie verstehen nicht wirklich und können Dinge erfinden), und selbst die fortschrittlichsten Modelle von heute geben gelegentlich selbstbewusst erfundene Sachen von sich.

KI-Entwickler bei OpenAI, Anthropic, DeepMind, IBM und anderen arbeiten aktiv daran, diese Systeme zuverlässiger und faktenbasierter zu machen. Aber als Endnutzer müssen wir nicht passiv warten. Wir können unsere Interaktionen jetzt verbessern, indem wir bessere Prompts formulieren und uns der Denkweise der KI bewusst sind (vorausschauender Text, kein allwissendes Orakel). Wenn Du einen durchdachten, präzisen Prompt gibst und das Gespräch leitest, hilfst Du der KI im Wesentlichen, in die richtige Richtung zu “denken”. Das Ergebnis ist oft ein Unterschied wie Tag und Nacht in der Qualität.

Zusammenfassend führen schlechte Prompts oft zu schlechten Ausgaben – nicht weil die KI hoffnungslos ist, sondern weil sie irreführende oder unzureichende Eingaben befolgt. Umgekehrt führen gute Prompts zu guten Ausgaben und zeigen die Fähigkeiten der KI im besten Licht. Je mehr wir verstehen, wie LLMs “denken” und wie wir ihre Sprache sprechen können, desto besser können sie mit uns denken und uns unterstützen. Anstatt frustriert zu sein, können wir uns ermächtigt fühlen, die Antworten oder Inhalte zu bekommen, die wir brauchen. In der neuen Welt der KI-Assistenten trägt ein bisschen Prompt-Wissen viel dazu bei, Verwirrung in Klarheit zu verwandeln – lies auch unsere Einführung in KI-Prompts für juristische Recherche.

Warum manche Prompts nicht funktionieren

Der Schmerzpunkt: Frustriert durch schlechte Ausgaben

Wie LLMs tatsächlich funktionieren (in einfachen Worten)

Die Rolle von Prompts: Müll rein, Müll raus

So schreibst Du bessere Prompts (umsetzbare Tipps)

Sei spezifisch und klar darüber, was Du willst

Gib Kontext oder Hintergrundinformationen

Teile große oder komplexe Aufgaben in kleinere Teile auf

Bitte das Modell, seine Argumentation zu zeigen oder Quellen anzugeben

Verwende Folgefragen, um die Ausgabe zu verfeinern

Fazit

Bereit, deine rechtlichen Workflows zu automatisieren?

Verwandte Artikel

KI-Einführung in der Kanzlei: So finden Sie die richtigen Multiplikatoren

Warum KI-Agenten deine juristische Arbeit nicht automatisieren

Legal Tech Trends: Eigene KI-Software ohne Coding bauen