Der ultimative LLM Benchmark: der Händler im Turm

Ich bin jetzt ja dabei, mal ein echtes Spiel (codename "The cave of confusion") mit LLMs zu bauen. Und nachdem sich Mistral Large als übertrieben teuer herausgestellt hat und GPT-5-mini als langsam, war es Zeit, verschiedene Modelle gründlich zu testen. Die Ergebnisse waren überraschend.

Die Aufgabe

Das LLM steuert einen Händler, der in einem Turm im Westlichen Teil des Levels sitzt. Der Händler hat 12 Gesundheitstränke zu bieten. In unserer Welt gibt es kein Geld. Jeder Handel besteht aus diesen Phasen:

Händler und Spieler machen Angebote wie "ich gebe dir ein Baklava für einen Trank".
Die beiden einigen sich.
Der eine gibt die vereinbarten Gegenstände
Der andere gibt die vereinbarten Gegenstände

Danach eventuell Folge-Händel.

Problem dabei ist: das LLM hat nur die Aktion "Gib einen Gegenstand". Wenn es sich mit dem Spieler einigt, dass es 3 Gegenstände geben muss, dann geht das nur über 3 Aktionen hintereinander.

Der Test

Der Test untersucht diese Kriterien:
- versteht die Situation: hat man den Eindruck, das LLM versteht, dass es ein Händler ist, der einen Handel durchführen will.
- in der Lage zu echtem Dialog: Bekommt man auf Antworten wiederum Antworten, die plausibel sind, oder immer die gleichen Phrasen?
- beantwortet korrekt, was auf Lager liegt: Kann es auf die Frage, was man hat, korrekt antworten? Antwortet es überhaupt? Halluziniert es?
- Schafft den ersten Handel korrekt: Kann ich ein Baklava gegen einen Gesundheitstrank tauschen?
- Schafft weiteren Handel korrekt: Kann ich danach einen weiteren Handel durchführen?
- Performance: Wie lang war die Antwortzeit (bei lokalen Modellen auf meinem PC, sonst wie lang der Server braucht)?

Zusammenfassung

Für ungeduldige Leser vorab die Zusammenfassung:

Modell	Versteht die Situation	Echter Dialog	Korrekt was auf Lager liegt	Erster Handel korrekt	Weiterer Handel korrekt	Performance	Gesamtbewertung / Kommentar
GPT-5-nano	Teilweise	Nein	Teilweise	Nein	n/a	★	Unbenutzbar
GPT-5-mini	Ja	Ja	Ja	Ja (etwas holprig)	Ja	★★	Gut benutzbar, aber zu langsam
GPT-5	Ja	Ja (menschlich)	Ja	Ja	Ja	★★	Außerordentlich gut, aber zu langsam
openai/gpt-oss-20b (LMStudio)	Teilweise	Nein	Nein	Nein	Nein	★★★★	Wirr, aber flott
qwen/qwen3-30b-a3b-2507	Nein	Nein	Nein	Nein	Nein	–	Größe hilft nicht
apriel-1.5-15b-thinker	Nein	Nein	Nein	Nein	Nein	★★★	Schon an JSON gescheitert
zephyr-7b-beta	Nein	Nein	Nein	Nein	Nein	★★★★★	Schnell, aber nutzlos
qwen/qwen3-4b-thinking-2507	Nein	Nein	Nein	Nein	Nein	★★	Chaotisches Denken, keine Antwort
deepseek-r1-0528-qwen3-8b	Nein	Nein	Nein	Nein	Nein	★★	Wie qwen3-4b-thinking
mistralai/mistral-7b-instruct-v0.3	Nein	Nein	Nein	Nein	Nein	★★★★★	Sehr schnell, aber platt
gemma-3-12b-it	Nein	Nein	Nein	Nein	Nein	★★★★★	Wie Mistral, aber nichts dahinter

Insgesamt läuft es wohl auf openai/gpt-oss-20b für basic tests ohne Kosten und GPT-5-mini für die richtigen Tests hinaus.

GPT-5-nano

versteht die Situation: zum Teil
in der Lage zu echtem Dialog: wiederholt sich stark.
beantwortet korrekt, was auf Lager liegt: erst Süßigkeiten, dann keine Süßigkeiten auf Lager
Schafft den ersten Handel korrekt: er nahm meinen Diamanten, und gab mir nichts dafür. Fast verhöhnend bot er mir danach meinen Diamanten zum Handel an.
Schafft weiteren Handel korrekt: n/a
Performance: langsam, auch über 10 Sekunden pro Roundtrip.

Insgesamt: Unbenutzbar.

GPT-5-mini

versteht die Situation: ja
in der Lage zu echtem Dialog: fast sehr gut - es geht gut auf mich ein, verwendet meinen Namen etc. Manchmal wiederholt es sich.
beantwortet korrekt, was auf Lager liegt: ja
Schafft den ersten Handel korrekt: ja, ein bisschen holperig, aber gut.
Schafft weiteren Handel korrekt: ja, gab mir auf Nachfrage meinen zweiten Trank, rückte keinen (nicht abgesprochenen) dritten Trank raus.
Performance: über 20 Sekunden pro Antwort, aber für ein Fünftel der Kosten von GPT-5 und ein Siebtel von Mistral Large ziemlich gut.

Insgesamt: ganz gut benutzbar, wenn auch zu langsam.

GPT-5

Irr. GPT-5 braucht zwar 25 Sekunden (!!!) für jede Aktion, doch die sind perfekt. Erst wird verhandelt, dann übergeben, und zwar korrekt. Wenn ich 3 Tränke für einen Diamanten bekomme, gibt mir die Maschine in 3 aufeinanderfolgenden Aktionen jeweils einen Trank, mit passendem Kommentar. Genau so. 25 Sekunden müssen noch auf unter eine Sekunde runter.

versteht die Situation: ja
in der Lage zu echtem Dialog: ausgezeichnet und nicht von einen Menschen unterscheidbar
beantwortet korrekt, was auf Lager liegt: Ja, erwähnt später sogar die Gegenstände, die ich ihm gegeben habe.
Schafft den ersten Handel korrekt: ja, und der war "2 Tränke für ein Baklava".
Schafft weiteren Handel korrekt: ja, wunderbar.
Performance: über 20 Sekunden pro Antwort

Insgesamt: ausserordentlich gut benutzbar, aber zu langsam.

openai/gpt-oss-20b in LMStudio

versteht die Situation: Teilweise. Das Konzept des Handelns versteht das LLM nur zum Teil.
in der Lage zu echtem Dialog: nein, die Maschine wiederholt sich ständig und ist wirr.
beantwortet korrekt, was auf Lager liegt: nein. Faselt von Leckereien, die er zu haben glaubt, sagt zu keinem Zeitpunkt, dass er Gesundheitstränke hat.
Schafft den ersten Handel korrekt: nein. Ich biete mein Baklava an, frage nach einem Handel, er beginnt, mir alle seine Tränke zu geben.
Schafft weiteren Handel korrekt: nein.
Performance: hängt vom Rechner ab. Bei mir recht flott - ca. 2 Sekunden pro Roundtrip.

qwen/qwen3-30b-a3b-2507

Mein größtes lokales Modell (13 GB) zeigt: Size does not matter.
- versteht die Situation: überhaupt nicht
- in der Lage zu echtem Dialog: überhaupt nicht, sagt immer den gleichen Satz. Selbst als ich ihm mein Baklava gebe, wiederholt er nur immer den gleichen Satz.
- beantwortet korrekt, was auf Lager liegt: nein
- Schafft den ersten Handel korrekt: nein
- Schafft weiteren Handel korrekt: nein
- Performance:

apriel-1.5-15b-thinker

Ist bereits mit der Aufgabe, überhaupt eine syntaktisch korrekte (JSON) Antwort zu erzeugen, die das Plugin verstehen kann, überfordert. Mighty thinker indeed.

zephyr-7b-beta

Dieses Modell hat überraschende Initiative bewiesen und einfach seinen Turm verlassen und sich auf den Weg zu mir gemacht. Danach war es allerdings nicht in der Lage, einen Handel zu beginnen. Auch seine (internen) Erklärungen waren äusserst kurz angebunden.

versteht die Situation: nein
in der Lage zu echtem Dialog: nein - wiederholte stets die drei gleichen Phrasen.
beantwortet korrekt, was auf Lager liegt: nein
Schafft den ersten Handel korrekt: nein
Schafft weiteren Handel korrekt: nein
Performance: sehr gut, so bei eine Sekunde pro Antwort

qwen/qwen3-4b-thinking-2507

Dieses denkende Modell gibt, egal wie viel Output-Tokens man erlaubt, den Anfang eines langen und ziemlich chaotischen, Deepseek-syle (bisschen denken, "Wait!", in andere Richtung bisschen denken, "Wait!"…) Denkprozesses zurück statt einer Antwort. Dafür brauchte es 20+ Sekunden. Hab nicht die Mühe investiert, irgendwelche Zusatzparameters für dieses Modell mitzugeben, damit ich die Denkerei nicht sehe.

deepseek/deepseek-r1-0528-qwen3-8b

Same as above.

mistralai/mistral-7b-instruct-v0.3

Ein enttäuschendes Modell. Sagt immer einen von drei Sätzen.
- versteht die Situation: nein
- in der Lage zu echtem Dialog: nein
- beantwortet korrekt, was auf Lager liegt: nein
- Schafft den ersten Handel korrekt: nein
- Schafft weiteren Handel korrekt: nein
- Performance: sehr gut, etwa 2 Sekunden Antwortzeit

gemma-3-12b-it

Fast genau die gleiche Performance wie das Mistral-Modell. Nur platte Standardsätze.

versteht die Situation: nein
in der Lage zu echtem Dialog: nein
beantwortet korrekt, was auf Lager liegt: nein
Schafft den ersten Handel korrekt: nein
Schafft weiteren Handel korrekt: nein
Performance: sehr gut, etwa 2 Sekunden Antwortzeit