Der ultimative LLM Benchmark: der Händler im Turm
Ich bin jetzt ja dabei, mal ein echtes Spiel (codename "The cave of confusion") mit LLMs zu bauen. Und nachdem sich Mistral Large als übertrieben teuer herausgestellt hat und GPT-5-mini als langsam, war es Zeit, verschiedene Modelle gründlich zu testen. Die Ergebnisse waren überraschend.
Die Aufgabe
Das LLM steuert einen Händler, der in einem Turm im Westlichen Teil des Levels sitzt. Der Händler hat 12 Gesundheitstränke zu bieten. In unserer Welt gibt es kein Geld. Jeder Handel besteht aus diesen Phasen:
- Händler und Spieler machen Angebote wie "ich gebe dir ein Baklava für einen Trank".
- Die beiden einigen sich.
- Der eine gibt die vereinbarten Gegenstände
- Der andere gibt die vereinbarten Gegenstände
Danach eventuell Folge-Händel.
Problem dabei ist: das LLM hat nur die Aktion "Gib einen Gegenstand". Wenn es sich mit dem Spieler einigt, dass es 3 Gegenstände geben muss, dann geht das nur über 3 Aktionen hintereinander.
Der Test
Der Test untersucht diese Kriterien:
- versteht die Situation: hat man den Eindruck, das LLM versteht, dass es ein Händler ist, der einen Handel durchführen will.
- in der Lage zu echtem Dialog: Bekommt man auf Antworten wiederum Antworten, die plausibel sind, oder immer die gleichen Phrasen?
- beantwortet korrekt, was auf Lager liegt: Kann es auf die Frage, was man hat, korrekt antworten? Antwortet es überhaupt? Halluziniert es?
- Schafft den ersten Handel korrekt: Kann ich ein Baklava gegen einen Gesundheitstrank tauschen?
- Schafft weiteren Handel korrekt: Kann ich danach einen weiteren Handel durchführen?
- Performance: Wie lang war die Antwortzeit (bei lokalen Modellen auf meinem PC, sonst wie lang der Server braucht)?
Zusammenfassung
Für ungeduldige Leser vorab die Zusammenfassung:
Modell | Versteht die Situation | Echter Dialog | Korrekt was auf Lager liegt | Erster Handel korrekt | Weiterer Handel korrekt | Performance | Gesamtbewertung / Kommentar |
---|---|---|---|---|---|---|---|
GPT-5-nano | Teilweise | Nein | Teilweise | Nein | n/a | ★ | Unbenutzbar |
GPT-5-mini | Ja | Ja | Ja | Ja (etwas holprig) | Ja | ★★ | Gut benutzbar, aber zu langsam |
GPT-5 | Ja | Ja (menschlich) | Ja | Ja | Ja | ★★ | Außerordentlich gut, aber zu langsam |
openai/gpt-oss-20b (LMStudio) | Teilweise | Nein | Nein | Nein | Nein | ★★★★ | Wirr, aber flott |
qwen/qwen3-30b-a3b-2507 | Nein | Nein | Nein | Nein | Nein | – | Größe hilft nicht |
apriel-1.5-15b-thinker | Nein | Nein | Nein | Nein | Nein | ★★★ | Schon an JSON gescheitert |
zephyr-7b-beta | Nein | Nein | Nein | Nein | Nein | ★★★★★ | Schnell, aber nutzlos |
qwen/qwen3-4b-thinking-2507 | Nein | Nein | Nein | Nein | Nein | ★★ | Chaotisches Denken, keine Antwort |
deepseek-r1-0528-qwen3-8b | Nein | Nein | Nein | Nein | Nein | ★★ | Wie qwen3-4b-thinking |
mistralai/mistral-7b-instruct-v0.3 | Nein | Nein | Nein | Nein | Nein | ★★★★★ | Sehr schnell, aber platt |
gemma-3-12b-it | Nein | Nein | Nein | Nein | Nein | ★★★★★ | Wie Mistral, aber nichts dahinter |
Insgesamt läuft es wohl auf openai/gpt-oss-20b für basic tests ohne Kosten und GPT-5-mini für die richtigen Tests hinaus.
GPT-5-nano
- versteht die Situation: zum Teil
- in der Lage zu echtem Dialog: wiederholt sich stark.
- beantwortet korrekt, was auf Lager liegt: erst Süßigkeiten, dann keine Süßigkeiten auf Lager
- Schafft den ersten Handel korrekt: er nahm meinen Diamanten, und gab mir nichts dafür. Fast verhöhnend bot er mir danach meinen Diamanten zum Handel an.
- Schafft weiteren Handel korrekt: n/a
- Performance: langsam, auch über 10 Sekunden pro Roundtrip.
Insgesamt: Unbenutzbar.
GPT-5-mini
- versteht die Situation: ja
- in der Lage zu echtem Dialog: fast sehr gut - es geht gut auf mich ein, verwendet meinen Namen etc. Manchmal wiederholt es sich.
- beantwortet korrekt, was auf Lager liegt: ja
- Schafft den ersten Handel korrekt: ja, ein bisschen holperig, aber gut.
- Schafft weiteren Handel korrekt: ja, gab mir auf Nachfrage meinen zweiten Trank, rückte keinen (nicht abgesprochenen) dritten Trank raus.
- Performance: über 20 Sekunden pro Antwort, aber für ein Fünftel der Kosten von GPT-5 und ein Siebtel von Mistral Large ziemlich gut.
Insgesamt: ganz gut benutzbar, wenn auch zu langsam.
GPT-5
Irr. GPT-5 braucht zwar 25 Sekunden (!!!) für jede Aktion, doch die sind perfekt. Erst wird verhandelt, dann übergeben, und zwar korrekt. Wenn ich 3 Tränke für einen Diamanten bekomme, gibt mir die Maschine in 3 aufeinanderfolgenden Aktionen jeweils einen Trank, mit passendem Kommentar. Genau so. 25 Sekunden müssen noch auf unter eine Sekunde runter.
- versteht die Situation: ja
- in der Lage zu echtem Dialog: ausgezeichnet und nicht von einen Menschen unterscheidbar
- beantwortet korrekt, was auf Lager liegt: Ja, erwähnt später sogar die Gegenstände, die ich ihm gegeben habe.
- Schafft den ersten Handel korrekt: ja, und der war "2 Tränke für ein Baklava".
- Schafft weiteren Handel korrekt: ja, wunderbar.
- Performance: über 20 Sekunden pro Antwort
Insgesamt: ausserordentlich gut benutzbar, aber zu langsam.
openai/gpt-oss-20b in LMStudio
- versteht die Situation: Teilweise. Das Konzept des Handelns versteht das LLM nur zum Teil.
- in der Lage zu echtem Dialog: nein, die Maschine wiederholt sich ständig und ist wirr.
- beantwortet korrekt, was auf Lager liegt: nein. Faselt von Leckereien, die er zu haben glaubt, sagt zu keinem Zeitpunkt, dass er Gesundheitstränke hat.
- Schafft den ersten Handel korrekt: nein. Ich biete mein Baklava an, frage nach einem Handel, er beginnt, mir alle seine Tränke zu geben.
- Schafft weiteren Handel korrekt: nein.
- Performance: hängt vom Rechner ab. Bei mir recht flott - ca. 2 Sekunden pro Roundtrip.
qwen/qwen3-30b-a3b-2507
Mein größtes lokales Modell (13 GB) zeigt: Size does not matter.
- versteht die Situation: überhaupt nicht
- in der Lage zu echtem Dialog: überhaupt nicht, sagt immer den gleichen Satz. Selbst als ich ihm mein Baklava gebe, wiederholt er nur immer den gleichen Satz.
- beantwortet korrekt, was auf Lager liegt: nein
- Schafft den ersten Handel korrekt: nein
- Schafft weiteren Handel korrekt: nein
- Performance:
apriel-1.5-15b-thinker
Ist bereits mit der Aufgabe, überhaupt eine syntaktisch korrekte (JSON) Antwort zu erzeugen, die das Plugin verstehen kann, überfordert. Mighty thinker indeed.
zephyr-7b-beta
Dieses Modell hat überraschende Initiative bewiesen und einfach seinen Turm verlassen und sich auf den Weg zu mir gemacht. Danach war es allerdings nicht in der Lage, einen Handel zu beginnen. Auch seine (internen) Erklärungen waren äusserst kurz angebunden.
- versteht die Situation: nein
- in der Lage zu echtem Dialog: nein - wiederholte stets die drei gleichen Phrasen.
- beantwortet korrekt, was auf Lager liegt: nein
- Schafft den ersten Handel korrekt: nein
- Schafft weiteren Handel korrekt: nein
- Performance: sehr gut, so bei eine Sekunde pro Antwort
qwen/qwen3-4b-thinking-2507
Dieses denkende Modell gibt, egal wie viel Output-Tokens man erlaubt, den Anfang eines langen und ziemlich chaotischen, Deepseek-syle (bisschen denken, "Wait!", in andere Richtung bisschen denken, "Wait!"…) Denkprozesses zurück statt einer Antwort. Dafür brauchte es 20+ Sekunden. Hab nicht die Mühe investiert, irgendwelche Zusatzparameters für dieses Modell mitzugeben, damit ich die Denkerei nicht sehe.
deepseek/deepseek-r1-0528-qwen3-8b
Same as above.
mistralai/mistral-7b-instruct-v0.3
Ein enttäuschendes Modell. Sagt immer einen von drei Sätzen.
- versteht die Situation: nein
- in der Lage zu echtem Dialog: nein
- beantwortet korrekt, was auf Lager liegt: nein
- Schafft den ersten Handel korrekt: nein
- Schafft weiteren Handel korrekt: nein
- Performance: sehr gut, etwa 2 Sekunden Antwortzeit
gemma-3-12b-it
Fast genau die gleiche Performance wie das Mistral-Modell. Nur platte Standardsätze.
- versteht die Situation: nein
- in der Lage zu echtem Dialog: nein
- beantwortet korrekt, was auf Lager liegt: nein
- Schafft den ersten Handel korrekt: nein
- Schafft weiteren Handel korrekt: nein
- Performance: sehr gut, etwa 2 Sekunden Antwortzeit