KI und Ich

Ein Blog über KI, Auswirkungen und Experimente von Karlheinz Agsteiner

Der ultimative LLM Benchmark: der Händler im Turm

Ich bin jetzt ja dabei, mal ein echtes Spiel (codename "The cave of confusion") mit LLMs zu bauen. Und nachdem sich Mistral Large als übertrieben teuer herausgestellt hat und GPT-5-mini als langsam, war es Zeit, verschiedene Modelle gründlich zu testen. Die Ergebnisse waren überraschend.

Die Aufgabe

Das LLM steuert einen Händler, der in einem Turm im Westlichen Teil des Levels sitzt. Der Händler hat 12 Gesundheitstränke zu bieten. In unserer Welt gibt es kein Geld. Jeder Handel besteht aus diesen Phasen:

  1. Händler und Spieler machen Angebote wie "ich gebe dir ein Baklava für einen Trank".
  2. Die beiden einigen sich.
  3. Der eine gibt die vereinbarten Gegenstände
  4. Der andere gibt die vereinbarten Gegenstände

Danach eventuell Folge-Händel.

Problem dabei ist: das LLM hat nur die Aktion "Gib einen Gegenstand". Wenn es sich mit dem Spieler einigt, dass es 3 Gegenstände geben muss, dann geht das nur über 3 Aktionen hintereinander.

Der Test

Der Test untersucht diese Kriterien:
- versteht die Situation: hat man den Eindruck, das LLM versteht, dass es ein Händler ist, der einen Handel durchführen will.
- in der Lage zu echtem Dialog: Bekommt man auf Antworten wiederum Antworten, die plausibel sind, oder immer die gleichen Phrasen?
- beantwortet korrekt, was auf Lager liegt: Kann es auf die Frage, was man hat, korrekt antworten? Antwortet es überhaupt? Halluziniert es?
- Schafft den ersten Handel korrekt: Kann ich ein Baklava gegen einen Gesundheitstrank tauschen?
- Schafft weiteren Handel korrekt: Kann ich danach einen weiteren Handel durchführen?
- Performance: Wie lang war die Antwortzeit (bei lokalen Modellen auf meinem PC, sonst wie lang der Server braucht)?

Zusammenfassung

Für ungeduldige Leser vorab die Zusammenfassung:

Modell Versteht die Situation Echter Dialog Korrekt was auf Lager liegt Erster Handel korrekt Weiterer Handel korrekt Performance Gesamtbewertung / Kommentar
GPT-5-nano Teilweise Nein Teilweise Nein n/a Unbenutzbar
GPT-5-mini Ja Ja Ja Ja (etwas holprig) Ja ★★ Gut benutzbar, aber zu langsam
GPT-5 Ja Ja (menschlich) Ja Ja Ja ★★ Außerordentlich gut, aber zu langsam
openai/gpt-oss-20b (LMStudio) Teilweise Nein Nein Nein Nein ★★★★ Wirr, aber flott
qwen/qwen3-30b-a3b-2507 Nein Nein Nein Nein Nein Größe hilft nicht
apriel-1.5-15b-thinker Nein Nein Nein Nein Nein ★★★ Schon an JSON gescheitert
zephyr-7b-beta Nein Nein Nein Nein Nein ★★★★★ Schnell, aber nutzlos
qwen/qwen3-4b-thinking-2507 Nein Nein Nein Nein Nein ★★ Chaotisches Denken, keine Antwort
deepseek-r1-0528-qwen3-8b Nein Nein Nein Nein Nein ★★ Wie qwen3-4b-thinking
mistralai/mistral-7b-instruct-v0.3 Nein Nein Nein Nein Nein ★★★★★ Sehr schnell, aber platt
gemma-3-12b-it Nein Nein Nein Nein Nein ★★★★★ Wie Mistral, aber nichts dahinter

Insgesamt läuft es wohl auf openai/gpt-oss-20b für basic tests ohne Kosten und GPT-5-mini für die richtigen Tests hinaus.

GPT-5-nano

Insgesamt: Unbenutzbar.

GPT-5-mini

Insgesamt: ganz gut benutzbar, wenn auch zu langsam.

GPT-5

Irr. GPT-5 braucht zwar 25 Sekunden (!!!) für jede Aktion, doch die sind perfekt. Erst wird verhandelt, dann übergeben, und zwar korrekt. Wenn ich 3 Tränke für einen Diamanten bekomme, gibt mir die Maschine in 3 aufeinanderfolgenden Aktionen jeweils einen Trank, mit passendem Kommentar. Genau so. 25 Sekunden müssen noch auf unter eine Sekunde runter.

Insgesamt: ausserordentlich gut benutzbar, aber zu langsam.

openai/gpt-oss-20b in LMStudio

qwen/qwen3-30b-a3b-2507

Mein größtes lokales Modell (13 GB) zeigt: Size does not matter.
- versteht die Situation: überhaupt nicht
- in der Lage zu echtem Dialog: überhaupt nicht, sagt immer den gleichen Satz. Selbst als ich ihm mein Baklava gebe, wiederholt er nur immer den gleichen Satz.
- beantwortet korrekt, was auf Lager liegt: nein
- Schafft den ersten Handel korrekt: nein
- Schafft weiteren Handel korrekt: nein
- Performance:

apriel-1.5-15b-thinker

Ist bereits mit der Aufgabe, überhaupt eine syntaktisch korrekte (JSON) Antwort zu erzeugen, die das Plugin verstehen kann, überfordert. Mighty thinker indeed.

zephyr-7b-beta

Dieses Modell hat überraschende Initiative bewiesen und einfach seinen Turm verlassen und sich auf den Weg zu mir gemacht. Danach war es allerdings nicht in der Lage, einen Handel zu beginnen. Auch seine (internen) Erklärungen waren äusserst kurz angebunden.

qwen/qwen3-4b-thinking-2507

Dieses denkende Modell gibt, egal wie viel Output-Tokens man erlaubt, den Anfang eines langen und ziemlich chaotischen, Deepseek-syle (bisschen denken, "Wait!", in andere Richtung bisschen denken, "Wait!"…) Denkprozesses zurück statt einer Antwort. Dafür brauchte es 20+ Sekunden. Hab nicht die Mühe investiert, irgendwelche Zusatzparameters für dieses Modell mitzugeben, damit ich die Denkerei nicht sehe.

deepseek/deepseek-r1-0528-qwen3-8b

Same as above.

mistralai/mistral-7b-instruct-v0.3

Ein enttäuschendes Modell. Sagt immer einen von drei Sätzen.
- versteht die Situation: nein
- in der Lage zu echtem Dialog: nein
- beantwortet korrekt, was auf Lager liegt: nein
- Schafft den ersten Handel korrekt: nein
- Schafft weiteren Handel korrekt: nein
- Performance: sehr gut, etwa 2 Sekunden Antwortzeit

gemma-3-12b-it

Fast genau die gleiche Performance wie das Mistral-Modell. Nur platte Standardsätze.