LLM-Projekt

LM Studio

LM Studio ist eine Benutzeroberfläche für die lokale Ausführung von grossen Sprachmodellen (Large Language Models, LLMs). Es ermöglicht Nutzern, verschiedene Modelle wie z. B. Llama, Mistral oder andere Open-Source-Modelle auf dem eigenen Computer zu laden und zu verwenden, ohne eine Internetverbindung oder Cloud-Dienste zu benötigen. Die Software bietet eine einfache, grafische Benutzeroberfläche und unterstützt mehrere Formate von Modellen, einschliesslich GGML und GPTQ.

Aufgabe: LM Studio installieren

Installieren Sie LM Studio auf Ihrem Computer.
Starten Sie LM Studio und laden Sie das Modell «Qwen3 VI 4B» herunter.
Testen Sie das Modell, indem Sie ein paar Fragen stellen.

Grundlagen

Modellparameter

Grosse Sprachmodelle werden durch verschiedene Parameter beschrieben, welche einen Einfluss auf die benötigte Speichergrösse und die Leistungsfähigkeit des Modells haben. Die wichtigsten Parameter sind:

Quantisierung (z.B. «4-bit» oder «Q4»)
Parameter («params», z.B. «4B»)
Fähigkeiten («capabilities» z.B. «Vision», «Reasoning», «Tool Use»)

Aufgabe: Modellparameter kennenlernen

Fragen Sie das installierte Sprachmodell, welche Bedeutung diese Modellparameter haben.

Halten Sie die Antworten in geeigneter Form fest.

Lösung: Modellparameter kennenlernen

Quantisierung: Es geht um Leistungs- und Kostenoptimierung indem verschiedene Bereich reduziert werden können: Modellvolumen, Rechenzeit, GPU-Ressource; Genauigkeit kann abnehmen, aber meistens nur wenig; LLMs lassen sich auf kleinen, mobilen oder Server-Ressourcen nutzen.
Paramater: Anzahl der Parameter im Modell, sprich Grösse des Modells; mehr params -> komplexere Aufgaben, aber nicht immer «mehr ist besser»; bestimmt die Grösse, Leistung, Kosten und Ressourcenbedarf.
Fähigkeiten: bezeichnet die funktionalen oder semantischen Fähigkeiten oder Funktionen, die ein Large Language Model besitzt; z.B. Textgenerierung, Translation oder Code-Refactoring

Chat-Rollen und Systemprompt

In einem Chat mit einem grossen Sprachmodell werden drei Rollen unterschieden:

System / Systemprompt
Benutzer («user»)
Assistent («assistant»)

Dabei wird jede Nachricht im Chatverlauf einer Rolle zugeordnet. Anhand der Rolle wird die Nachricht vom Sprachmodell anders interpretiert und im Chat anders dargestellt.

Um in LM Studio den Systemprompt zu bearbeiten, wird oben recht auf das Schraubenschlüssel-Icon geklickt und anschliessend das Tab «Context» ausgewählt.

Aufgabe: Chat-Rollen kennenlernen

Finden Sie heraus, welche Bedeutung die verschiedenen Rollen haben.
Probieren Sie verschiedene Systempromts aus.

Lösung: Chat-Rollen kennenlernen

Systemprompt: legt die Grundlage für das Verhalten des LLM.; z.B. «Du bist ein Reiseberater»
Chat-Rollen: die KI kann eine bestimmte Rolle einnehmen; dies beeinflusst ihr Denken und somit die Antwort
User: die Fragen des Menschen, also des Benutzers
Assistant: die Antworten der KI; kann verwendet werden um den Kontext zu verändern

Tokens und Kontext

Tokens sind die grundlegenden Elemente in der Kommunikation mit einem grossen Sprachmodell. Die Länge einer Nachricht und des Kontexts eines Chats werden in Anzahl Tokens gemessen.

Aufgabe: Tokens und Kontext kennenlernen

Beantworten Sie die folgenden Fragen:

Was sind Tokens genau und in welcher Beziehung stehen sie zum Text, der eingegeben wird?
Welche Bedeutung hat der Kontext?
Was ist die maximale Kontextlänge des aktuell verwendeten Modells?
Welche Auswirkung hat die Kontextlänge auf das Verhalten des Modells?

Lösung: Tokens und Kontext kennenlernen

Tokens sind die grundlegenden Einheiten, in die ein Text zerlegt wird (z. B. durch Tokenizer), und sie bilden die Basis für die Verarbeitung und Generierung von Texten im LLM.
Kontext ist der Teil des Eingabetextes, der vom Modell für die Erstellung der Antwort verwendet wird – er beinhaltet sowohl die Vor- als auch die Nachfragen.
Die maximale Kontextlänge des aktuellen Modells beträgt 4096 Tokens – das ist die maximale Anzahl von Tokens, die das Modell verarbeiten kann.
Eine zu lange Kontextlänge führt zu einem Vermindern der Genauigkeit und zur Verzerrung der Antwort, da das Modell nicht mehr alle relevanten Informationen verarbeiten kann – und eine zu kurze Länge führt zu Verlust von Kontext und fehlender Präzision.

Modelleinstellungen

Das Verhalten von Sprachmodellen kann mit folgenden Einstellungen beeinflusst werden:

Temperatur
Top-K-Sampling
Top-P-Sampling
Min-P-Sampling

Aufgabe

Finden Sie heraus, was diese Einstellungen bedeuten.

Lösung

Temperatur: kontrolliert Kreativität / Präzision – 0=präzise, 1=normal, >1=kreativ
Top-K-Sampling: Nur die top-K wahrscheinlichsten Tokens werden berücksichtigt
Top-P-Sampling: Nur die Tokens, die zusammen ≥ P % der Wahrscheinlichkeit ausmachen
Min-P-Sampling: neuerer Ansatz: Tokens werden dynamisch berücksichtigt und nicht mit einem festen Wert wie bei Top-K oder Top-P

Ziel des Projekts ist es, dass Sie die Leistungsfähigkeit eines lokalen Sprachmodells mit deren eines öffentlich verfügbaren Modells vergleichen.

Gebiet

Sie wählen eines der folgenden Spezialgebiete für den Vergleich aus. Jedes Gebiet darf nur von einer Gruppe gewählt werden.

Programmieren in Python
Mathematik
Reasoning (Logikaufgaben lösen)
sprachliche Kreativität (Kurzgeschichten oder Gedichte erstellen)
Übersetzung Deutsch in eine andere Sprache
geografisches Wissen
Bilderkennung (Bilder analysieren)
weitere Themen (nach Absprache mit LK)

Lokale Modelle wählen

Wählen Sie zwei unterschiedliche lokales Sprachmodelle, die für das von Ihnen gewählte Gebiet geeignet sind (z.B. Modell für Bildeingaben, Reasoning-Modell).

Wählen Sie lokale Modelle, die sich deutlich unterscheiden, entweder in der Anzahl Parameter (z.B. 4B und 16B) oder in der Architektur (z.B. Qwen und Gemma).

Experimente durchführen

Beachten Sie folgendes, um vergleichbare Antworten der verschiedenen Modelle zu erhalten:

Verwenden Sie für alle Anfragen einen leeren Kontext.
Benutzen Sie identische Prompts für alle Modelle.
Stellen Sie sehr spezifische Anfragen.
Schränken Sie die Antwortlänge ein (z.B. «Beschreibe in einem Satz…»)

Abgabe

Sie halten Ihre Nachforschungen in einem kurzen Bericht (also einer Art Mini-Maturaarbeit) fest. Der Bericht umfasst auf 2 bis 4 Seiten folgende Kapitel:

Betrachtete Modelle: Verfassen Sie einen Steckbrief der verglichenen Modelle, insbesondere bezüglich der oben erwähnten Modellparameter.
Beispielprompts: Geben Sie ein paar aussagekräftige Beispiele der von Ihnen ausprobierten Prompts mit den Antworten der verschiedenen Modellen an.
Beobachtungen: Beschreiben Sie, welche Unterschiede zwischen den Modellen Sie festgestellt haben.
Fazit: Halten Sie fest, für wie geeignet Sie die beiden lokalen Modelle für Ihr gewähltes Spezialgebiet halten.

LLM-Projekt

LM Studio ​

Grundlagen ​

Modellparameter ​

Chat-Rollen und Systemprompt ​

Tokens und Kontext ​

Modelleinstellungen ​

LLM-Projekt ​

Gebiet ​

Lokale Modelle wählen ​

Experimente durchführen ​

Abgabe ​

LM Studio

Grundlagen

Modellparameter

Chat-Rollen und Systemprompt

Tokens und Kontext

Modelleinstellungen

LLM-Projekt

Gebiet

Lokale Modelle wählen

Experimente durchführen

Abgabe