LM Studio
LM Studio ist eine Benutzeroberfläche für die lokale Ausführung von grossen Sprachmodellen (Large Language Models, LLMs). Es ermöglicht Nutzern, verschiedene Modelle wie z. B. Llama, Mistral oder andere Open-Source-Modelle auf dem eigenen Computer zu laden und zu verwenden, ohne eine Internetverbindung oder Cloud-Dienste zu benötigen. Die Software bietet eine einfache, grafische Benutzeroberfläche und unterstützt mehrere Formate von Modellen, einschliesslich GGML und GPTQ.
Aufgabe: LM Studio installieren
- Installieren Sie LM Studio auf Ihrem Computer.
- Starten Sie LM Studio und laden Sie das Modell «Qwen3 VI 4B» herunter.
- Testen Sie das Modell, indem Sie ein paar Fragen stellen.
Grundlagen
Modellparameter
Grosse Sprachmodelle werden durch verschiedene Parameter beschrieben, welche einen Einfluss auf die benötigte Speichergrösse und die Leistungsfähigkeit des Modells haben. Die wichtigsten Parameter sind:
- Quantisierung (z.B. «4-bit» oder «Q4»)
- Parameter («params», z.B. «4B»)
- Fähigkeiten («capabilities» z.B. «Vision», «Reasoning», «Tool Use»)
Aufgabe: Modellparameter kennenlernen
Fragen Sie das installierte Sprachmodell, welche Bedeutung diese Modellparameter haben.
Halten Sie die Antworten in geeigneter Form fest.
Lösung: Modellparameter kennenlernen
- Quantisierung
- Es geht um Leistungs- und Kostenoptimierung indem verschiedene Bereich reduziert werden können: Modellvolumen, Rechenzeit, GPU-Ressource
- Genauigkeit kann abnehmen, aber meistens nur wenig
- LLMs lassen sich auf kleinen, mobilen oder Server-Ressourcen nutzen.
- Paramater
- Anzahl der Parameter im Modell, sprich Grösse des Modells
- mehr params -> komplexere Aufgaben, aber nicht immer «mehr ist besser»
- bestimmt die Grösse, Leistung, Kosten und Ressourcenbedarf.
- Fähigkeiten
- bezeichnet die funktionalen oder semantischen Fähigkeiten oder Funktionen, die ein Large Language Model besitzt
- z.B. Textgenerierung, Translation oder Code-Refactoring
Chat-Rollen und Systemprompt
In einem Chat mit einem grossen Sprachmodell werden drei Rollen unterschieden:
- System / Systemprompt
- Benutzer («user»)
- Assistent («assistant»)
Dabei wird jede Nachricht im Chatverlauf einer Rolle zugeordnet. Anhand der Rolle wird die Nachricht vom Sprachmodell anders interpretiert und im Chat anders dargestellt.
Um in LM Studio den Systemprompt zu bearbeiten, wird oben recht auf das Schraubenschlüssel-Icon geklickt und anschliessend das Tab «Context» ausgewählt.
Aufgabe: Chat-Rollen kennenlernen
- Finden Sie heraus, welche Bedeutung die verschiedenen Rollen haben.
- Probieren Sie verschiedene Systempromts aus.
Lösung: Chat-Rollen kennenlernen
- Systemprompt
- legt die Grundlage für das Verhalten des LLM.
- z.B. «Du bist ein Reiseberater»
- Chat-Rollen
- die KI kann eine bestimmte Rolle einnehmen
- dies beeinflusst ihr Denken und somit die Antwort
- User
- die Fragen des Menschen, also des Benutzers
- Assistant
- die Antworten der KI
- kann verwendet werden um den Kontext zu verändern
Tokens und Kontext
Tokens sind die grundlegenden Elemente in der Kommunikation mit einem grossen Sprachmodell. Die Länge einer Nachricht und des Kontexts eines Chats werden in Anzahl Tokens gemessen.
Aufgabe: Tokens und Kontext kennenlernen
Beantworten Sie die folgenden Fragen:
- Was sind Tokens genau und in welcher Beziehung stehen sie zum Text, der eingegeben wird?
- Welche Bedeutung hat der Kontext?
- Was ist die maximale Kontextlänge des aktuell verwendeten Modells?
- Welche Auswirkung hat die Kontextlänge auf das Verhalten des Modells?
Lösung: Tokens und Kontext kennenlernen
- Tokens sind die grundlegenden Einheiten, in die ein Text zerlegt wird (z. B. durch Tokenizer), und sie bilden die Basis für die Verarbeitung und Generierung von Texten im LLM.
- Kontext ist der Teil des Eingabetextes, der vom Modell für die Erstellung der Antwort verwendet wird – er beinhaltet sowohl die Vor- als auch die Nachfragen.
- Die maximale Kontextlänge des aktuellen Modells beträgt 4096 Tokens – das ist die maximale Anzahl von Tokens, die das Modell verarbeiten kann.
- Eine zu lange Kontextlänge führt zu einem Vermindern der Genauigkeit und zur Verzerrung der Antwort, da das Modell nicht mehr alle relevanten Informationen verarbeiten kann – und eine zu kurze Länge führt zu Verlust von Kontext und fehlender Präzision.
Modelleinstellungen
Das Verhalten von Sprachmodellen kann mit folgenden Einstellungen beeinflusst werden:
- Temperatur
- Top-K-Sampling
- Top-P-Sampling
- Min-P-Sampling
Aufgabe
Finden Sie heraus, was diese Einstellungen bedeuten.
Lösung
- Temperatur
- kontrolliert Kreativität / Präzision – 0=präzise, 1=normal, >1=kreativ
- Top-K-Sampling
- Nur die top-K wahrscheinlichsten Tokens werden berücksichtigt
- Top-P-Sampling
- Nur die Tokens, die zusammen ≥ P % der Wahrscheinlichkeit ausmachen
- Min-P-Sampling
- neuerer Ansatz: Tokens werden dynamisch berücksichtigt und nicht mit einem festen Wert wie bei Top-K oder Top-P
LLM-Projekt
Ziel des Projekts ist es, dass Sie die Leistungsfähigkeit eines lokalen Sprachmodells mit deren eines öffentlich verfügbaren Modells vergleichen.
Gebiet
Sie wählen eines der folgenden Spezialgebiete für den Vergleich aus. Jedes Gebiet darf nur von einer Gruppe gewählt werden.
- Programmieren in Python
- Mathematik
- Reasoning (Logikaufgaben lösen)
- sprachliche Kreativität (Kurzgeschichten oder Gedichte erstellen)
- Übersetzung Deutsch in eine andere Sprache
- geografisches Wissen
- Bilderkennung (Bilder analysieren)
- weitere Themen (nach Absprache mit LK)
Lokale Modelle wählen
Wählen Sie zwei unterschiedliche lokales Sprachmodelle, die für das von Ihnen gewählte Gebiet geeignet sind (z.B. Modell für Bildeingaben, Reasoning-Modell).
Wählen Sie lokale Modelle, die sich deutlich unterscheiden, entweder in der Anzahl Parameter (z.B. 4B und 16B) oder in der Architektur (z.B. Qwen und Gemma).
Experimente durchführen
Beachten Sie folgendes, um vergleichbare Antworten der verschiedenen Modelle zu erhalten:
- Verwenden Sie für alle Anfragen einen leeren Kontext.
- Benutzen Sie identische Prompts für alle Modelle.
- Stellen Sie sehr spezifische Anfragen.
- Schränken Sie die Antwortlänge ein (z.B. «Beschreibe in einem Satz…»)
Abgabe
Sie halten Ihre Nachforschungen in einem kurzen Bericht (also einer Art Mini-Maturaarbeit) fest. Der Bericht umfasst auf 2 bis 4 Seiten folgende Kapitel:
- Betrachtete Modelle
- Verfassen Sie einen Steckbrief der verglichenen Modelle, insbesondere bezüglich der oben erwähnten Modellparameter.
- Beispielprompts
- Geben Sie ein paar aussagekräftige Beispiele der von Ihnen ausprobierten Prompts mit den Antworten der verschiedenen Modellen an.
- Beobachtungen
- Beschreiben Sie, welche Unterschiede zwischen den Modellen Sie festgestellt haben.
- Fazit
- Halten Sie fest, für wie geeignet Sie die beiden lokalen Modelle für Ihr gewähltes Spezialgebiet halten.