Skip to content

LLM-Projekt

Künstliche Intelligenz (modern)

LM Studio

LM Studio ist eine Benutzeroberfläche für die lokale Ausführung von grossen Sprachmodellen (Large Language Models, LLMs). Es ermöglicht Nutzern, verschiedene Modelle wie z. B. Llama, Mistral oder andere Open-Source-Modelle auf dem eigenen Computer zu laden und zu verwenden, ohne eine Internetverbindung oder Cloud-Dienste zu benötigen. Die Software bietet eine einfache, grafische Benutzeroberfläche und unterstützt mehrere Formate von Modellen, einschliesslich GGML und GPTQ.

Aufgabe: LM Studio installieren

  1. Installieren Sie LM Studio auf Ihrem Computer.
  2. Starten Sie LM Studio und laden Sie das Modell «Qwen3 VI 4B» herunter.
  3. Testen Sie das Modell, indem Sie ein paar Fragen stellen.

Grundlagen

Modellparameter

Grosse Sprachmodelle werden durch verschiedene Parameter beschrieben, welche einen Einfluss auf die benötigte Speichergrösse und die Leistungsfähigkeit des Modells haben. Die wichtigsten Parameter sind:

  • Quantisierung (z.B. «4-bit» oder «Q4»)
  • Parameter («params», z.B. «4B»)
  • Fähigkeiten («capabilities» z.B. «Vision», «Reasoning», «Tool Use»)

Aufgabe: Modellparameter kennenlernen

Fragen Sie das installierte Sprachmodell, welche Bedeutung diese Modellparameter haben.

Halten Sie die Antworten in geeigneter Form fest.

Lösung: Modellparameter kennenlernen
Quantisierung
Es geht um Leistungs- und Kostenoptimierung indem verschiedene Bereich reduziert werden können: Modellvolumen, Rechenzeit, GPU-Ressource
Genauigkeit kann abnehmen, aber meistens nur wenig
LLMs lassen sich auf kleinen, mobilen oder Server-Ressourcen nutzen.
Paramater
Anzahl der Parameter im Modell, sprich Grösse des Modells
mehr params -> komplexere Aufgaben, aber nicht immer «mehr ist besser»
bestimmt die Grösse, Leistung, Kosten und Ressourcenbedarf.
Fähigkeiten
bezeichnet die funktionalen oder semantischen Fähigkeiten oder Funktionen, die ein Large Language Model besitzt
z.B. Textgenerierung, Translation oder Code-Refactoring

Chat-Rollen und Systemprompt

In einem Chat mit einem grossen Sprachmodell werden drei Rollen unterschieden:

  • System / Systemprompt
  • Benutzer («user»)
  • Assistent («assistant»)

Dabei wird jede Nachricht im Chatverlauf einer Rolle zugeordnet. Anhand der Rolle wird die Nachricht vom Sprachmodell anders interpretiert und im Chat anders dargestellt.

Um in LM Studio den Systemprompt zu bearbeiten, wird oben recht auf das Schraubenschlüssel-Icon geklickt und anschliessend das Tab «Context» ausgewählt.

Aufgabe: Chat-Rollen kennenlernen

  1. Finden Sie heraus, welche Bedeutung die verschiedenen Rollen haben.
  2. Probieren Sie verschiedene Systempromts aus.
Lösung: Chat-Rollen kennenlernen
Systemprompt
legt die Grundlage für das Verhalten des LLM.
z.B. «Du bist ein Reiseberater»
Chat-Rollen
die KI kann eine bestimmte Rolle einnehmen
dies beeinflusst ihr Denken und somit die Antwort
User
die Fragen des Menschen, also des Benutzers
Assistant
die Antworten der KI
kann verwendet werden um den Kontext zu verändern

Tokens und Kontext

Tokens sind die grundlegenden Elemente in der Kommunikation mit einem grossen Sprachmodell. Die Länge einer Nachricht und des Kontexts eines Chats werden in Anzahl Tokens gemessen.

Aufgabe: Tokens und Kontext kennenlernen

Beantworten Sie die folgenden Fragen:

  1. Was sind Tokens genau und in welcher Beziehung stehen sie zum Text, der eingegeben wird?
  2. Welche Bedeutung hat der Kontext?
  3. Was ist die maximale Kontextlänge des aktuell verwendeten Modells?
  4. Welche Auswirkung hat die Kontextlänge auf das Verhalten des Modells?
Lösung: Tokens und Kontext kennenlernen
  1. Tokens sind die grundlegenden Einheiten, in die ein Text zerlegt wird (z. B. durch Tokenizer), und sie bilden die Basis für die Verarbeitung und Generierung von Texten im LLM.
  2. Kontext ist der Teil des Eingabetextes, der vom Modell für die Erstellung der Antwort verwendet wird – er beinhaltet sowohl die Vor- als auch die Nachfragen.
  3. Die maximale Kontextlänge des aktuellen Modells beträgt 4096 Tokens – das ist die maximale Anzahl von Tokens, die das Modell verarbeiten kann.
  4. Eine zu lange Kontextlänge führt zu einem Vermindern der Genauigkeit und zur Verzerrung der Antwort, da das Modell nicht mehr alle relevanten Informationen verarbeiten kann – und eine zu kurze Länge führt zu Verlust von Kontext und fehlender Präzision.

Modelleinstellungen

Das Verhalten von Sprachmodellen kann mit folgenden Einstellungen beeinflusst werden:

  • Temperatur
  • Top-K-Sampling
  • Top-P-Sampling
  • Min-P-Sampling

Aufgabe

Finden Sie heraus, was diese Einstellungen bedeuten.

Lösung
Temperatur
kontrolliert Kreativität / Präzision – 0=präzise, 1=normal, >1=kreativ
Top-K-Sampling
Nur die top-K wahrscheinlichsten Tokens werden berücksichtigt
Top-P-Sampling
Nur die Tokens, die zusammen ≥ P % der Wahrscheinlichkeit ausmachen
Min-P-Sampling
neuerer Ansatz: Tokens werden dynamisch berücksichtigt und nicht mit einem festen Wert wie bei Top-K oder Top-P

LLM-Projekt

Ziel des Projekts ist es, dass Sie die Leistungsfähigkeit eines lokalen Sprachmodells mit deren eines öffentlich verfügbaren Modells vergleichen.

Gebiet

Sie wählen eines der folgenden Spezialgebiete für den Vergleich aus. Jedes Gebiet darf nur von einer Gruppe gewählt werden.

  • Programmieren in Python
  • Mathematik
  • Reasoning (Logikaufgaben lösen)
  • sprachliche Kreativität (Kurzgeschichten oder Gedichte erstellen)
  • Übersetzung Deutsch in eine andere Sprache
  • geografisches Wissen
  • Bilderkennung (Bilder analysieren)
  • weitere Themen (nach Absprache mit LK)

Lokale Modelle wählen

Wählen Sie zwei unterschiedliche lokales Sprachmodelle, die für das von Ihnen gewählte Gebiet geeignet sind (z.B. Modell für Bildeingaben, Reasoning-Modell).

Wählen Sie lokale Modelle, die sich deutlich unterscheiden, entweder in der Anzahl Parameter (z.B. 4B und 16B) oder in der Architektur (z.B. Qwen und Gemma).

Experimente durchführen

Beachten Sie folgendes, um vergleichbare Antworten der verschiedenen Modelle zu erhalten:

  • Verwenden Sie für alle Anfragen einen leeren Kontext.
  • Benutzen Sie identische Prompts für alle Modelle.
  • Stellen Sie sehr spezifische Anfragen.
  • Schränken Sie die Antwortlänge ein (z.B. «Beschreibe in einem Satz…»)

Abgabe

Sie halten Ihre Nachforschungen in einem kurzen Bericht (also einer Art Mini-Maturaarbeit) fest. Der Bericht umfasst auf 2 bis 4 Seiten folgende Kapitel:

Betrachtete Modelle
Verfassen Sie einen Steckbrief der verglichenen Modelle, insbesondere bezüglich der oben erwähnten Modellparameter.
Beispielprompts
Geben Sie ein paar aussagekräftige Beispiele der von Ihnen ausprobierten Prompts mit den Antworten der verschiedenen Modellen an.
Beobachtungen
Beschreiben Sie, welche Unterschiede zwischen den Modellen Sie festgestellt haben.
Fazit
Halten Sie fest, für wie geeignet Sie die beiden lokalen Modelle für Ihr gewähltes Spezialgebiet halten.

Gymnasium Kirchenfeld, fts & lem