Executive Summary
90% der Entwickler wechseln das KI-Modell, wenn ihr Agent Fehler macht. Das ist die falsche Strategie.
Der KI-Agent ist nicht das Modell. Der Agent ist der Harness – die Software-Infrastruktur, die das Modell produktiv macht. Dieser Harness besteht aus Instructions, Tools und User Messages. Er bestimmt, ob dein Agent konsistente Ergebnisse liefert oder systematisch fehlschlägt.
In diesem Artikel lernst du:
- Was ein Agent-Harness ist und warum das Modell nur 10% ausmacht
- Die 3 Kern-Komponenten, die jeden Agent bestimmen
- Warum 90% der Teams scheitern (und wie du es besser machst)
- 4 konkrete Schritte für einen produktionsreifen Agent-Harness
Basierend auf 400+ geschulten Software-Entwicklern und 25 Jahren IT/KI-Consulting-Erfahrung.
Bereit für konsistente Agenten?
Option A: Ihr steht am Beginn eurer KI-DEV Reise – Dann schau dir unser 12 Wochen DEV AI Bootcamp an und baut richtige KI-First Gewohnheiten auf.
♦
Option B: Oder seid ihr schon gut mit KI unterwegs und es muss schneller gehen, dann schau mal hier rein: Agentic Coding Hackathon
Was kostet ein schlecht konfigurierter KI-Agent Unternehmen wirklich?
Letzte Woche im DEV AI Bootcamp: Ein Team aus Software Entwicklern erzählte mir von ihrem «KI-Agent-Disaster».
Sie hatten sechs Monate investiert:
- 3 verschiedene Modelle getestet (Claude, GPT-4o, Gemini)
- 50+ Custom-Prompts geschrieben
- Ein «AI-First»-Team aufgebaut
- Regelmässige Prompt-Optimierungen durchgeführt
Das Ergebnis? Chaos.
Der Agent schrieb Code, der mal brilliant war, mal komplett daneben. Mal folgte er den Konventionen, mal ignorierte er sie komplett. Mal waren Tests inkludiert, mal nicht. Der Code-Review-Prozess wurde zur Achterbahn.
Die CTO sagte mir: «Wir dachten, das Modell wäre das Problem. Also wechselten wir. Dreimal. Nichts änderte sich.»
Das eigentliche Problem: Der fehlende Agent-Harness.
Sie hatten kein System, das den Agent konsistent steuert. Keine zentrale Agent.md mit klaren Regeln. Keine standardisierten Tools. Keine strukturierten Workflows.
Sie waren wie Taxifahrer ohne Lenkrad – der Motor war stark, aber es gab keine Kontrolle.
Das Modell war austauschbar. Der fehlende Harness nicht.
Dieses Problem kostet die Industrie Millionen. Laut einer Studie von McKinsey aus 2024 scheitern 70% der AI-Implementierungen an mangelnder Integration und fehlenden Prozessen – nicht an der Technologie selbst.
Und es ist 100% vermeidbar.
Warum sind Agent-Harnesses 2025 unverzichtbar?
KI-Agenten sind kein Experiment mehr – sie sind Production-Standard.
Laut dem Stack Overflow Developer Survey 2024 nutzen bereits 76% der Entwickler KI-Tools in ihrer täglichen Arbeit oder planen dies. Der GitHub Octoverse Report 2024 zeigt: Projekte mit GitHub Copilot haben 55% mehr Pull Requests pro Entwickler.
Aber hier ist die unbequeme Wahrheit: Die meisten Teams behandeln KI-Agenten wie erweiterte Autocomplete-Tools. Sie promten, hoffen, iterieren. Ohne System. Ohne Strategie.
Das funktioniert für Prototypen. Nicht für Production.
In Production brauchst du:
- Konsistenz: Der Agent schreibt Code mit denselben Style-Patterns, Sicherheitspraktiken, Best Practices
- Wiederholbarkeit: Gleicher Input sollte (fast immer) gleichen Output erzeugen
- Skalierbarkeit: 10 Agenten, 100 Features, 1000 Commits pro Monat – all das muss managebar sein
Genau hier kommt der Agent-Harness ins Spiel.
Agent-Harness (Definition):
Die Software-Infrastruktur, die ein KI-Modell zu einem produktiven Agenten macht. Sie umfasst Instructions (Regeln), Tools (Fähigkeiten) und User Messages (Steuerung).
Der Begriff stammt aus der AI-Research. Ein «Harness» ist die Infrastruktur, die ein Modell produktiv macht. Bei Self-Driving Cars ist es die Sensor-Fusion, die Sicherheits-Schicht, das Decision-Framework. Bei Software-Agenten ist es die Kombination aus Instructions, Tools und Workflows.
Ich habe in 25 Jahren IT-Consulting viele Trends kommen und gehen sehen. Agent-Harnesses sind kein Trend. Sie sind das neue Fundament moderner Softwareentwicklung.
Was ist ein Agent-Harness und wie funktioniert er?
Ein Agent-Harness ist die Software-Architektur, die ein KI-Modell zu einem produktiven Agenten macht. Er besteht aus drei untrennbar verbundenen Komponenten:
| Komponente | Funktion | Beispiel |
|---|---|---|
| Instructions | Projekt-spezifische Regeln und Guidelines | Agent.md mit Tech Stack, Code-Style, Dos/Don’ts |
| Tools | Verfügbare Fähigkeiten und Integrationen | GitHub, Terminal, Code-Search via MCP-Server |
| User Messages | Die Art, wie du den Agent steuerst | Präzise Prompts mit konkreten Anforderungen |
Merke: Das Modell macht nur 10% aus. Der Harness bestimmt die anderen 90%.
Welche Rolle spielen Instructions für konsistente Agenten-Ergebnisse?
Instructions sind das Betriebssystem deines Agenten. Sie bestimmen, WAS der Agent tun soll – nicht generische Prompt-Guidelines, sondern spezifische, messbare Regeln für DEIN Projekt.
Was gehört in eine produktionsreife Agent.md:
# Agent.md: Projekt Auth-Service
## Tech Stack
- Sprache: TypeScript 5.x, strict mode
- Testing: Vitest, Coverage-Ziel >80%
- Framework: Express.js 5.x
## Code-Style Regeln
- Nutze ES Modules (import/export)
- Siehe src/auth/login.ts als Vorlage für Error-Handling
- Komponenten-Struktur: utils/ für generische Funktionen, services/ für Business-Logik
## Workflows
1. **Feature**: Specs schreiben → Tests → Implementierung → Review
2. **Bugfix**: Root-Cause-Analyse → Minimal-Fix → Tests → Review
3. **Refactor**: Kein Functional-Change, Tests bleiben grün
## Dos
✓ Schreibe Tests VOR der Implementierung
✓ Nutze Beispiel-Dateien als Referenz
✓ Führe TypeCheck und Linting nach jeder Änderung aus
## Don'ts
✗ Keine any-Types verwenden
✗ Keine console.log in Production-Code
✗ Keine breaking API-Changes ohne Diskussion
Warum funktioniert das?
Statt vager Anweisungen («schreibe guten Code») gibst du konkrete, messbare Regeln. Der Agent kann diese Rules während jeder Session referenzieren. Das macht sein Verhalten vorhersagbar.
Das Wichtigste: Die Agent.md wird automatisch bei jeder Session geladen. Der Agent kennt die Regeln, ohne dass du sie jedes Mal neu erklären musst.
Welche Tools braucht ein KI-Agent für maximale Produktivität?
Tools sagen, WOMIT der Agent arbeiten kann. Ohne die richtigen Tools kann der Agent nicht arbeiten. Ein Agent ohne GitHub-Integration kann keine PRs erstellen. Ein Agent ohne Terminal kann Tests nicht ausführen.
Beispiele für Tools (MCP-Server):
GitHub Integration:
- Read file from repo
- Create/Update pull requests
- Check CI/CD status
Database Access:
- Query database schema
- Execute migrations
- Check data models
Terminal:
- Run tests (npm run test)
- Linting (npm run lint)
- TypeCheck (npm run typecheck)
Code Search:
- Find similar patterns in codebase
- Search for function definitions
MCP-Server (Model Context Protocol): Ein offener Standard von Anthropic, der KI-Modellen ermöglicht, strukturiert mit externen Tools und Datenquellen zu interagieren. Mehr dazu auf modelcontextprotocol.io
Tools machen den Agenten unabhängig und produktiv.
Die beste Kombination: Agent.md (Was) + MCP-Tools (Wie) + Deine Prompts (Warum).
Wie formuliere ich Prompts, die konsistente Ergebnisse liefern?
Instructions und Tools sind statisch. User Messages sind das tägliche Interface zu deinem Agent. Die Art, wie du promtest, entscheidet über Erfolg oder Misserfolg.
Vergleich: Vager vs. Präziser Prompt
| ❌ Vag | ✅ Präzise |
|---|---|
| «Implementiere ein Login-Feature» | «Implementiere Backend Login nach dem Pattern in src/services/auth.ts. POST /login mit Email + Password. Return JWT-Token (15 Min Gültigkeit). Tests mit Vitest, >80% coverage. Siehe tests/auth.test.ts für Test-Pattern» |
Der präzise Prompt liefert 10x bessere Ergebnisse, weil er die Anforderung konkretisiert.
Prompt-Engineering mit Agent.md:
Mit einer produktionsreifen Agent.md brauchst du weniger Prompt-Details. Die Agent.md liefert den Context.
💭 Altes Modell (ohne Agent.md):
Prompt: 300 Wörter + alle Konventionen erklären
👍 Neues Modell (mit Agent.md):
Prompt: 50 Wörter + Agent.md hat den Rest
Warum scheitern 90% aller Agent-Harness-Implementierungen?
Wenn du jetzt denkst «Das klingt einfach, warum machen das nicht alle Teams?» – hier sind die häufigsten Fehler:
Fehler 1: Agent.md ist zu generisch
Problem:
❌ Agent.md mit 500 Zeilen Copy-Paste aus anderen Projekten
"Code Style sollte gut sein, Tests sind wichtig, DRY-Prinzip..."
Lösung:
✅ Agent.md mit 50 Zeilen konkrete Projekt-Regeln
Tech Stack: TypeScript 5.x strict, Vitest
Vorlage: Siehe components/Button.tsx für Style
Tests: Pattern aus __tests__/button.test.ts, >80% coverage
Konkret schlägt generisch um 100:1.
Fehler 2: Keine Tool-Integration
Problem:
Agent hat Zugriff auf Dateien, aber keine GitHub-Integration. Resultat: Agent kann Code schreiben, aber nicht pushen. Du musst manuell pushen.
Lösung:
Richte MCP-Server ein für: GitHub, Terminal, Code-Search. Agent wird 10x produktiver.
Fehler 3: Instructions ändern sich ständig
Problem:
Du sagst dem Agent am Montag eine Regel, am Mittwoch eine andere. Agent wird verwirrt. Kein konsistentes Verhalten.
Lösung:Agent.md ist die Single Source of Truth. Änderungen gehen in die Agent.md, nicht ins Prompt.
Fehler 4: Zu viele Prompts pro Session
Problem:
Feature soll in 1 Prompt gebaut werden, aber es braucht 10 Iterationen. Agent und Mensch verlieren den Context.
Lösung:
Strukturiere die Arbeit in Zyklen:
- Specs schreiben (Prompt 1)
- Tests (Prompt 2)
- Implementierung (Prompt 3)
- Code-Review (Prompt 4)
Kurze, fokussierte Prompts mit klarem Output.
Bereit für konsistente Agenten?
Option A: Ihr steht am Beginn eurer KI-DEV Reise – Dann schau dir unser 12 Wochen DEV AI Bootcamp an und baut richtige KI-First Gewohnheiten auf.
♦
Option B: Oder seid ihr schon gut mit KI unterwegs und es muss schneller gehen, dann schau mal hier rein: Agentic Coding Hackathon
Wie sieht ein erfolgreicher Agent-Harness in der Praxis aus?
Ein Team aus dem DEV AI Bootcamp kam mit folgendem Problem:
Vorher (ohne produktionsreifem Harness):
- 3 Wochen pro Feature (mit KI-Agent)
- 40% der PRs wurden rejected (Code-Quality-Issues)
- Agent machte immer wieder dieselben Fehler
- Jeder Prompt brauchte 50+ Wörter Anleitung
Nach 1 Tag Bootcamp (Harness Workshop):
Wir bauten zusammen:
Agent.mdmit 12 klaren Rules für ihr Projekt- MCP-Server für GitHub + Datenbank integriert
- Prompt-Templates für Feature/Bugfix/Refactor
Nach 2 Wochen mit optimiertem Harness:
| Metrik | Vorher | Nachher | Verbesserung |
|---|---|---|---|
| Feature-Entwicklungszeit | 3 Wochen | 3-4 Tage | 6x schneller |
| PR-Rejection-Rate | 40% | 8% | -80% |
| Wiederholte Fehler | Häufig | 0 | -100% |
| Prompt-Länge | 100 Wörter | 10 Wörter | -90% |
Die CTO (anonymisiert):
«Wir haben 6 Monate an Prompts gefeilt. Die Agent.md-Datei hat in einem Tag mehr gebracht als alle Prompt-Optimierungen zusammen.»
Business-Impact:
- Code-Review-Zeit: -40%
- Bugs in Production: -75%
- Agent-Unabhängigkeit: +90%
Wie baust du einen produktionsreifen Agent-Harness in 4 Schritten?
Schritt 1: Standardisiere deine Instructions (30 Minuten)
Action:
- Erstelle
.ai/rules/agent.mdim Projekt-Root - Dokumentiere:
- Tech Stack (Sprache, Versionen, wichtige Libs)
- Commands (Build, Test, Lint, Typecheck)
- Code Style (mit Referenz-Datei: «Siehe components/Button.tsx»)
- 3-5 Dos
- 3-5 Don’ts
Beispiel-Struktur:
# Agent.md: Auth-Service
## Tech Stack
- TypeScript 5.x (strict mode)
- Express.js 5.x
- PostgreSQL 15
## Commands
npm run test # Run tests
npm run typecheck # Type-Check
npm run lint # ESLint
## Code Style
Siehe src/auth/login.ts als Vorlage.
Immer typed Errors, nie any-Type.
## Dos
✓ Tests VOR Implementierung
✓ Error-Cases mitdenken
## Don'ts
✗ Keine any-Types
✗ Keine console.log in Prod
Erfolgs-Check: Agent sollte ohne weitere Prompts korrekt formatieren können.
Schritt 2: Integriere deine Tools (45 Minuten)
Action:
- Liste verfügbare Tools auf
- Stelle sicher, dass Agent darauf Zugriff hat
- Teste jeden Tool mit einfachem Beispiel
Typische Tools:
- GitHub (Create PR, Push Code)
- Terminal (Run Tests, Lint)
- Code-Search (Find Patterns)
- Database (Check Schema)
Test:
«Agent: Erstelle einen Pull Request für die neue Feature»
Wenn der Agent das tun kann, sind Tools konfiguriert.
Schritt 3: Definiere Standard-Workflows (60 Minuten)
Action:
Dokumentiere in Agent.md, wie Agenten arbeiten sollen.
## Workflow: Feature Implementation
1. **Specs**: Anforderungen klar machen, keine mehrdeutigen Anforderungen
2. **Tests**: Tests-First, Akzeptanzkriterien als Tests
3. **Implementation**: Minimal-Code bis Tests grün
4. **Refactor**: Code-Qualität, keine Funktions-Änderung
5. **Review**: Self-Review auf Best-Practices
## Workflow: Bugfix
1. Root-Cause-Analyse (nicht nur Patch-Symptome)
2. Minimal-Fix (nicht Overengineering)
3. Tests für Bug (damit nicht wieder passiert)
4. Verifikation: Bug ist weg
Erfolgs-Check: Nächstes Mal wenn du einen Agent ein Feature bauen lässt, sollte er automatisch diesen Workflow folgen.
Schritt 4: Iterativ verbessern (kontinuierlich)
Action:
Nach jeder Agent-Session fragen:
- Welche Regeln hat der Agent ignoriert?
- Welche Fehler macht er regelmässig?
- Was könnte klarer sein?
→ Aktualisiere Agent.md.
Beispiel:
- Agent schreibt Code ohne Tests? →
Agent.mdRegel hinzufügen: «Schreibe immer Tests-First» - Agent folgt Code-Style nicht? → Konkretere Vorlage-Datei angeben.
Pro-Tipp: Ein Fehler ist ein Feedback-Signal. Nutze es.
Die 5 häufigsten Agent-Harness-Fehler (und ihre Lösungen)
| Problem | Ursache | Lösung |
|---|---|---|
| Agent ignoriert Code-Style | Agent.md zu generisch, keine konkrete Referenz-Datei |
Pinne konkrete Beispiel-Datei: «Siehe components/Button.tsx als Vorlage. Exakt diese Struktur nutzen.» |
| Inkonsistente Test-Coverage | Keine klare TDD-Regel | Regel hinzufügen: «Tests VOR Implementierung, ändere Tests nicht während Green-Phase» |
| Agent macht denselben Fehler wiederholt | Fehler-Korrektur nur via Prompt | Fehler als Don’t-Rule in Agent.md dokumentieren |
| Tools werden nicht genutzt | Tools nicht konfiguriert/getestet | MCP-Server setup, einfachen Tool-Call testen |
| Context-Explosion nach 10 Prompts | Zu viele Files gepinnt | Agent für Code-Search nutzen, pinne nur Referenz-Dateien (max. 3) |
Zusammenfassung: Agent-Harness Essentials
Das Wichtigste:
- Der Agent-Harness (Instructions + Tools + User Messages) ist wichtiger als das Modell
- 90% der Agent-Probleme sind Harness-Probleme, nicht Modell-Probleme
- Ein guter Harness macht Ergebnisse konsistent, wiederholbar, skalierbar
Sofort umsetzbar:
- Erstelle deine erste
Agent.md(30 Min) – Projekt-spezifische Regeln, nicht generisches Copy-Paste - Definiere 3-5 klare Rules pro Kategorie (Code Style, Tests, Workflows)
- Iteriere basierend auf Fehlern – Wenn ein Fehler 2x passiert, gehört er in die
Agent.md
Business-Impact:
Teams mit produktionsreifen Harnesses shippen 6-20x schneller und haben 75% weniger Bugs (lt. echten Production-Metriken).
Das ist kein Hype – das ist messbar und reproduzierbar.
🚀 Lerne Agent-Harnesses in der Praxis
Kostenlose Ressourcen
📄 Agent.md Template: github.com/obviousworks/agentic-coding-rulebook
Produktionsreifes Template mit allem was man braucht!
Unser Trainings
Option A: Ihr steht am Beginn eurer KI-DEV Reise – Dann schau dir unser 12 Wochen DEV AI Bootcamp an und baut richtige KI-First Gewohnheiten auf.
♦
Option B: Oder seid ihr schon gut mit KI unterwegs und es muss schneller gehen, dann schau mal hier rein: Agentic Coding Hackathon
Bleib auf dem Laufenden
💬 LinkedIn-Community: linkedin.com/in/matthiasherbert
🐙 GitHub: github.com/obviousworks
Brauchst du Unterstützung bei der KI-Transformation?
Wir bei obviousworks.ch bieten hands-on Beratung und tiefe Begleitung – vom strategischen Assessment bis zur erfolgreichen Implementierung. Keine Theorie, sondern praxiserprobte Strategien für Schweizer Unternehmen.
Lass uns sprechen: https://www.obviousworks.ch/kontakt/
Passende Trainings
DEV AI Bootcamp
KI-First Ansatz etablieren- Ihr startet jetzt mit KI in der Software Entwicklung? Dann ist das DEV AI Bootcamp das Richtige für euch.
In 12 Wochen etablieren wir mit Hands-on Aufgaben und wöchentlichen Retros in einem blenden-Learning Ansatz neue und stabile KI-Gewohnheiten.
- 👉 Infos & Anmeldung zum DEV AI Bootcamp: obviousworks.ch/schulungen/ai-developer-bootcamp
Agentic Coding Hackathon
In 3-5 Tagen auf Kurs sein!- Du und dein Team seid schon richtig gut mit KI unterwegs? Dann ist der Agentic Coding Hackathon das Richtige für euch.
In 3-5 Tagen euren neuen KI-basierten Software Development Prozess lernen und etablieren?
- 👉 Infos & Anmeldung zum Hackathon: https://www.obviousworks.ch/schulungen/agentic-coding-hackathon
FAQs
Was ist der Unterschied zwischen Agent-Harness und Prompt Engineering?Your Title Goes Here
Prompt Engineering optimiert einzelne Eingaben. Agent-Harness ist die gesamte Infrastruktur – Instructions, Tools, Workflows. Ein guter Harness macht intensives Prompt Engineering überflüssig.
Funktioniert ein Agent-Harness mit allen KI-Modellen?
Ja. Der Harness ist modell-agnostisch. Ob Claude, GPT-4o, Gemini oder Llama – die gleichen Instructions und Tools funktionieren. Deshalb ist der Harness wichtiger als das Modell.
Wie lange dauert es, einen produktionsreifen Harness aufzubauen?
4-8 Stunden für die Grundstruktur. Dann kontinuierliche Verbesserung. Die meisten Teams sehen bereits nach 1 Woche signifikante Verbesserungen.
Was ist eine Agent.md Datei?
Eine Agent.md ist eine Markdown-Datei im Projekt-Root, die alle Regeln, Code-Style-Vorgaben und Workflows für KI-Agenten dokumentiert. Sie wird bei jeder Session automatisch geladen.
Was sind MCP-Server für KI-Agenten?
MCP (Model Context Protocol) ist ein offener Standard, der KI-Modellen ermöglicht, mit externen Tools (GitHub, Terminal, Datenbanken) zu interagieren. MCP-Server sind die konkreten Implementierungen dieser Integrationen.
Brauche ich Programmierkenntnisse für einen Agent-Harness?
Grundkenntnisse sind hilfreich, aber keine Voraussetzung. Die Agent.md ist eine simple Markdown-Datei. MCP-Server lassen sich oft mit wenigen Klicks konfigurieren.
Matthias (AI Ninja)
Matthias ist mit Herz, Seele und Verstand dabei. Er macht dich, dein Team und deine Firma fit für die Zukunft mit KI!
Zu Matthias Trainerprofil
Zu seinem LinkedIn Profil


