EngineeringVeröffentlicht am 2026-01-18·8 Min. Lesezeit

CodeFlux: ein offline Pair-Programmer, der dein Repo respektiert

Ein 7B-Klasse-Codemodell, lokal mit projektbewusstem Retrieval. Warum ein kleineres Modell mit dem richtigen Kontext ein größeres ohne schlägt.

These

Ein 7B-Klasse-Codemodell, lokal ausgeführt und mit der richtigen Scheibe deines Repositories als Kontext gefüttert, ist nützlicher als ein Frontier-Cloud-Modell, das keine Ahnung hat, wie deine Codebasis aussieht.

Das ist keine Aussage über Benchmark-Scores. Es ist eine Aussage über Completions, die du tatsächlich annimmst. CodeFlux ist auf dieser These gebaut.

Architektur

Drei on-device-Komponenten kooperieren:

Das Modell. Ein quantisiertes 7B-Codemodell (wir evaluieren Qwen-2.5-Coder, DeepSeek-Coder-V2-Lite und StarCoder2-Derivate; die schnellste 4-Bit-Variante, die wir je Plattform ausliefern können). Inference via MLX auf Apple Silicon, llama.cpp auf PC/Linux, ONNX Runtime auf Windows ARM.
Ein Repo-Index. Ein lokaler Vektorindex deines Repositories, beim Speichern aktualisiert. Wir embedden auf drei Granularitäten: Datei, Symbol, Zeilenbereich. Der Index ist eine einzige SQLite-Datei in .codeflux/ deines Repos.
Eine Retrieval-Schicht. Beim Tippen schauen wir umliegenden Code, Datei-Imports, nahe Symbole an; ziehen die Top-K relevantesten anderen Dateien; spleißen sie in den Prompt; los.

Warum lokal für Code

Dein Repo ist das Sensibelste, das du besitzt. Das einzige Modell, das es je vollständig sehen sollte, ist eines, das in deiner Maschine läuft.
Dein Code ist auch der idiomatischste Input, den das Modell je bekommt. Cloud-Modelle normalisieren in Richtung GitHub-Durchschnitt; ein lokales, auf dein Repo konditioniertes Modell schreibt Code, der passt.
Latenz bei Inline-Completion zählt im Bereich weniger hundert Millisekunden. Ein Roundtrip in die Cloud ist eine Steuer pro Tastendruck.

Was CodeFlux heute tut

Cancellable Inline Completion: Während du weiter tippst, werden in-flight-Inferenzen abgebrochen und neu gestartet. Das Modell blockiert nie den Editor.
Repo-geerdeter Chat. Frag "wo ist die Auth-Middleware?" und CodeFlux retrievet die relevanten Dateien, antwortet — mit Zeilennummern.
Edits auf Auswahl. Markier eine Funktion, fordere Refactor an, der Diff erscheint als normale Review-Erfahrung. Übernehmen, verwerfen, editieren.
Tests on demand. "Generiere Tests für diese Datei" produziert eine Kandidaten-Testdatei im bestehenden Test-Framework, Imports korrekt aufgelöst.

Was CodeFlux nicht tut

Keine autonomen Agents. Kein langlaufender Coding-Agent, der ohne Review Aktionen in deinem Repo nimmt. Wir denken neu, wenn Zuverlässigkeit es verdient.
Keine Telemetrie über deine Fragen oder unsere Vorschläge. Keine. Die härteste Versuchung in einem Dev-Tool — und die, deren Verweigerung wir am meisten committen.
Keine Abhängigkeit von der Cloud bei irgendeinem Feature. Ein Netzausfall verschlechtert nichts.

Ehrliche Grenzen

Ein 7B-Codemodell wird ein Frontier-200B+-Modell bei den schwersten reasoning-lastigen Refactors nicht erreichen. Wir geben dir einen One-Tap-Escape, um ein redigiertes Snippet an ein Cloud-Modell deiner Wahl zu schicken. Dein Anruf, dein Anbieter, deine Redaktion.
Sehr große Monorepos sind beim ersten Indizieren langsam. Wir halten einen Cache pro Maschine und liefern ein git-ignoriertes .codeflux/-Layout, damit erneutes Öffnen sofort geht.

CodeFlux ist nicht das Modell mit dem höchsten Leaderboard-Score. Es ist das Modell mit der höchsten Akzeptanzrate für Completions in deinem Code — weil es deinen Code wirklich gelesen hat.

Neue Artikel abonnieren

Wir benachrichtigen dich, sobald wir veröffentlichen.

CodeFlux: ein offline Pair-Programmer, der dein Repo respektiert

These

Architektur

Warum lokal für Code

Was CodeFlux heute tut

Was CodeFlux nicht tut

Ehrliche Grenzen

Verwandte Artikel

Warum wir das Unternehmen auf On-Device-KI setzen

Flux Engine bauen: eine Runtime für jedes Produkt

WhisperFlux Preview: Sprache, Sprecher, Zusammenfassungen — alles lokal