Journal
EngineeringVeröffentlicht am 2026-01-18·8 Min. Lesezeit

CodeFlux: ein offline Pair-Programmer, der dein Repo respektiert

Ein 7B-Klasse-Codemodell, lokal mit projektbewusstem Retrieval. Warum ein kleineres Modell mit dem richtigen Kontext ein größeres ohne schlägt.

These

Ein 7B-Klasse-Codemodell, lokal ausgeführt und mit der richtigen Scheibe deines Repositories als Kontext gefüttert, ist nützlicher als ein Frontier-Cloud-Modell, das keine Ahnung hat, wie deine Codebasis aussieht.

Das ist keine Aussage über Benchmark-Scores. Es ist eine Aussage über Completions, die du tatsächlich annimmst. CodeFlux ist auf dieser These gebaut.

Architektur

Drei on-device-Komponenten kooperieren:

  1. Das Modell. Ein quantisiertes 7B-Codemodell (wir evaluieren Qwen-2.5-Coder, DeepSeek-Coder-V2-Lite und StarCoder2-Derivate; die schnellste 4-Bit-Variante, die wir je Plattform ausliefern können). Inference via MLX auf Apple Silicon, llama.cpp auf PC/Linux, ONNX Runtime auf Windows ARM.
  2. Ein Repo-Index. Ein lokaler Vektorindex deines Repositories, beim Speichern aktualisiert. Wir embedden auf drei Granularitäten: Datei, Symbol, Zeilenbereich. Der Index ist eine einzige SQLite-Datei in .codeflux/ deines Repos.
  3. Eine Retrieval-Schicht. Beim Tippen schauen wir umliegenden Code, Datei-Imports, nahe Symbole an; ziehen die Top-K relevantesten anderen Dateien; spleißen sie in den Prompt; los.

Warum lokal für Code

  • Dein Repo ist das Sensibelste, das du besitzt. Das einzige Modell, das es je vollständig sehen sollte, ist eines, das in deiner Maschine läuft.
  • Dein Code ist auch der idiomatischste Input, den das Modell je bekommt. Cloud-Modelle normalisieren in Richtung GitHub-Durchschnitt; ein lokales, auf dein Repo konditioniertes Modell schreibt Code, der passt.
  • Latenz bei Inline-Completion zählt im Bereich weniger hundert Millisekunden. Ein Roundtrip in die Cloud ist eine Steuer pro Tastendruck.

Was CodeFlux heute tut

  • Cancellable Inline Completion: Während du weiter tippst, werden in-flight-Inferenzen abgebrochen und neu gestartet. Das Modell blockiert nie den Editor.
  • Repo-geerdeter Chat. Frag "wo ist die Auth-Middleware?" und CodeFlux retrievet die relevanten Dateien, antwortet — mit Zeilennummern.
  • Edits auf Auswahl. Markier eine Funktion, fordere Refactor an, der Diff erscheint als normale Review-Erfahrung. Übernehmen, verwerfen, editieren.
  • Tests on demand. "Generiere Tests für diese Datei" produziert eine Kandidaten-Testdatei im bestehenden Test-Framework, Imports korrekt aufgelöst.

Was CodeFlux nicht tut

  • Keine autonomen Agents. Kein langlaufender Coding-Agent, der ohne Review Aktionen in deinem Repo nimmt. Wir denken neu, wenn Zuverlässigkeit es verdient.
  • Keine Telemetrie über deine Fragen oder unsere Vorschläge. Keine. Die härteste Versuchung in einem Dev-Tool — und die, deren Verweigerung wir am meisten committen.
  • Keine Abhängigkeit von der Cloud bei irgendeinem Feature. Ein Netzausfall verschlechtert nichts.

Ehrliche Grenzen

  • Ein 7B-Codemodell wird ein Frontier-200B+-Modell bei den schwersten reasoning-lastigen Refactors nicht erreichen. Wir geben dir einen One-Tap-Escape, um ein redigiertes Snippet an ein Cloud-Modell deiner Wahl zu schicken. Dein Anruf, dein Anbieter, deine Redaktion.
  • Sehr große Monorepos sind beim ersten Indizieren langsam. Wir halten einen Cache pro Maschine und liefern ein git-ignoriertes .codeflux/-Layout, damit erneutes Öffnen sofort geht.

CodeFlux ist nicht das Modell mit dem höchsten Leaderboard-Score. Es ist das Modell mit der höchsten Akzeptanzrate für Completions in deinem Code — weil es deinen Code wirklich gelesen hat.

Neue Artikel abonnieren

Wir benachrichtigen dich, sobald wir veröffentlichen.

Abonnieren