CodeFlux: ein offline Pair-Programmer, der dein Repo respektiert
Ein 7B-Klasse-Codemodell, lokal mit projektbewusstem Retrieval. Warum ein kleineres Modell mit dem richtigen Kontext ein größeres ohne schlägt.
These
Ein 7B-Klasse-Codemodell, lokal ausgeführt und mit der richtigen Scheibe deines Repositories als Kontext gefüttert, ist nützlicher als ein Frontier-Cloud-Modell, das keine Ahnung hat, wie deine Codebasis aussieht.
Das ist keine Aussage über Benchmark-Scores. Es ist eine Aussage über Completions, die du tatsächlich annimmst. CodeFlux ist auf dieser These gebaut.
Architektur
Drei on-device-Komponenten kooperieren:
- Das Modell. Ein quantisiertes 7B-Codemodell (wir evaluieren Qwen-2.5-Coder, DeepSeek-Coder-V2-Lite und StarCoder2-Derivate; die schnellste 4-Bit-Variante, die wir je Plattform ausliefern können). Inference via MLX auf Apple Silicon, llama.cpp auf PC/Linux, ONNX Runtime auf Windows ARM.
- Ein Repo-Index. Ein lokaler Vektorindex deines Repositories, beim Speichern aktualisiert. Wir embedden auf drei Granularitäten: Datei, Symbol, Zeilenbereich. Der Index ist eine einzige SQLite-Datei in
.codeflux/deines Repos. - Eine Retrieval-Schicht. Beim Tippen schauen wir umliegenden Code, Datei-Imports, nahe Symbole an; ziehen die Top-K relevantesten anderen Dateien; spleißen sie in den Prompt; los.
Warum lokal für Code
- Dein Repo ist das Sensibelste, das du besitzt. Das einzige Modell, das es je vollständig sehen sollte, ist eines, das in deiner Maschine läuft.
- Dein Code ist auch der idiomatischste Input, den das Modell je bekommt. Cloud-Modelle normalisieren in Richtung GitHub-Durchschnitt; ein lokales, auf dein Repo konditioniertes Modell schreibt Code, der passt.
- Latenz bei Inline-Completion zählt im Bereich weniger hundert Millisekunden. Ein Roundtrip in die Cloud ist eine Steuer pro Tastendruck.
Was CodeFlux heute tut
- Cancellable Inline Completion: Während du weiter tippst, werden in-flight-Inferenzen abgebrochen und neu gestartet. Das Modell blockiert nie den Editor.
- Repo-geerdeter Chat. Frag "wo ist die Auth-Middleware?" und CodeFlux retrievet die relevanten Dateien, antwortet — mit Zeilennummern.
- Edits auf Auswahl. Markier eine Funktion, fordere Refactor an, der Diff erscheint als normale Review-Erfahrung. Übernehmen, verwerfen, editieren.
- Tests on demand. "Generiere Tests für diese Datei" produziert eine Kandidaten-Testdatei im bestehenden Test-Framework, Imports korrekt aufgelöst.
Was CodeFlux nicht tut
- Keine autonomen Agents. Kein langlaufender Coding-Agent, der ohne Review Aktionen in deinem Repo nimmt. Wir denken neu, wenn Zuverlässigkeit es verdient.
- Keine Telemetrie über deine Fragen oder unsere Vorschläge. Keine. Die härteste Versuchung in einem Dev-Tool — und die, deren Verweigerung wir am meisten committen.
- Keine Abhängigkeit von der Cloud bei irgendeinem Feature. Ein Netzausfall verschlechtert nichts.
Ehrliche Grenzen
- Ein 7B-Codemodell wird ein Frontier-200B+-Modell bei den schwersten reasoning-lastigen Refactors nicht erreichen. Wir geben dir einen One-Tap-Escape, um ein redigiertes Snippet an ein Cloud-Modell deiner Wahl zu schicken. Dein Anruf, dein Anbieter, deine Redaktion.
- Sehr große Monorepos sind beim ersten Indizieren langsam. Wir halten einen Cache pro Maschine und liefern ein git-ignoriertes
.codeflux/-Layout, damit erneutes Öffnen sofort geht.
CodeFlux ist nicht das Modell mit dem höchsten Leaderboard-Score. Es ist das Modell mit der höchsten Akzeptanzrate für Completions in deinem Code — weil es deinen Code wirklich gelesen hat.