Journal
IngénieriePublié le 2026-03-11·8 min de lecture

Faire tenir un modèle 7B dans votre téléphone : guide de terrain sur la quantification

Q4_K_M, AWQ, GPTQ, SmoothQuant — ce qui compte vraiment quand vous n'avez que 4 Go de RAM et 4 W de budget.

Sur mobile, la quantification est tout le jeu

Le goulet sur mobile, ce ne sont pas les FLOPs, ce sont les octets. Un modèle 7B en fp16 fait 14 Go. Votre téléphone en a 4 à 8 Go en tout, dont vous pouvez raisonnablement emprunter 1,5 à 3 Go pour une charge IA avant que l'OS ne commence à swap l'app au premier plan. L'arithmétique ne tient pas sans quantification agressive.

Ce que nous expédions vraiment

  • Q4_K_M (k-quants, mix par groupes) pour les LLM généralistes — la meilleure qualité par octet que nous ayons mesurée sous 4 bits, avec des modes d'échec étonnamment doux sur les tokens de longue traîne.
  • AWQ-int4 (quantification des poids consciente des activations) pour le code et le raisonnement mathématique, où les outliers d'activation comptent et où la RTN naïve se voit.
  • Poids chauds en fp16 pour la table d'embedding et la projection finale lm_head — petite part des poids, mais contribution disproportionnée à la qualité perçue.
  • Cache K/V en int8 avec échelle par token, pour tenir le budget sans la perte catastrophique d'un KV en int4.
  • GGUF comme conteneur disque, pour échanger les schémas de quantification sans réécrire le loader.

La perplexité n'est pas la bonne métrique

L'utilisateur se moque de l'entropie croisée du token suivant. Il regarde si le résumé est juste, si la traduction sonne naturel, si le message de commit décrit le changement. Nous avons un petit eval interne qui note la qualité de tâche finale sur de vraies transcriptions de réunion, de vraies traductions de menu et de vrais diffs de commit. Il diverge de la perplexité environ 18 % du temps. Parfois un schéma qui perd 0,3 bit de perplexité gagne 4 points en qualité de résumé, parce que le mode d'échec passe de « token suivant subtilement moins bon » à « moins de dérapages ».

Ce qui nous a surpris

  • La taille de groupe compte plus que la largeur de bits sur certaines couches. Passer le group size de 128 à 64 sur la FFN a sauvé plus de qualité que passer de 4 à 5 bits sur l'attention.
  • Les outliers se regroupent. Une poignée de canaux dans chaque bloc transformer porte une magnitude d'activation disproportionnée. Les traiter via une branche en haute précision (style SmoothQuant ou échelles par canal) est plus efficace que monter la largeur de bits globalement.
  • Les données de calibration sont un levier. Un set de calibration de 256 échantillons issus de la charge réelle du produit bat à chaque fois un set de 8K échantillons issus de C4.

À retenir

Ne choisissez pas un schéma sur la foi d'un papier. Choisissez-le avec votre eval — et votre eval doit ressembler très exactement à votre produit.

Recevez les nouveaux articles

Nous vous préviendrons dès qu'un nouvel article paraît.

S'abonner