← RFC Reference

Comment fonctionnent les filtres anti-spam

Encyclopédie des Concepts de Messagerie Published March 2026
ELI5: Imaginez un videur dans une boîte de nuit. Avant même d'atteindre la porte, il vérifie si vous êtes sur la liste noire (listes de blocage). À la porte, il contrôle votre identité (authentification). À l'intérieur, il observe comment vous êtes habillé et ce que vous dites (filtrage de contenu). Et si les clients réguliers se plaignent constamment de vous, vous êtes expulsé quoi qu'il en soit (signaux d'engagement). Les filtres anti-spam fonctionnent par couches, chacun attrapant ce que le précédent a manqué.

Le pipeline de filtrage par lequel passe chaque e-mail — des vérifications au moment de la connexion aux classificateurs d'apprentissage automatique — et comment les principaux fournisseurs décident ce qui atteint la boîte de réception.

Le Pipeline de Filtrage

Le filtrage du spam n'est pas une vérification unique. C'est un pipeline multi-étapes qui évalue un message à chaque phase de la transaction SMTP et après la livraison. Chaque étape peut rejeter, reporter ou signaler un message. Les étapes suivent approximativement cet ordre :

  1. Vérifications au moment de la connexion — Réputation IP, listes de blocage, limitation de débit
  2. Vérifications de l'enveloppe — Vérification de l'expéditeur, validation des destinataires
  3. Vérifications d'authentification — Évaluation SPF, DKIM, DMARC
  4. Analyse d'en-têtes — Validation structurelle, vérifications de cohérence
  5. Analyse du contenu — Analyse du corps, vérification des URL, inspection des pièces jointes
  6. Notation de réputation — Réputation de l'expéditeur pondérée par rapport à tous les signaux
  7. Classification par apprentissage automatique — Modèles bayésiens et de réseaux de neurones
  8. Signaux post-livraison — Engagement, actions des utilisateurs, commentaires de plainte

Les filtres anti-spam modernes chez les fournisseurs comme Gmail et Outlook exécutent la plupart de ces étapes en parallèle, produisant un score composite qui détermine le placement dans la boîte de réception. Mais les comprendre comme un pipeline aide à expliquer comment chaque couche contribue.

Étape 1 : Vérifications au Moment de la Connexion

Avant qu'un seul octet de contenu d'e-mail ne soit transmis, le serveur récepteur évalue l'adresse IP de connexion.

# Connexion à partir d'une IP en liste de blocage
550 5.7.1 Service unavailable; client [198.51.100.42] blocked
using zen.spamhaus.org

Les vérifications au moment de la connexion sont le filtre le plus rentable. Rejeter à la connexion économise au serveur le traitement du message entier.

Étape 2 : Vérifications de l'Enveloppe

Pendant la phase d'enveloppe SMTP (MAIL FROM et RCPT TO), d'autres vérifications s'exécutent :

Étape 3 : Vérifications d'Authentification

Une fois le contenu du message arrivé, le serveur évalue l'authentification e-mail :

Les résultats d'authentification sont enregistrés dans l'en-tête Authentication-Results :

Authentication-Results: mx.google.com;
dkim=pass header.i=@example.com header.s=mtg;
spf=pass (google.com: 198.51.100.42 is permitted) smtp.mailfrom=example.com;
dmarc=pass (p=REJECT) header.from=example.com

L'authentification est une condition préalable, pas une garantie. La réussite de SPF, DKIM et DMARC ne signifie pas que votre message atteint la boîte de réception. Les spammeurs peuvent également mettre en place une authentification valide. Mais échouer l'authentification est un signal fortement négatif qui dirigera presque certainement votre message vers le spam ou le rejet.

Étape 4 : Analyse d'En-têtes

Les filtres anti-spam inspectent les en-têtes de messages à la recherche d'anomalies :

Étape 5 : Analyse du Contenu

L'analyse du contenu examine le corps du message, la structure HTML et les pièces jointes.

Analyse de texte et HTML

Analyse des URL et des liens

Analyse des pièces jointes

Étape 6 : Notation de Réputation

Tous les signaux ci-dessus alimentent un modèle de réputation. C'est là que la réputation IP et domaine a son impact le plus important.

La réputation agit comme un multiplicateur. Un expéditeur avec une excellente réputation bénéficie du doute — le contenu limite est livré à la boîte de réception. Un expéditeur avec une mauvaise réputation ne bénéficie d'aucun doute — même le contenu propre peut être filtré. C'est pourquoi la réputation est souvent plus importante que le contenu.

Les fournisseurs pondèrent les signaux différemment :

Étape 7 : Classification par Apprentissage Automatique

Les filtres anti-spam modernes utilisent des modèles d'apprentissage automatique entraînés sur des milliards de messages.

Filtrage bayésien

La technique fondamentale. Un filtre bayésien calcule la probabilité qu'un message soit du spam en fonction de la fréquence de ses mots (jetons) dans les corpus de spam connu par rapport au ham connu. Si le mot « facture » apparaît dans 80 % du ham et 5 % du spam, c'est un signal ham fort. Si « unsubscribe » apparaît aux côtés de « Félicitations ! Vous avez gagné ! » la probabilité combinée se déplace vers le spam.

Les filtres bayésiens sont adaptatifs — ils apprennent de nouveaux messages. Lorsqu'un utilisateur marque un message comme spam, le filtre met à jour ses tableaux de probabilité. Cet apprentissage par utilisateur est pourquoi le même message pourrait être filtré comme spam pour un utilisateur et livré à la boîte de réception pour un autre.

Modèles de réseaux de neurones

Les principaux fournisseurs utilisent maintenant des modèles d'apprentissage profond qui vont bien au-delà des fréquences de mots individuels. Ces modèles évaluent :

Les filtres anti-spam de Google, par exemple, traitent plus de 99,9 % du spam avant qu'il n'atteigne une boîte de réception, tout en maintenant un taux de faux positifs inférieur à 0,05 %. Cela n'est possible que avec l'apprentissage automatique à grande échelle.

Étape 8 : Signaux Post-Livraison

Le filtrage ne s'arrête pas lorsque le message atteint la boîte de réception. Les signaux post-livraison affinent continuellement le placement :

Le filtrage basé sur l'engagement crée une boucle de rétroaction : si vos premiers messages à un nouvel abonné ne sont pas ouverts, les futurs messages sont plus susceptibles d'être filtrés. C'est pourquoi les conseils d'échauffement IP disent toujours de commencer avec vos destinataires les plus engagés.

Comment les Principaux Fournisseurs Diffèrent

Gmail

Le filtrage de Gmail est le plus sophistiqué et le plus axé sur l'engagement. Caractéristiques clés :

Outlook.com / Microsoft 365

Yahoo / AOL

Test et Débogage du Filtre Anti-Spam

Lorsque vos messages se retrouvent dans le spam, vous avez besoin d'une approche systématique pour diagnostiquer la cause.

Lecture des en-têtes de filtrage

La plupart des filtres anti-spam ajoutent des en-têtes au message qui révèlent leur verdict. Envoyez un message de test à vous-même et inspectez les en-têtes bruts :

# Gmail ajoute ces en-têtes (visibles dans « Afficher l'original ») :
X-Gm-Message-State: [internal state data]
X-Google-DKIM-Signature: [Google's own signature]
Authentication-Results: mx.google.com;
spf=pass ... dkim=pass ... dmarc=pass

# Microsoft ajoute :
X-Microsoft-Antispam: BCL:0;
X-MS-Exchange-Organization-SCL: 1
# SCL (Spam Confidence Level): -1=safe, 0-4=delivered, 5-6=junk, 7-9=blocked

# SpamAssassin (open source, widely used) ajoute :
X-Spam-Status: No, score=-1.2 required=5.0
tests=DKIM_SIGNED,DKIM_VALID,DKIM_VALID_AU,SPF_PASS,
RCVD_IN_DNSWL_LOW autolearn=ham

Ces en-têtes vous indiquent exactement quels tests ont été appliqués et quels ont été leurs résultats. L'en-tête Authentication-Results est standardisé ; les en-têtes de score de spam sont spécifiques au filtre.

Test de semences

Envoyez des messages de test à des comptes de plusieurs fournisseurs (Gmail, Outlook, Yahoo, serveurs d'entreprise) et vérifiez s'ils se retrouvent dans la boîte de réception ou le spam. Faites-le avant chaque campagne majeure ou changement d'infrastructure. Plusieurs services tiers automatisent cela avec des panels d'adresses de test chez des dizaines de fournisseurs.

Isoler la variable

Si un message se retrouve dans le spam, changez une variable à la fois pour identifier le déclencheur :

Ce Qui Peut Mal Tourner

E-mail légitime filtré comme spam

Vos e-mails transactionnels (réinitialisations de mot de passe, confirmations de commande) se retrouvent dans le spam parce que vos e-mails marketing sur le même domaine ont endommagé votre réputation de domaine. Le correctif : envisagez de séparer les e-mails transactionnels et marketing sur des sous-domaines différents afin que les dommages de réputation du marketing n'affectent pas la livraison critique des transactions.

Le contenu déclenche sur du contenu légitime

Votre e-mail de facture contient le mot « paiement » plus une pièce jointe plus un lien — tout légitime, mais la combinaison obtient un score élevé. Le correctif : assurez-vous une authentification et une réputation fortes afin que les signaux de contenu soient évalués dans le contexte d'un expéditeur de confiance.

Spirale de mort d'engagement

Vous envoyez à une grande liste d'abonnés inactifs. Peu ouvrent votre e-mail. Le faible taux d'engagement fait que les fournisseurs déplacent les messages suivants vers le spam. Encore moins de gens les voient. Les taux d'ouverture baissent davantage. Plus de messages vont au spam. Le correctif : purgez régulièrement les abonnés inactifs et utilisez les campagnes de réengagement avant qu'ils ne deviennent désengagés.

Blocage d'URL

Un domaine lié dans vos e-mails se retrouve en liste de blocage (peut-être votre domaine de suivi, ou un raccourcisseur de lien partagé). Chaque e-mail contenant ce lien est maintenant signalé. Le correctif : utilisez votre propre domaine pour les liens de suivi, surveillez la réputation des liens et évitez les raccourcisseurs d'URL partagés dans les e-mails.

Points Clés à Retenir

Lectures Complémentaires

Related RFCs