Comment fonctionnent les filtres anti-spam
Le pipeline de filtrage par lequel passe chaque e-mail — des vérifications au moment de la connexion aux classificateurs d'apprentissage automatique — et comment les principaux fournisseurs décident ce qui atteint la boîte de réception.
Le Pipeline de Filtrage
Le filtrage du spam n'est pas une vérification unique. C'est un pipeline multi-étapes qui évalue un message à chaque phase de la transaction SMTP et après la livraison. Chaque étape peut rejeter, reporter ou signaler un message. Les étapes suivent approximativement cet ordre :
- Vérifications au moment de la connexion — Réputation IP, listes de blocage, limitation de débit
- Vérifications de l'enveloppe — Vérification de l'expéditeur, validation des destinataires
- Vérifications d'authentification — Évaluation SPF, DKIM, DMARC
- Analyse d'en-têtes — Validation structurelle, vérifications de cohérence
- Analyse du contenu — Analyse du corps, vérification des URL, inspection des pièces jointes
- Notation de réputation — Réputation de l'expéditeur pondérée par rapport à tous les signaux
- Classification par apprentissage automatique — Modèles bayésiens et de réseaux de neurones
- Signaux post-livraison — Engagement, actions des utilisateurs, commentaires de plainte
Les filtres anti-spam modernes chez les fournisseurs comme Gmail et Outlook exécutent la plupart de ces étapes en parallèle, produisant un score composite qui détermine le placement dans la boîte de réception. Mais les comprendre comme un pipeline aide à expliquer comment chaque couche contribue.
Étape 1 : Vérifications au Moment de la Connexion
Avant qu'un seul octet de contenu d'e-mail ne soit transmis, le serveur récepteur évalue l'adresse IP de connexion.
-
Requêtes de liste de blocage : Le serveur vérifie l'IP par rapport aux listes de blocage basées sur DNS (DNSBL) comme Spamhaus SBL/XBL, Barracuda BRBL et SpamCop. Un listing sur Spamhaus peut entraîner un rejet immédiat avec une réponse
550. - Cache de réputation IP : Les grands fournisseurs maintiennent leurs propres bases de données de réputation interne. Une IP avec un historique d'envoi de spam chez ce fournisseur peut être rejetée ou limitée indépendamment du statut de liste de blocage externe.
- DNS inverse (FCrDNS) : Le serveur vérifie si l'IP de connexion a un enregistrement PTR valide et si cet enregistrement PTR est résolu vers la même IP (DNS inverse vérifié en avant). Les serveurs sans DNS inverse valide sont souvent rejetés purement et simplement.
-
Limitation de débit : Un volume inhabituel d'une IP déclenche une limitation. Le serveur répond avec
421(réessayer plus tard) pour ralentir l'expéditeur.
550 5.7.1 Service unavailable; client [198.51.100.42] blocked
using zen.spamhaus.org
Les vérifications au moment de la connexion sont le filtre le plus rentable. Rejeter à la connexion économise au serveur le traitement du message entier.
Étape 2 : Vérifications de l'Enveloppe
Pendant la phase d'enveloppe SMTP (MAIL FROM et RCPT TO), d'autres vérifications s'exécutent :
- Existence de l'expéditeur : Certains serveurs effectuent une vérification de rappel, se connectant au MX de l'expéditeur pour vérifier si l'adresse MAIL FROM existe réellement. Cela capture les adresses de rebond falsifiées.
-
Validation des destinataires : Les destinataires inexistants sont immédiatement rejetés (
550 5.1.1 User unknown). Des taux élevés de destinataires invalides d'un seul expéditeur déclenchent une limitation ou un blocage. -
Greylisting : Le serveur rejette temporairement (
450) la première tentative de livraison d'une combinaison inconnue expéditeur/IP/destinataire. Les serveurs légitimes réessaient après quelques minutes ; de nombreux outils de spam ne le font pas.
Étape 3 : Vérifications d'Authentification
Une fois le contenu du message arrivé, le serveur évalue l'authentification e-mail :
- SPF : L'IP d'envoi correspond-elle à l'enregistrement SPF publié du domaine ?
- DKIM : La signature cryptographique est-elle valide ? Le domaine de signature correspond-il à l'en-tête From: ?
- DMARC : SPF ou DKIM passe-t-il avec alignement au domaine From: ? Quelle politique le domaine a-t-il publiée ?
Les résultats d'authentification sont enregistrés dans l'en-tête Authentication-Results :
dkim=pass header.i=@example.com header.s=mtg;
spf=pass (google.com: 198.51.100.42 is permitted) smtp.mailfrom=example.com;
dmarc=pass (p=REJECT) header.from=example.com
L'authentification est une condition préalable, pas une garantie. La réussite de SPF, DKIM et DMARC ne signifie pas que votre message atteint la boîte de réception. Les spammeurs peuvent également mettre en place une authentification valide. Mais échouer l'authentification est un signal fortement négatif qui dirigera presque certainement votre message vers le spam ou le rejet.
Étape 4 : Analyse d'En-têtes
Les filtres anti-spam inspectent les en-têtes de messages à la recherche d'anomalies :
- Incohérence From:/Reply-To: : Des domaines différents dans From: et Reply-To: peuvent indiquer un hameçonnage.
-
En-têtes manquants ou mal formés : Un en-tête
Date:ouMessage-ID:manquant suggère que le message a été généré par un logiciel de spam rudimentaire plutôt que par un client de messagerie légitime. - Analyse de la chaîne Received: : La séquence des en-têtes Received: devrait raconter une histoire cohérente de la façon dont le message s'est déplacé. Les en-têtes Received: falsifiés ou les horodatages impossibles sont des signaux d'alerte.
- Destinataires excessifs : Un en-tête To: avec des centaines d'adresses, ou un motif d'envoi lourd en Bcc, est caractéristique du courrier en masse non sollicité.
- Injection d'en-têtes : Les sauts de ligne ou caractères inhabituels dans les valeurs d'en-tête peuvent indiquer des tentatives d'attaque par injection d'en-tête.
Étape 5 : Analyse du Contenu
L'analyse du contenu examine le corps du message, la structure HTML et les pièces jointes.
Analyse de texte et HTML
- Notation de mots-clés et phrases : Certaines phrases (« agir maintenant », « temps limité », « cliquez ici ») contribuent à un score de spam. Aucune phrase unique ne déclenche le filtrage — c'est l'accumulation de plusieurs signaux.
- Ratio HTML-texte : Un e-mail qui est entièrement des images avec presque pas de texte est suspect. Il en va de même pour un e-mail avec très peu de texte visible et un grand bloc de texte caché.
-
Texte caché : Du texte blanc sur un fond blanc, des polices de pixels zéro ou du contenu CSS
display:noneest une technique de spam classique que les filtres détectent spécifiquement. - E-mails contenant uniquement des images : Les messages contenant uniquement une grande image sans texte ont été historiquement utilisés pour contourner les filtres basés sur le texte. Les filtres modernes signalent ce motif.
- Obfuscation : Utiliser la substitution de caractères (« fr33 », « v1agra »), des homoglyphes Unicode ou du contenu codé en Base64 pour masquer les mots-clés de spam. Les filtres décodent et normalisent le contenu avant analyse.
Analyse des URL et des liens
- Listes de blocage d'URL : Les liens sont vérifiés par rapport à URIBL, SURBL, Google Safe Browsing et les bases de données spécifiques aux fournisseurs. Un seul lien vers un domaine connu comme étant mauvais peut faire en sorte que le message entier soit signalé.
- Raccourcisseurs d'URL : Les URL raccourcies (bit.ly, tinyurl) sont résolues vers leur destination finale et vérifiées. L'utilisation excessive de raccourcisseurs d'URL est elle-même un signal négatif.
- Texte de lien incompatible : Une balise d'ancrage qui dit « www.bank.com » mais qui renvoie à « evil.example.com » est un signal d'hameçonnage.
- Trop de liens : Un e-mail avec des douzaines de liens vers différents domaines suggère un message de spam ou de marketing affilié.
- Domaines nouvellement enregistrés : Les liens vers des domaines enregistrés au cours des derniers jours sont suspects.
Analyse des pièces jointes
-
Fichiers exécutables : Les pièces jointes exécutables comme
.exe,.scr,.batet similaires sont presque toujours bloquées ou mises en quarantaine. -
Archives protégées par mot de passe : Les fichiers
.zipavec des mots de passe empêchent l'analyse et sont traités avec suspicion. -
Documents avec macros activées : Les fichiers
.docm,.xlsmsont des vecteurs de malware courants. -
Décalages de type de fichier : Un fichier avec une extension
.pdfmais du contenu exécutable dans ses en-têtes binaires est signalé.
Étape 6 : Notation de Réputation
Tous les signaux ci-dessus alimentent un modèle de réputation. C'est là que la réputation IP et domaine a son impact le plus important.
La réputation agit comme un multiplicateur. Un expéditeur avec une excellente réputation bénéficie du doute — le contenu limite est livré à la boîte de réception. Un expéditeur avec une mauvaise réputation ne bénéficie d'aucun doute — même le contenu propre peut être filtré. C'est pourquoi la réputation est souvent plus importante que le contenu.
Les fournisseurs pondèrent les signaux différemment :
- Gmail met l'accent sur la réputation du domaine et l'engagement des utilisateurs. Google Postmaster Tools catégorise la réputation du domaine en quatre niveaux : Élevée, Moyenne, Faible et Mauvaise.
- Outlook.com pondère fortement la réputation IP et s'appuie sur les Données de Réputation de l'Expéditeur (SRD) d'un panel d'utilisateurs votants qui évaluent les messages comme indésirables ou non.
- Yahoo utilise une combinaison de réputation IP et domaine avec un poids significatif sur les taux de plainte de leur programme de boucle de rétroaction.
Étape 7 : Classification par Apprentissage Automatique
Les filtres anti-spam modernes utilisent des modèles d'apprentissage automatique entraînés sur des milliards de messages.
Filtrage bayésien
La technique fondamentale. Un filtre bayésien calcule la probabilité qu'un message soit du spam en fonction de la fréquence de ses mots (jetons) dans les corpus de spam connu par rapport au ham connu. Si le mot « facture » apparaît dans 80 % du ham et 5 % du spam, c'est un signal ham fort. Si « unsubscribe » apparaît aux côtés de « Félicitations ! Vous avez gagné ! » la probabilité combinée se déplace vers le spam.
Les filtres bayésiens sont adaptatifs — ils apprennent de nouveaux messages. Lorsqu'un utilisateur marque un message comme spam, le filtre met à jour ses tableaux de probabilité. Cet apprentissage par utilisateur est pourquoi le même message pourrait être filtré comme spam pour un utilisateur et livré à la boîte de réception pour un autre.
Modèles de réseaux de neurones
Les principaux fournisseurs utilisent maintenant des modèles d'apprentissage profond qui vont bien au-delà des fréquences de mots individuels. Ces modèles évaluent :
- Sens sémantique du message (pas seulement des mots-clés)
- Motifs structurels en HTML
- Motifs temporels (heure d'envoi, fréquence, rafales)
- Relation entre expéditeur et destinataire (ont-ils échangé du courrier auparavant ?)
- Similitude avec les campagnes de spam connues (analyse de clusters)
Les filtres anti-spam de Google, par exemple, traitent plus de 99,9 % du spam avant qu'il n'atteigne une boîte de réception, tout en maintenant un taux de faux positifs inférieur à 0,05 %. Cela n'est possible que avec l'apprentissage automatique à grande échelle.
Étape 8 : Signaux Post-Livraison
Le filtrage ne s'arrête pas lorsque le message atteint la boîte de réception. Les signaux post-livraison affinent continuellement le placement :
- Clics « Signaler le spam » : Le signal négatif le plus direct. Si de nombreux destinataires signalent les messages d'un expéditeur comme spam, les futurs messages de cet expéditeur sont plus susceptibles d'être filtrés pour tous les destinataires.
- « Pas du spam » / récupération du spam : Déplacer un message du spam à la boîte de réception est un signal positif qui indique au filtre qu'il a commis une erreur.
- Comportement de lecture/ouverture : Les messages qui sont régulièrement ouverts et lus signalent de la valeur. Les messages qui sont supprimés sans être lus signalent le contraire. Gmail l'utilise fortement.
- Comportement de réponse : Répondre à un message est un signal positif très fort — vous ne répondez pas au spam.
- Liste de contacts : Si l'expéditeur se trouve dans le carnet d'adresses du destinataire, le message est presque toujours livré à la boîte de réception.
- Temps de séjour : Combien de temps un destinataire passe à lire un message avant de passer au suivant.
Le filtrage basé sur l'engagement crée une boucle de rétroaction : si vos premiers messages à un nouvel abonné ne sont pas ouverts, les futurs messages sont plus susceptibles d'être filtrés. C'est pourquoi les conseils d'échauffement IP disent toujours de commencer avec vos destinataires les plus engagés.
Comment les Principaux Fournisseurs Diffèrent
Gmail
Le filtrage de Gmail est le plus sophistiqué et le plus axé sur l'engagement. Caractéristiques clés :
- La réputation du domaine pèse plus que la réputation IP.
- Les signaux d'engagement (ouvertures, réponses, rapports de spam) influencent fortement le placement dans la boîte de réception.
- Gmail catégorise certains messages dans des onglets (Principal, Promotions, Réseaux sociaux, Mises à jour) ce qui est séparé du filtrage du spam mais affecte la visibilité.
- Depuis février 2024, Gmail exige que les expéditeurs en masse (5 000+ messages/jour vers Gmail) s'authentifient avec SPF, DKIM et DMARC, fournissent la désinscription en un clic et maintiennent les taux de plainte de spam en dessous de 0,3 %.
Outlook.com / Microsoft 365
- La réputation IP est fortement pondérée. Microsoft maintient une grande base de données de réputation IP interne.
- Le panel des Données de Réputation de l'Expéditeur (SRD) — des utilisateurs réels qui votent sur le fait que les messages sont souhaités — alimente directement les décisions de filtrage.
- Exchange Online Protection (EOP) utilise plusieurs couches incluant le filtrage de connexion, le filtrage de politique et le filtrage de contenu.
- Le filtre SmartScreen de Microsoft analyse les caractéristiques des messages par rapport à un modèle entraîné sur le spam connu et l'hameçonnage.
Yahoo / AOL
- Les taux de plainte de la boucle de rétroaction de Yahoo sont un signal primaire.
- Yahoo a été un des premiers à adopter DMARC
p=reject, qu'il applique strictement. - Yahoo a rejoint Gmail en exigeant l'authentification de l'expéditeur en masse et la désinscription en un clic en 2024.
Test et Débogage du Filtre Anti-Spam
Lorsque vos messages se retrouvent dans le spam, vous avez besoin d'une approche systématique pour diagnostiquer la cause.
Lecture des en-têtes de filtrage
La plupart des filtres anti-spam ajoutent des en-têtes au message qui révèlent leur verdict. Envoyez un message de test à vous-même et inspectez les en-têtes bruts :
X-Gm-Message-State: [internal state data]
X-Google-DKIM-Signature: [Google's own signature]
Authentication-Results: mx.google.com;
spf=pass ... dkim=pass ... dmarc=pass
# Microsoft ajoute :
X-Microsoft-Antispam: BCL:0;
X-MS-Exchange-Organization-SCL: 1
# SCL (Spam Confidence Level): -1=safe, 0-4=delivered, 5-6=junk, 7-9=blocked
# SpamAssassin (open source, widely used) ajoute :
X-Spam-Status: No, score=-1.2 required=5.0
tests=DKIM_SIGNED,DKIM_VALID,DKIM_VALID_AU,SPF_PASS,
RCVD_IN_DNSWL_LOW autolearn=ham
Ces en-têtes vous indiquent exactement quels tests ont été appliqués et quels ont été leurs résultats. L'en-tête Authentication-Results est standardisé ; les en-têtes de score de spam sont spécifiques au filtre.
Test de semences
Envoyez des messages de test à des comptes de plusieurs fournisseurs (Gmail, Outlook, Yahoo, serveurs d'entreprise) et vérifiez s'ils se retrouvent dans la boîte de réception ou le spam. Faites-le avant chaque campagne majeure ou changement d'infrastructure. Plusieurs services tiers automatisent cela avec des panels d'adresses de test chez des dizaines de fournisseurs.
Isoler la variable
Si un message se retrouve dans le spam, changez une variable à la fois pour identifier le déclencheur :
- Envoyez le même contenu d'un domaine différent — s'il est livré, le problème est la réputation, pas le contenu.
- Envoyez un contenu différent du même domaine — s'il est livré, le problème est spécifique au contenu.
- Envoyez au même fournisseur à partir d'une IP différente — s'il est livré, le problème est la réputation IP ou le blocage.
- Supprimez tous les liens et renvoyez — s'il est livré, l'une de vos URL est en liste de blocage.
Ce Qui Peut Mal Tourner
E-mail légitime filtré comme spam
Vos e-mails transactionnels (réinitialisations de mot de passe, confirmations de commande) se retrouvent dans le spam parce que vos e-mails marketing sur le même domaine ont endommagé votre réputation de domaine. Le correctif : envisagez de séparer les e-mails transactionnels et marketing sur des sous-domaines différents afin que les dommages de réputation du marketing n'affectent pas la livraison critique des transactions.
Le contenu déclenche sur du contenu légitime
Votre e-mail de facture contient le mot « paiement » plus une pièce jointe plus un lien — tout légitime, mais la combinaison obtient un score élevé. Le correctif : assurez-vous une authentification et une réputation fortes afin que les signaux de contenu soient évalués dans le contexte d'un expéditeur de confiance.
Spirale de mort d'engagement
Vous envoyez à une grande liste d'abonnés inactifs. Peu ouvrent votre e-mail. Le faible taux d'engagement fait que les fournisseurs déplacent les messages suivants vers le spam. Encore moins de gens les voient. Les taux d'ouverture baissent davantage. Plus de messages vont au spam. Le correctif : purgez régulièrement les abonnés inactifs et utilisez les campagnes de réengagement avant qu'ils ne deviennent désengagés.
Blocage d'URL
Un domaine lié dans vos e-mails se retrouve en liste de blocage (peut-être votre domaine de suivi, ou un raccourcisseur de lien partagé). Chaque e-mail contenant ce lien est maintenant signalé. Le correctif : utilisez votre propre domaine pour les liens de suivi, surveillez la réputation des liens et évitez les raccourcisseurs d'URL partagés dans les e-mails.
Points Clés à Retenir
- Le filtrage du spam est multi-couches. Aucune vérification unique ne détermine le placement dans la boîte de réception. C'est l'agrégation de la connexion, authentification, contenu, réputation et signaux d'engagement.
- L'authentification est nécessaire mais non suffisante. La réussite de SPF/DKIM/DMARC ne garantit pas la livraison à la boîte de réception, mais leur échec garantit presque le spam ou le rejet.
- La réputation prime sur le contenu. Un expéditeur de confiance avec un contenu limite est livré. Un expéditeur non fiable avec du contenu propre est filtré.
- L'engagement est la nouvelle frontière. Gmail en particulier utilise les ouvertures, réponses et rapports de spam comme signaux de filtrage primaires. Envoyer aux gens qui veulent votre e-mail est la stratégie de livrabilité la plus efficace.
- Chaque fournisseur est différent. Gmail est axé sur l'engagement, Outlook est axé sur l'IP, Yahoo est axé sur les plaintes. Optimisez pour chacun.
- Séparez vos flux de messagerie. Utilisez des sous-domaines différents pour les e-mails transactionnels et marketing pour isoler la réputation.
- Surveillez et adaptez. Le filtrage anti-spam évolue constamment. Ce qui a fonctionné l'année dernière peut ne pas fonctionner aujourd'hui. Utilisez Postmaster Tools et les boucles de rétroaction pour rester informé.