← RFC Reference

Bộ Lọc Thư Rác Hoạt Động Như Thế Nào

Email Concepts Encyclopedia Published March 2026
ELI5: Hãy tưởng tượng một nhân viên bảo vệ ở một quán bar. Trước khi bạn tiến đến cửa, họ kiểm tra xem bạn có nằm trên danh sách bị cấm (danh sách chặn). Ở cửa, họ kiểm tra căn cước của bạn (xác thực). Bên trong, họ quan sát cách bạn ăn mặc và những gì bạn nói (lọc nội dung). Và nếu những khách quen cứ than phiền về bạn, bạn sẽ bị đuổi ra không phân biệt bất cứ điều gì khác (tín hiệu tương tác). Bộ lọc spam hoạt động theo từng lớp, mỗi lớp bắt được những gì lớp trước đó bỏ lỡ.

Đường ống lọc mà mọi email đều phải đi qua — từ kiểm tra khi kết nối đến các bộ phân loại học máy — và cách các nhà cung cấp lớn quyết định thư nào sẽ đến hộp thư.

Đường Ống Lọc

Lọc thư rác không phải là một kiểm tra duy nhất. Đó là một đường ống đa giai đoạn đánh giá tin nhắn ở mọi giai đoạn của giao dịch SMTP và sau khi gửi. Mỗi giai đoạn có thể từ chối, hoãn lại hoặc đánh dấu tin nhắn. Các giai đoạn đại loại theo thứ tự này:

  1. Kiểm tra khi kết nối — Danh tiếng IP, danh sách chặn, giới hạn tốc độ
  2. Kiểm tra bao bì — Xác minh người gửi, xác thực người nhận
  3. Kiểm tra xác thực — Đánh giá SPF, DKIM, DMARC
  4. Phân tích tiêu đề — Xác thực cấu trúc, kiểm tra tính nhất quán
  5. Phân tích nội dung — Quét nội dung, kiểm tra URL, kiểm tra tệp đính kèm
  6. Đánh giá danh tiếng — Danh tiếng người gửi được cân nhắc so với tất cả các tín hiệu
  7. Phân loại học máy — Các mô hình Bayesian và mạng nơ-ron
  8. Tín hiệu sau khi gửi — Tương tác, hành động của người dùng, phản hồi khiếu nại

Các bộ lọc thư rác hiện đại tại các nhà cung cấp như Gmail và Outlook chạy hầu hết những điều này song song, tạo ra điểm số tổng hợp xác định vị trí trong hộp thư. Nhưng hiểu chúng như một đường ống giúp giải thích cách mỗi lớp đóng góp.

Giai Đoạn 1: Kiểm Tra Khi Kết Nối

Trước khi một byte nội dung email được truyền, máy chủ nhận đánh giá địa chỉ IP kết nối.

# Kết nối từ một IP bị chặn
550 5.7.1 Service unavailable; client [198.51.100.42] blocked
using zen.spamhaus.org

Kiểm tra khi kết nối là bộ lọc hiệu quả nhất về chi phí. Từ chối khi kết nối tiết kiệm cho máy chủ việc xử lý toàn bộ tin nhắn.

Giai Đoạn 2: Kiểm Tra Bao Bì

Trong giai đoạn bao bì SMTP (MAIL FROMRCPT TO), các kiểm tra bổ sung chạy:

Giai Đoạn 3: Kiểm Tra Xác Thực

Khi nội dung tin nhắn đến, máy chủ đánh giá xác thực email:

Kết quả xác thực được ghi lại trong tiêu đề Authentication-Results:

Authentication-Results: mx.google.com;
dkim=pass header.i=@example.com header.s=mtg;
spf=pass (google.com: 198.51.100.42 is permitted) smtp.mailfrom=example.com;
dmarc=pass (p=REJECT) header.from=example.com

Xác thực là điều kiện tiên quyết, không phải là bảo đảm. Vượt qua SPF, DKIM và DMARC không có nghĩa là tin nhắn của bạn sẽ đến hộp thư. Những kẻ spam có thể thiết lập xác thực hợp lệ. Nhưng thất bại xác thực là một tín hiệu tiêu cực mạnh mẽ sẽ gần như chắc chắn định tuyến tin nhắn của bạn đến spam hoặc từ chối.

Giai Đoạn 4: Phân Tích Tiêu Đề

Các bộ lọc thư rác kiểm tra tiêu đề tin nhắn để tìm những bất thường:

Giai Đoạn 5: Phân Tích Nội Dung

Phân tích nội dung kiểm tra nội dung tin nhắn, cấu trúc HTML và các tệp đính kèm.

Phân tích văn bản và HTML

Phân tích URL và liên kết

Phân tích tệp đính kèm

Giai Đoạn 6: Đánh Giá Danh Tiếng

Tất cả các tín hiệu trên được đưa vào mô hình danh tiếng. Đây là nơi danh tiếng IP và miền có tác động lớn nhất của chúng.

Danh tiếng hoạt động như một bộ nhân. Một người gửi có danh tiếng xuất sắc được mặc định tin tưởng — nội dung biên giới được gửi đến hộp thư. Một người gửi có danh tiếng tồi tệ sẽ không được tin tưởng — thậm chí nội dung sạch sẽ cũng có thể bị lọc. Đây là lý do tại sao danh tiếng thường quan trọng hơn nội dung.

Các nhà cung cấp cân nhắc tín hiệu khác nhau:

Giai Đoạn 7: Phân Loại Học Máy

Các bộ lọc thư rác hiện đại sử dụng các mô hình học máy được đào tạo trên hàng tỷ tin nhắn.

Lọc Bayesian

Kỹ thuật nền tảng. Bộ lọc Bayesian tính xác suất tin nhắn là thư rác dựa trên tần suất từ (token) của nó trong các kho dữ liệu thư rác đã biết so với thư hợp pháp. Nếu từ "hóa đơn" xuất hiện trong 80% thư hợp pháp và 5% thư rác, đó là tín hiệu thư hợp pháp mạnh mẽ. Nếu "hủy đăng ký" xuất hiện cùng với "Chúc mừng! Bạn đã chiến thắng!" xác suất kết hợp sẽ chuyển về phía thư rác.

Các bộ lọc Bayesian có khả năng thích ứng — chúng học từ các tin nhắn mới. Khi người dùng đánh dấu tin nhắn là thư rác, bộ lọc cập nhật bảng xác suất của nó. Sự học tập cho mỗi người dùng này là lý do tại sao cùng một tin nhắn có thể bị lọc là thư rác cho một người dùng và được gửi đến hộp thư cho người dùng khác.

Các mô hình mạng nơ-ron

Các nhà cung cấp lớn hiện sử dụng các mô hình học sâu vượt xa tần suất từ riêng lẻ. Các mô hình này đánh giá:

Các bộ lọc thư rác của Google, chẳng hạn, xử lý hơn 99,9% thư rác trước khi nó đến bất kỳ hộp thư nào, đồng thời duy trì tỷ lệ dương tính giả dưới 0,05%. Điều này chỉ có thể đạt được với học máy quy mô lớn.

Giai Đoạn 8: Tín Hiệu Sau Khi Gửi

Lọc không dừng lại khi tin nhắn chạm vào hộp thư. Các tín hiệu sau khi gửi liên tục tinh chỉnh vị trí:

Lọc dựa trên sự tham gia tạo ra một vòng phản hồi: nếu các tin nhắn ban đầu của bạn cho người đăng ký mới không được mở, các tin nhắn trong tương lai có khả năng bị lọc cao hơn. Đây là lý do tại sao lời khuyên làm ấm IP luôn nói bắt đầu với những người nhận được tham gia nhiều nhất của bạn.

Cách Các Nhà Cung Cấp Lớn Khác Nhau

Gmail

Lọc của Gmail là tinh vi nhất và chịu ảnh hưởng nhiều nhất bởi sự tham gia. Các đặc điểm chính:

Outlook.com / Microsoft 365

Yahoo / AOL

Kiểm Tra Và Gỡ Lỗi Bộ Lọc Thư Rác

Khi tin nhắn của bạn rơi vào thư rác, bạn cần một cách tiếp cận có hệ thống để chẩn đoán nguyên nhân.

Đọc tiêu đề bộ lọc

Hầu hết các bộ lọc thư rác thêm tiêu đề vào tin nhắn tiết lộ phán quyết của chúng. Gửi một tin nhắn kiểm tra cho chính bạn và kiểm tra các tiêu đề thô:

# Gmail thêm các tiêu đề này (visible in "Show original"):
X-Gm-Message-State: [internal state data]
X-Google-DKIM-Signature: [Google's own signature]
Authentication-Results: mx.google.com;
spf=pass ... dkim=pass ... dmarc=pass

# Microsoft thêm:
X-Microsoft-Antispam: BCL:0;
X-MS-Exchange-Organization-SCL: 1
# SCL (Spam Confidence Level): -1=safe, 0-4=delivered, 5-6=junk, 7-9=blocked

# SpamAssassin (open source, widely used) thêm:
X-Spam-Status: No, score=-1.2 required=5.0
tests=DKIM_SIGNED,DKIM_VALID,DKIM_VALID_AU,SPF_PASS,
RCVD_IN_DNSWL_LOW autolearn=ham

Các tiêu đề này cho bạn biết chính xác những bài kiểm tra nào được áp dụng và kết quả của chúng là gì. Tiêu đề Authentication-Results là tiêu chuẩn; tiêu đề điểm spam là dành riêng cho bộ lọc.

Kiểm tra hạt giống

Gửi tin nhắn kiểm tra đến các tài khoản tại nhiều nhà cung cấp (Gmail, Outlook, Yahoo, máy chủ doanh nghiệp) và kiểm tra xem chúng có đến hộp thư hoặc thư rác không. Làm điều này trước mỗi chiến dịch lớn hoặc thay đổi cơ sở hạ tầng. Một số dịch vụ của bên thứ ba tự động hóa điều này với các bảng địa chỉ kiểm tra trên hàng chục nhà cung cấp.

Cô lập biến số

Nếu tin nhắn rơi vào thư rác, hãy thay đổi một biến số tại một thời điểm để xác định kích hoạt:

Những Gì Có Thể Xảy Ra

Email hợp pháp bị lọc là thư rác

Email giao dịch của bạn (đặt lại mật khẩu, xác nhận đơn hàng) rơi vào thư rác vì email tiếp thị của bạn trên cùng miền đã hủy danh tiếng miền của bạn. Cách khắc phục: cân nhắc tách email giao dịch và tiếp thị vào các miền con khác nhau để tổn hại danh tiếng từ tiếp thị không ảnh hưởng đến giao dịch quan trọng.

Nội dung kích hoạt trên nội dung hợp pháp

Email hóa đơn của bạn chứa từ "thanh toán" cộng với tệp đính kèm cộng với liên kết — tất cả hợp pháp, nhưng sự kết hợp có điểm cao. Cách khắc phục: đảm bảo xác thực mạnh và danh tiếng để các tín hiệu nội dung được đánh giá trong bối cảnh của người gửi đáng tin cậy.

Vòng xoáy tử thần sự tham gia

Bạn gửi cho một danh sách lớn những người đăng ký không hoạt động. Một số ít mở email của bạn. Tỷ lệ tham gia thấp khiến các nhà cung cấp chuyển các tin nhắn tiếp theo sang thư rác. Thậm chí ít người nhìn thấy chúng hơn. Tỷ lệ mở giảm thêm. Nhiều tin nhắn hơn được gửi đến thư rác. Cách khắc phục: thường xuyên loại bỏ những người đăng ký không hoạt động và sử dụng các chiến dịch tái kích hoạt trước khi họ trở nên không kích hoạt.

Danh sách chặn URL

Một miền được liên kết trong email của bạn bị chặn (có thể là miền theo dõi của bạn hoặc cách rút ngắn liên kết được chia sẻ). Mỗi email chứa liên kết đó hiện được đánh dấu. Cách khắc phục: sử dụng miền của riêng bạn cho các liên kết theo dõi, giám sát danh tiếng liên kết và tránh các cách rút ngắn URL được chia sẻ trong email.

Những Điều Cần Ghi Nhớ Chính

Đọc Thêm

Related RFCs