Bộ Lọc Thư Rác Hoạt Động Như Thế Nào

Email Concepts Encyclopedia Published March 2026

ELI5: Hãy tưởng tượng một nhân viên bảo vệ ở một quán bar. Trước khi bạn tiến đến cửa, họ kiểm tra xem bạn có nằm trên danh sách bị cấm (danh sách chặn). Ở cửa, họ kiểm tra căn cước của bạn (xác thực). Bên trong, họ quan sát cách bạn ăn mặc và những gì bạn nói (lọc nội dung). Và nếu những khách quen cứ than phiền về bạn, bạn sẽ bị đuổi ra không phân biệt bất cứ điều gì khác (tín hiệu tương tác). Bộ lọc spam hoạt động theo từng lớp, mỗi lớp bắt được những gì lớp trước đó bỏ lỡ.

Đường ống lọc mà mọi email đều phải đi qua — từ kiểm tra khi kết nối đến các bộ phân loại học máy — và cách các nhà cung cấp lớn quyết định thư nào sẽ đến hộp thư.

Đường Ống Lọc

Lọc thư rác không phải là một kiểm tra duy nhất. Đó là một đường ống đa giai đoạn đánh giá tin nhắn ở mọi giai đoạn của giao dịch SMTP và sau khi gửi. Mỗi giai đoạn có thể từ chối, hoãn lại hoặc đánh dấu tin nhắn. Các giai đoạn đại loại theo thứ tự này:

Kiểm tra khi kết nối — Danh tiếng IP, danh sách chặn, giới hạn tốc độ
Kiểm tra bao bì — Xác minh người gửi, xác thực người nhận
Kiểm tra xác thực — Đánh giá SPF, DKIM, DMARC
Phân tích tiêu đề — Xác thực cấu trúc, kiểm tra tính nhất quán
Phân tích nội dung — Quét nội dung, kiểm tra URL, kiểm tra tệp đính kèm
Đánh giá danh tiếng — Danh tiếng người gửi được cân nhắc so với tất cả các tín hiệu
Phân loại học máy — Các mô hình Bayesian và mạng nơ-ron
Tín hiệu sau khi gửi — Tương tác, hành động của người dùng, phản hồi khiếu nại

Các bộ lọc thư rác hiện đại tại các nhà cung cấp như Gmail và Outlook chạy hầu hết những điều này song song, tạo ra điểm số tổng hợp xác định vị trí trong hộp thư. Nhưng hiểu chúng như một đường ống giúp giải thích cách mỗi lớp đóng góp.

Giai Đoạn 1: Kiểm Tra Khi Kết Nối

Trước khi một byte nội dung email được truyền, máy chủ nhận đánh giá địa chỉ IP kết nối.

Truy vấn danh sách chặn: Máy chủ kiểm tra IP dựa trên danh sách chặn dựa trên DNS (DNSBLs) như Spamhaus SBL/XBL, Barracuda BRBL và SpamCop. Một danh sách trên Spamhaus có thể gây ra từ chối ngay lập tức với phản hồi 550.
Bộ nhớ cache danh tiếng IP: Các nhà cung cấp lớn duy trì cơ sở dữ liệu danh tiếng nội bộ của riêng họ. Một IP có lịch sử gửi thư rác tại nhà cung cấp đó có thể bị từ chối hoặc bị điều tiết dù không có trạng thái danh sách chặn bên ngoài.
DNS ngược (FCrDNS): Máy chủ kiểm tra xem IP kết nối có bản ghi PTR hợp lệ không và liệu bản ghi PTR đó có phân giải lại thành cùng IP (DNS ngược được xác nhận chuyển tiếp). Các máy chủ không có rDNS hợp lệ thường bị từ chối hoàn toàn.
Giới hạn tốc độ: Âm lượng bất thường từ một IP kích hoạt điều tiết. Máy chủ phản hồi bằng 421 (thử lại sau) để làm chậm người gửi.

# Kết nối từ một IP bị chặn
550 5.7.1 Service unavailable; client [198.51.100.42] blocked
using zen.spamhaus.org

Kiểm tra khi kết nối là bộ lọc hiệu quả nhất về chi phí. Từ chối khi kết nối tiết kiệm cho máy chủ việc xử lý toàn bộ tin nhắn.

Giai Đoạn 2: Kiểm Tra Bao Bì

Trong giai đoạn bao bì SMTP (MAIL FROM và RCPT TO), các kiểm tra bổ sung chạy:

Sự tồn tại của người gửi: Một số máy chủ thực hiện xác minh lại gọi, kết nối với MX của người gửi để kiểm tra xem địa chỉ MAIL FROM có thực sự tồn tại không. Điều này bắt được các địa chỉ nảy thoát giả mạo.
Xác thực người nhận: Những người nhận không tồn tại bị từ chối ngay lập tức (550 5.1.1 User unknown). Tỷ lệ cao của những người nhận không hợp lệ từ một người gửi duy nhất kích hoạt điều tiết hoặc chặn.
Greylisting: Máy chủ tạm thời từ chối (450) lần gửi đầu tiên từ một tổ hợp người gửi/IP/người nhận không xác định. Các máy chủ hợp pháp sẽ thử lại sau vài phút; nhiều công cụ thư rác không.

Giai Đoạn 3: Kiểm Tra Xác Thực

Khi nội dung tin nhắn đến, máy chủ đánh giá xác thực email:

SPF: IP gửi có khớp với bản ghi SPF được phát hành của miền không?
DKIM: Chữ ký mật mã có hợp lệ không? Miền ký có khớp với tiêu đề From: không?
DMARC: SPF hoặc DKIM có vượt qua với sự xắn hàng với miền From: không? Miền đã phát hành chính sách nào?

Kết quả xác thực được ghi lại trong tiêu đề Authentication-Results:

Authentication-Results: mx.google.com;
dkim=pass header.i=@example.com header.s=mtg;
spf=pass (google.com: 198.51.100.42 is permitted) smtp.mailfrom=example.com;
dmarc=pass (p=REJECT) header.from=example.com

Xác thực là điều kiện tiên quyết, không phải là bảo đảm. Vượt qua SPF, DKIM và DMARC không có nghĩa là tin nhắn của bạn sẽ đến hộp thư. Những kẻ spam có thể thiết lập xác thực hợp lệ. Nhưng thất bại xác thực là một tín hiệu tiêu cực mạnh mẽ sẽ gần như chắc chắn định tuyến tin nhắn của bạn đến spam hoặc từ chối.

Giai Đoạn 4: Phân Tích Tiêu Đề

Các bộ lọc thư rác kiểm tra tiêu đề tin nhắn để tìm những bất thường:

Không khớp From:/Reply-To: Các miền khác nhau trong From: và Reply-To: có thể chỉ ra lừa đảo.
Tiêu đề bị thiếu hoặc không đúng định dạng: Tiêu đề Date: hoặc Message-ID: bị thiếu gợi ý rằng tin nhắn được tạo ra bằng phần mềm thư rác thô sơ chứ không phải là máy khách thư hợp pháp.
Phân tích chuỗi Received: Chuỗi tiêu đề Received: nên kể câu chuyện hợp lý về cách tin nhắn được truyền tải. Các tiêu đề Received: giả mạo hoặc dấu thời gian không thể là những cờ đỏ.
Người nhận quá mức: Tiêu đề To: có hàng trăm địa chỉ hoặc mẫu gửi nặng Bcc là đặc điểm của thư rác hàng loạt không được yêu cầu.
Tiêu đề tiêm: Các dòng mới hoặc ký tự bất thường trong giá trị tiêu đề có thể chỉ ra các cuộc tấn công tiêm tiêu đề cố gắng.

Giai Đoạn 5: Phân Tích Nội Dung

Phân tích nội dung kiểm tra nội dung tin nhắn, cấu trúc HTML và các tệp đính kèm.

Phân tích văn bản và HTML

Tính điểm từ khóa và cụm từ: Các cụm từ nhất định ("hành động ngay bây giờ," "thời gian hạn chế," "nhấp vào đây") góp phần vào điểm thư rác. Không có cụm từ duy nhất kích hoạt lọc — đó là tích lũy của nhiều tín hiệu.
Tỷ lệ HTML với văn bản: Một email hoàn toàn là hình ảnh với hầu như không có văn bản là đáng ngờ. Điều tương tự cũng áp dụng cho email có một lượng nhỏ văn bản hiển thị và một khối văn bản ẩn lớn.
Văn bản ẩn: Văn bản trắng trên nền trắng, phông chữ pixel không, hoặc nội dung CSS display:none là kỹ thuật thư rác cổ điển mà các bộ lọc cụ thể phát hiện.
Email chỉ hình ảnh: Các tin nhắn bao gồm chỉ một hình ảnh lớn không có văn bản trong lịch sử được sử dụng để tránh các bộ lọc dựa trên văn bản. Các bộ lọc hiện đại đánh dấu mẫu này.
Làm mờ: Sử dụng thay thế ký tự ("fr33," "v1agra"), lookalike Unicode hoặc nội dung mã hóa Base64 để ẩn từ khóa thư rác. Các bộ lọc giải mã và chuẩn hóa nội dung trước khi phân tích.

Phân tích URL và liên kết

Danh sách chặn URL: Các liên kết được kiểm tra dựa trên URIBL, SURBL, Google Safe Browsing và cơ sở dữ liệu dành riêng cho nhà cung cấp. Một liên kết duy nhất đến miền xấu có thể gây ra toàn bộ tin nhắn bị đánh dấu.
Cách rút ngắn URL: Các URL rút ngắn (bit.ly, tinyurl) được phân giải đến đích cuối cùng của chúng và kiểm tra. Sử dụng quá mức các cách rút ngắn URL là bản thân nó là tín hiệu tiêu cực.
Văn bản liên kết không khớp: Thẻ neo nói "www.bank.com" nhưng liên kết đến "evil.example.com" là tín hiệu lừa đảo.
Quá nhiều liên kết: Một email có hàng chục liên kết đến các miền khác nhau gợi ý một thư rác hoặc tin nhắn tiếp thị liên kết.
Miền mới đăng ký: Các liên kết đến miền được đăng ký trong vài ngày qua là đáng ngờ.

Phân tích tệp đính kèm

Tệp có thể thực thi: .exe, .scr, .bat và các tệp đính kèm có thể thực thi tương tự hầu như luôn bị chặn hoặc cách ly.
Kho lưu trữ được bảo vệ bằng mật khẩu: .zip file có mật khẩu ngăn chặn quét và được coi là đáng ngờ.
Tài liệu bật macro: .docm, .xlsm file là vectơ phần mềm độc hại phổ biến.
Không khớp loại tệp: Tệp có phần mở rộng .pdf nhưng nội dung có thể thực thi trong tiêu đề nhị phân của nó bị đánh dấu.

Giai Đoạn 6: Đánh Giá Danh Tiếng

Tất cả các tín hiệu trên được đưa vào mô hình danh tiếng. Đây là nơi danh tiếng IP và miền có tác động lớn nhất của chúng.

Danh tiếng hoạt động như một bộ nhân. Một người gửi có danh tiếng xuất sắc được mặc định tin tưởng — nội dung biên giới được gửi đến hộp thư. Một người gửi có danh tiếng tồi tệ sẽ không được tin tưởng — thậm chí nội dung sạch sẽ cũng có thể bị lọc. Đây là lý do tại sao danh tiếng thường quan trọng hơn nội dung.

Các nhà cung cấp cân nhắc tín hiệu khác nhau:

Gmail nhấn mạnh nặng nề vào danh tiếng miền và sự tham gia của người dùng. Google Postmaster Tools phân loại danh tiếng miền thành bốn cấp: Cao, Trung bình, Thấp và Xấu.
Outlook.com cân nhắc danh tiếng IP nặng nề và dựa vào Dữ liệu Danh tiếng Người gửi (SRD) từ một bảng người dùng bỏ phiếu người đánh giá tin nhắn là thư rác hoặc không phải thư rác.
Yahoo sử dụng sự kết hợp của danh tiếng IP và miền với trọng lượng đáng kể về tỷ lệ khiếu nại từ chương trình vòng phản hồi của họ.

Giai Đoạn 7: Phân Loại Học Máy

Các bộ lọc thư rác hiện đại sử dụng các mô hình học máy được đào tạo trên hàng tỷ tin nhắn.

Lọc Bayesian

Kỹ thuật nền tảng. Bộ lọc Bayesian tính xác suất tin nhắn là thư rác dựa trên tần suất từ (token) của nó trong các kho dữ liệu thư rác đã biết so với thư hợp pháp. Nếu từ "hóa đơn" xuất hiện trong 80% thư hợp pháp và 5% thư rác, đó là tín hiệu thư hợp pháp mạnh mẽ. Nếu "hủy đăng ký" xuất hiện cùng với "Chúc mừng! Bạn đã chiến thắng!" xác suất kết hợp sẽ chuyển về phía thư rác.

Các bộ lọc Bayesian có khả năng thích ứng — chúng học từ các tin nhắn mới. Khi người dùng đánh dấu tin nhắn là thư rác, bộ lọc cập nhật bảng xác suất của nó. Sự học tập cho mỗi người dùng này là lý do tại sao cùng một tin nhắn có thể bị lọc là thư rác cho một người dùng và được gửi đến hộp thư cho người dùng khác.

Các mô hình mạng nơ-ron

Các nhà cung cấp lớn hiện sử dụng các mô hình học sâu vượt xa tần suất từ riêng lẻ. Các mô hình này đánh giá:

Ý nghĩa ngữ nghĩa của tin nhắn (không chỉ các từ khóa)
Các mẫu cấu trúc trong HTML
Các mẫu thời gian (thời gian gửi, tần suất, vụ nổ)
Mối quan hệ giữa người gửi và người nhận (họ đã trao đổi thư trước đây không?)
Sự tương tự với các chiến dịch thư rác đã biết (phân tích cụm)

Các bộ lọc thư rác của Google, chẳng hạn, xử lý hơn 99,9% thư rác trước khi nó đến bất kỳ hộp thư nào, đồng thời duy trì tỷ lệ dương tính giả dưới 0,05%. Điều này chỉ có thể đạt được với học máy quy mô lớn.

Giai Đoạn 8: Tín Hiệu Sau Khi Gửi

Lọc không dừng lại khi tin nhắn chạm vào hộp thư. Các tín hiệu sau khi gửi liên tục tinh chỉnh vị trí:

Nhấp vào "Báo cáo Spam": Tín hiệu tiêu cực trực tiếp nhất. Nếu nhiều người nhận báo cáo tin nhắn từ một người gửi là thư rác, các tin nhắn trong tương lai từ người gửi đó sẽ có khả năng bị lọc hơn cho tất cả người nhận.
"Không phải Spam" / cứu khỏi thư rác: Tín hiệu tích cực cho biết bộ lọc đã mắc lỗi khi di chuyển tin nhắn từ thư rác đến hộp thư.
Hành vi đọc/mở: Các tin nhắn được mở và đọc một cách liên tục thể hiện giá trị. Các tin nhắn bị xóa mà không đọc thể hiện điều ngược lại. Gmail sử dụng điều này một cách nặng nề.
Hành vi trả lời: Trả lời tin nhắn là tín hiệu tích cực rất mạnh — bạn không trả lời thư rác.
Danh sách liên hệ: Nếu người gửi nằm trong sổ địa chỉ của người nhận, tin nhắn hầu như luôn được gửi đến hộp thư.
Thời gian lưu trú: Người nhận dành bao lâu để đọc tin nhắn trước khi chuyển sang cái khác.

Lọc dựa trên sự tham gia tạo ra một vòng phản hồi: nếu các tin nhắn ban đầu của bạn cho người đăng ký mới không được mở, các tin nhắn trong tương lai có khả năng bị lọc cao hơn. Đây là lý do tại sao lời khuyên làm ấm IP luôn nói bắt đầu với những người nhận được tham gia nhiều nhất của bạn.

Cách Các Nhà Cung Cấp Lớn Khác Nhau

Gmail

Lọc của Gmail là tinh vi nhất và chịu ảnh hưởng nhiều nhất bởi sự tham gia. Các đặc điểm chính:

Danh tiếng miền nặng hơn danh tiếng IP.
Các tín hiệu tham gia (mở, trả lời, báo cáo thư rác) ảnh hưởng mạnh mẽ đến vị trí hộp thư.
Gmail phân loại một số thư vào các tab (Chính, Khuyến mãi, Xã hội, Cập nhật) riêng từ lọc thư rác nhưng ảnh hưởng đến khả năng hiển thị.
Kể từ tháng 2 năm 2024, Gmail yêu cầu những người gửi hàng loạt (5.000+ tin nhắn/ngày đến Gmail) xác thực bằng SPF, DKIM và DMARC, cung cấp hủy đăng ký một cái nhấp và duy trì tỷ lệ khiếu nại spam dưới 0,3%.

Outlook.com / Microsoft 365

Danh tiếng IP được cân nhắc nặng nề. Microsoft duy trì cơ sở dữ liệu danh tiếng IP nội bộ lớn.
Bảng Dữ liệu Danh tiếng Người gửi (SRD) — những người dùng thực bỏ phiếu về việc liệu tin nhắn có được mong muốn hay không — được đưa trực tiếp vào các quyết định lọc.
Exchange Online Protection (EOP) sử dụng nhiều lớp bao gồm lọc kết nối, lọc chính sách và lọc nội dung.
Bộ lọc SmartScreen của Microsoft phân tích các đặc điểm tin nhắn so với mô hình được đào tạo trên thư rác và lừa đảo đã biết.

Yahoo / AOL

Tỷ lệ khiếu nại từ vòng phản hồi của Yahoo là tín hiệu chính.
Yahoo là một người sử dụng sớm của DMARC p=reject, mà nó thực thi một cách nghiêm ngặt.
Yahoo tham gia cùng Gmail trong việc yêu cầu xác thực người gửi hàng loạt và hủy đăng ký một cái nhấp vào năm 2024.

Kiểm Tra Và Gỡ Lỗi Bộ Lọc Thư Rác

Khi tin nhắn của bạn rơi vào thư rác, bạn cần một cách tiếp cận có hệ thống để chẩn đoán nguyên nhân.

Đọc tiêu đề bộ lọc

Hầu hết các bộ lọc thư rác thêm tiêu đề vào tin nhắn tiết lộ phán quyết của chúng. Gửi một tin nhắn kiểm tra cho chính bạn và kiểm tra các tiêu đề thô:

# Gmail thêm các tiêu đề này (visible in "Show original"):
X-Gm-Message-State: [internal state data]
X-Google-DKIM-Signature: [Google's own signature]
Authentication-Results: mx.google.com;
spf=pass ... dkim=pass ... dmarc=pass

# Microsoft thêm:
X-Microsoft-Antispam: BCL:0;
X-MS-Exchange-Organization-SCL: 1
# SCL (Spam Confidence Level): -1=safe, 0-4=delivered, 5-6=junk, 7-9=blocked

# SpamAssassin (open source, widely used) thêm:
X-Spam-Status: No, score=-1.2 required=5.0
tests=DKIM_SIGNED,DKIM_VALID,DKIM_VALID_AU,SPF_PASS,
RCVD_IN_DNSWL_LOW autolearn=ham

Các tiêu đề này cho bạn biết chính xác những bài kiểm tra nào được áp dụng và kết quả của chúng là gì. Tiêu đề Authentication-Results là tiêu chuẩn; tiêu đề điểm spam là dành riêng cho bộ lọc.

Kiểm tra hạt giống

Gửi tin nhắn kiểm tra đến các tài khoản tại nhiều nhà cung cấp (Gmail, Outlook, Yahoo, máy chủ doanh nghiệp) và kiểm tra xem chúng có đến hộp thư hoặc thư rác không. Làm điều này trước mỗi chiến dịch lớn hoặc thay đổi cơ sở hạ tầng. Một số dịch vụ của bên thứ ba tự động hóa điều này với các bảng địa chỉ kiểm tra trên hàng chục nhà cung cấp.

Cô lập biến số

Nếu tin nhắn rơi vào thư rác, hãy thay đổi một biến số tại một thời điểm để xác định kích hoạt:

Gửi nội dung tương tự từ miền khác — nếu nó được gửi, vấn đề là danh tiếng, không phải nội dung.
Gửi nội dung khác từ cùng miền — nếu nó được gửi, vấn đề là nội dung cụ thể.
Gửi đến cùng nhà cung cấp từ IP khác — nếu nó được gửi, vấn đề là danh tiếng IP hoặc danh sách chặn.
Xóa tất cả các liên kết và gửi lại — nếu nó được gửi, một trong các URL của bạn bị chặn.

Những Gì Có Thể Xảy Ra

Email hợp pháp bị lọc là thư rác

Email giao dịch của bạn (đặt lại mật khẩu, xác nhận đơn hàng) rơi vào thư rác vì email tiếp thị của bạn trên cùng miền đã hủy danh tiếng miền của bạn. Cách khắc phục: cân nhắc tách email giao dịch và tiếp thị vào các miền con khác nhau để tổn hại danh tiếng từ tiếp thị không ảnh hưởng đến giao dịch quan trọng.

Nội dung kích hoạt trên nội dung hợp pháp

Email hóa đơn của bạn chứa từ "thanh toán" cộng với tệp đính kèm cộng với liên kết — tất cả hợp pháp, nhưng sự kết hợp có điểm cao. Cách khắc phục: đảm bảo xác thực mạnh và danh tiếng để các tín hiệu nội dung được đánh giá trong bối cảnh của người gửi đáng tin cậy.

Vòng xoáy tử thần sự tham gia

Bạn gửi cho một danh sách lớn những người đăng ký không hoạt động. Một số ít mở email của bạn. Tỷ lệ tham gia thấp khiến các nhà cung cấp chuyển các tin nhắn tiếp theo sang thư rác. Thậm chí ít người nhìn thấy chúng hơn. Tỷ lệ mở giảm thêm. Nhiều tin nhắn hơn được gửi đến thư rác. Cách khắc phục: thường xuyên loại bỏ những người đăng ký không hoạt động và sử dụng các chiến dịch tái kích hoạt trước khi họ trở nên không kích hoạt.

Danh sách chặn URL

Một miền được liên kết trong email của bạn bị chặn (có thể là miền theo dõi của bạn hoặc cách rút ngắn liên kết được chia sẻ). Mỗi email chứa liên kết đó hiện được đánh dấu. Cách khắc phục: sử dụng miền của riêng bạn cho các liên kết theo dõi, giám sát danh tiếng liên kết và tránh các cách rút ngắn URL được chia sẻ trong email.

Những Điều Cần Ghi Nhớ Chính

Lọc thư rác đa lớp. Không có kiểm tra duy nhất xác định vị trí hộp thư. Đó là tổng hợp của sự kết nối, xác thực, nội dung, danh tiếng và tín hiệu tham gia.
Xác thực là cần thiết nhưng không đủ. Vượt qua SPF/DKIM/DMARC không bảo đảm gửi hộp thư, nhưng việc thất bại gần như chắc chắn đảm bảo thư rác hoặc từ chối.
Danh tiếng áp đảo nội dung. Một người gửi được tin tưởng với nội dung biên giới được gửi. Người gửi không được tin tưởng với nội dung sạch sẽ bị lọc.
Sự tham gia là biên giới mới. Gmail đặc biệt sử dụng mở, trả lời và báo cáo thư rác làm tín hiệu lọc chính. Gửi đến những người muốn email của bạn là chiến lược khả năng giao hàng hiệu quả nhất.
Mỗi nhà cung cấp khác nhau. Gmail chịu sự tham gia, Outlook chịu IP, Yahoo chịu khiếu nại. Tối ưu hóa cho mỗi cái.
Tách luồng thư của bạn. Sử dụng các miền con khác nhau cho email giao dịch và tiếp thị để cô lập danh tiếng.
Giám sát và điều chỉnh. Lọc thư rác phát triển liên tục. Những gì đã làm việc năm ngoái có thể không hoạt động hôm nay. Sử dụng Postmaster Tools và vòng phản hồi để cập nhật.