高级垃圾邮件防护技术-最新新闻-关于我们-天空卫士

概述

邮件系统作为企业最为广泛使用的通讯系统，由于其开放性和易用性，不可避免的成为了各种垃圾和诈骗广告的目标。各种反垃圾邮件技术也因此应运而生。这些年来，垃圾邮件的发送渠道又成为了网络攻击的首要突破口。对于网络罪犯来说，利用垃圾邮件发送工具发送各种钓鱼邮件欺骗员工，是入侵企业最有效的方式之一。数据显示，仅2019年第二季度，垃圾邮件在全球邮件流量中的平均百分比为57.64%，比上一报告期上升1.67个百分点。垃圾邮件的泛滥已经成为企业安全不可忽视的巨大威胁，员工生产率下降、商务信息泄密等问题已经造成了不少企业的经济效益损失，不断变换的邮件发送和编写方式，更让垃圾邮件防不胜防。为了避免成为受害者，企业需要确保他们的邮件系统得到保护，以应对这类攻击手段。

作为现在最主流的邮件安全解决方案，邮件安全网关的反垃圾邮件技术已经非常成熟，在阻止垃圾信息的实现上也基本上已经标准化了：通过实时地址黑名单（RBL）、域名黑名单（DBL）、发件人策略过滤（SPF）、域名密钥识别邮件标准(DKIM)、关键字过滤和发送限制等标准手段已经可以将大约95%的垃圾邮件成功拦截。

然而，道高一尺，魔高一丈，随着垃圾邮件制造者对反垃圾技术了解程度的不断深入，他们也与时俱进地找出了很多绕过检测的巧妙新方法：例如临时注册新域名然后通过DNS TXT发布自己的SPF策略，把自己发送垃圾邮件的服务器加入SPF白名单中，可以绕过SPF检查；再比如像是利用同音异字，发送包含垃圾信息的图片；或者以看似收件人本身来发送邮件，在标题栏添加使人们以为邮件是来自朋友的信息等。因此反垃圾邮件技术并不仅仅是去关闭邮件转发功能、控制每次发送数量，增加关键字过滤就可以解决的。

一个更严重的问题是：对企业威胁最严重，造成伤害最大的钓鱼邮件，大多数是经过精心设计、会混在那5%的垃圾邮件中，悄悄渗透到企业内部。之前描述的各种反垃圾邮件技术，对这5%的邮件无能为力。如何减少“最后5%”的长尾问题，成为各家邮件安全网关技术攻坚的决胜手。

为了彻底阻截这5%的漏网之鱼，天空卫士结合自身技术优势，从邮件内容入手，通过恶链识别、内容识别、和深度学习等硬核的技术手段来提升企业邮件安全防护技能。

1.邮件恶链防护（Malicious Link protection）

钓鱼邮件都会包含有一个或多个恶意的Web链接，用来诱骗邮件接收者点击。这些恶意的Web链接指向的网站为攻击者所操纵，这些网站一般含有可感染用户电脑的木马，或者被攻击者伪装成合法网站的登录界面，借此套取用户名密码等登录信息。

天空卫士高级邮件安全网关（ASEG）的邮件恶链防护技术通过本地与云端的URL查询，实时检测邮件里嵌入的URL链接的安全性，阻隔含有恶意代码、钓鱼信息、木马等有安全风险的网站链接的邮件，防范已知的恶链威胁。天空卫士安全实验室在云端维护这一个拥有海量的URL分类和URL安全信息，并保持实时更新的数据库，帮助天空卫士ASEG准确快速地识别邮件里包含的已知的高风险网站链接，在攻击链的最早期将威胁挡于门外。

2.0天钓鱼网站识别技术（0 day Fishing Site Recognition）：基于内容识别和URL分类的反钓鱼技术

恶链防护技术可以提供准实时的钓鱼邮件防护，但只对已知并收录到天空卫士恶意URL数据库中的恶意链接有效。很多高级的钓鱼攻击往往会针对特定企业中的特定人员，使用拥有全新域名的新注册网站或攻击者新控制的肉鸡网站来发起攻击，试图获取这些特定人员的敏感登录信息。由于这些网站还没有来得及被爬虫或者威胁情报交换收录到任何恶链数据库中，恶链防护技术往往对此类钓鱼攻击无能为力。

例如下图所示，攻击者通过临时购买的域名ccb.info来架设一个全新的假冒建行网站作为攻击主体，并模仿真实的建行通知向特定用户发送钓鱼邮件。这类型的钓鱼邮件中经常包含真实的Logo、图片、背景等信息，达到以假乱真的效果。当用户点击这些钓鱼邮件中的链接时，会被重定向到这个假冒的网银页面，要求用户输入自己的登录凭证。一旦用户输入了自己的登录信息，攻击者可以将用户名和密码在暗网上贩卖，或者登录该用户网银并进行更多诈骗步骤：例如将用户的资金买成理财（很多银行网银只要资金不转出个人账户就不需要U盾或者手机动态密码验证），然后冒充银行安全人员联系用户获取手机动态密码，并将用户资金真正转出去。

检测此类攻击的关键在于如何分辨假冒的网站，天空卫士的0天反钓鱼技术通过提取邮件中的URL，分析比对其分类属性和实际内容来判断是否是假冒网站。该技术基于天空卫士强大的数据防泄漏（DLP）的内容识别引擎，建立了可识别多类网站（例如网银类和Web邮件类）的登录页面的内容识别模板。如果发现某个链接所包含的内容匹配某类模板，但其URL的分类结果并不是在该类别里，则基本可以判定这个网站是假冒网站。

对于上述举例的假冒建行的网站，ASEG将邮件中提取的链接（online-bank.cc.info）发送给天空卫士云端数据库做查询，云端的0天反钓鱼技术发现该网站所显示的登录内容能够匹配网银类的内容识别模板，但其URL（online-bank.ccb.info）是属于新注册网站的类别，并不是银行类网站，因此判定该网站是假冒的网银。ASEG根据返回结果及时阻断了这封邮件，真正做到了实时的0天反钓鱼防护。

以上智能检测的功能的有效性取决于是否有强大的数据支持，经过多年的技术和经验积累，天空卫士后台数据库已经拥有了超过2亿条站点分类信息，结合20余种内容识别模版，天空卫士云端0天钓鱼网站识别技术对于这种精准伪装的钓鱼类邮件的检出率可以达到90%以上。

3.基于图像文字识别技术（OCR）和DLP引擎的垃圾邮件识别（DLP based Anti-spam）

为了规避基于内容和恶链的反垃圾扫描，很多垃圾邮件发送者将垃圾广告以图片的方式嵌入邮件中。并渐渐地成为传播垃圾邮件的又一个趋势。天空卫士邮件运营团队对漏报的垃圾邮件进行了仔细的分析，分析的结果发现有相当比例的漏报情况是由于攻击者将垃圾信息嵌入图片中，导致传统过滤引擎的关键字和内容检测无法正确识别造成的。

如何有效识别并过滤这些披着图片外衣的恶意邮件呢？天空卫士最新的ASEG产品将OCR技术、DLP内容识别技术，同基于内容的反垃圾技术结合起来，把传统的基于关键字和正则表达的反垃圾规则转化为相应的可更新的DLP反垃圾策略；通过功能强大的DLP引擎和成熟的OCR技术，将图片中的文本信息提取出来进行检测，大大提高了对图片类垃圾邮件的检出率。该技术在减轻了垃圾邮件对终端用户造成的骚扰的同时，也保障了企业业务不会因为图片垃圾邮件造成的大量带宽消耗而受到影响。

4.基于AI的垃圾邮件识别模型（Spam Modeling）

机器学习在网络安全中的应用场景已经非常广泛，天空卫士也已经将其应用到反垃圾邮件中。天空卫士的邮件运营团队采用了循环神经网络（RNN）——深度学习的代表技术之一，通过海量的邮件样本，训练出了能够精准识别垃圾邮件的垃圾邮件识别模型（Spam Model）。RNN是一种接受序列化输入并能有一定记忆的神经网络，对复杂文本文件的分类效果要优于支持向量机（SVM）等传统机器学习模型，而且不需要对原始文本输入做去停词等前期处理。天空卫士后台URL分类库一直在使用自主培训的RNN模型对爬虫抓取的未分类网站进行分类预测，取得了较好的自动分类效果。

基于RNN的垃圾分类模型在不断改进的同时也将被包含在天空卫士最新的邮件安全网关(ASEG)中。利用机器学习模型对邮件进行垃圾识别的强大之处在于其拥有对新的垃圾内容的识别能力，可以更好地发现新出现的，其他反垃圾技术还未能检测到的垃圾邮件。当然，同其他任何基于机器学习的技术一样，该技术的缺点在于会有一定的误报率（天空卫士的模型误报率<3%），并且预测速度会较慢，因此需要配合其他反垃圾技术一起使用。ASEG将天空卫士启发式反垃圾技术同垃圾邮件识别模型有机地结合起来：启发式反垃圾技术先对进来的每一个邮件打分，得分在预定义的临界区域的非垃圾邮件再被送到垃圾邮件识别模型中进行预测，以捕捉被启发式反垃圾模块漏掉的垃圾邮件。这种组合在提高启发式反垃圾技术的检出覆盖率的同时大大减少了需要垃圾识别模型检测的邮件数量，保证了ASEG的整体邮件处理能力。

作者简介

（图中左为谭振华，右为刘茜）

谭振华，北京天空卫士网络安全技术有限公司研发总监，在后台大数据服务、大数据分析和处理、移动安全领域拥有超过15年的经验；现主要负责安全产品的数据支撑服务（包括URL&安全URL分类库、CloudApps分类库、邮件系统反垃圾库、基于深度学习的反垃圾系统等）和移动安全。

刘茜，北京天空卫士网络安全技术有限公司产品经理，电子科技大学通信工程学士和管理双学士。关注大数据、数据挖掘和机器学习算法及应用和移动安全产品。加入天空卫士之前在赛门铁克从事安全产品的研发工作。