如何使用谷米汽车在线客服?,

网络爬虫何以为罪

一、数据爬取的技术风险及刑法规制的必要

网络爬虫(Web Crawler),又称为网络蜘蛛(Web Spider)或网络机器人(Web Robot),是一项在互联网时代普遍运用的网络信息搜索技术。其相对于人工信息搜素而言,其效率得以广泛提升。该技术的基本原理是:首先根据搜索的目的建立待爬取URL队列,并将其取出,对该URL所对应的网页进行解析。当爬虫访问整个网页时,会自动识别网页中所有的URL并将其添加到待爬取URL,如此循环往复,直到URL队列中的所有URL全部爬取完毕或满足一定要求为止。整体而言,网络爬虫的工作步骤即为:获取网页——解析网页——存储数据。网络爬虫运用的最为广泛的领域为搜索引擎,一般可将网络爬虫与搜索引擎划等号。随着商业模式的不断更新,网络爬虫也被应用于对各种新闻资讯的搜集、分类、排序等,并实现及时地动态推送。这一商业模式也成就了某些聚合媒体(如今日头条),或网络信息平台(如新浪微博)。

网络爬虫不仅仅是一种新兴的数据收集手段,更是一种生产手段、研究手段,甚至已经成为当前互联网访问的重要组成部分。根据Imperva发布的bot traffic report 2016,超过一半以上的互联网访问是由自动bot产生的,这意味着接近每20次互联网访问中,就有一次是爬虫。如此频繁与广泛的运用,必然伴随着一定的技术风险。结合上述网络爬虫的工作步骤与原理,其技术的使用会带来三种类型的风险:一是爬虫技术的使用会对计算机信息系统安全产生威胁,即运用网络爬虫侵入到计算机信息系统内部。并且,根据我国刑法285条的规定,如果是非法侵入到国家事务、国防建设、尖端科学技术领域的计算机信息系统,即使仅仅是侵入而尚未实施其他的危害行为,依然有可能按照犯罪论处;二是会对计算机信息系统中的数据安全产生威胁,即侵入到非属于国家事务、国防建设、尖端科学技术领域的计算机信息系统中并获取其存储、处理、传输的网络数据,按照我国刑法285条第二款的规定,有可能构成非法获取计算机信息系统数据罪。此外,如果爬取的数据本身负载着其他的法益内容,如个人信息、商业秘密、国家秘密等,还有可能对个人隐私、商业秩序和国家安全造成威胁;三是会对计算机信息系统功能以及正常运行造成威胁。这主要指的是,网络爬虫是通过模拟人工点击来对网站进行一次性大量访问,这一过程中会对被访问对象的网络资源进行一定的挤占甚至是破坏,从而影响到计算机信息系统的稳定与运营。根据我国刑法286条的规定,这一行为在造成严重后果的前提下可能构成破坏计算机信息系统罪。

当一项技术可能被滥用从而对他人及社会的利益造成危害时,“技术中立原则”便不能再作为违法犯罪的挡箭牌。针对网络爬虫的此一风险,司法实践展现出了由宽到严的趋势:由一开始作为不正当竞争案例予以民事法规制(如新浪诉脉脉案、淘宝诉美景案),逐渐开始关注爬虫行为的刑事违法性与刑法规制(如车来了案、今日头条案)。背后反映的不仅仅是司法规制的理念与政策转向,还体现了规制角度的转变。即,评价重心从对于爬取数据的使用行为转变为爬取本身行为的合法性。与此同时,刑法理论上对网络爬虫的危害性与规制的必要性也有了逐渐清醒的认识,并提倡利益权衡与审慎中立的原则;还有的学者从网络爬虫的刑事风险出发,初步地从“行为不法”与“对象不法”两个角度对其刑法规制问题进行了讨论,尝试为爬虫技术的使用划定行为边界。但是,以上的研究要么只是对于网络爬虫的规制原则进行轻描淡写的描述,未触及到其技术本质,要么是对网络爬虫行为的法律规制问题未进行充分的规范属性的探讨。随着网络爬虫入刑第一案(即“今日头条案”,案情见后述)的审结,虽提出了些许审理类似案件的可供参考的思路与规则,但尚有一些争议问题未予以澄清或制造了新的争议。

鉴于此,本文立足于刑事法视角,结合刑法当前理论与司法实践判例,意图为网络爬虫刑法规制提供指导意义的理念思路与可供参考的认定规则,为网络爬虫这一技术的运用划定行为的“红线”,从而更有利于该技术正面效能的发挥,为大数据时代的数据开放、分享与利用提供法律保障。

二、爬取行为的不法内涵在于“非法访问”

随着司法规制对于网络爬虫行为规制重心从爬取数据之后的利用行为逐渐转移到爬取行为本身的非法性,如何认定网络爬虫这一技术的“非法性”便成为核心议题,这也成为对网络爬虫技术行为进行刑法规制的第一个维度。纵观我国刑法规定,不管是非法获取计算机信息系统数据罪亦或是侵犯公民个人信息罪,均以“违反国家规定”作为法定要件。这里的“违反国家规定”根据我国刑法96条的规定,主要指的是全国立法机关制定的法律以及最高行政机关制定的行政法规、规章、决定或命令。包括《网络安全法》、《计算机信息系统安全保护条例》、《计算机信息网络国际联网安全保护管理办法》等。

尽管如此,“违反国家规定”这一要件由于不够明确而更多的仅具有形式意义,无法揭示爬取行为的实质内涵,其实质内涵依然需要从行为所侵害的法益属性进行探寻。基于网络爬虫的技术属性(智能性)对所爬取的计算机信息系统的安全会造成一定的威胁这一事实,我们可以看出,非法性的行为本质在于侵犯了被爬取方的计算机信息系统安全,其本质属于非法访问。这里,爬取行为是否得到了被爬取的网站或平台的同意或授权就成为判断的重点。据此,理论上一般将“未经授权”与“超越授权”作为判断爬取行为非法性的客观认定指标。除此之外,爬取行为的“恶意”则为主观上的认定指标。以下依次阐述。

(一)安全认证系统的突破

未经授权的字面含义即为访问时未获得相应权限,而这一权限往往来自于被访问网站或平台的单方声明。根据发出声明的时间可以分为“事前声明”与“事后措施”。前者如网页或平台上的弹窗、警告、告知、用户协议、产品备注的说明、与员工或其他机构签订的合同,后者如明确的函告(如律师函)与技术手段(屏蔽IP)。另外,在计算机网络领域普遍存在的“Robot协议”,也是判断被访问网站或平台主观意愿的重要依据。在“百度诉360”一案中, 法院认为Robots协议应当被认定为搜索引擎行业内公认的、应当被遵守的商业道德。360由于未遵守百度网站的Robot协议,其行为明显不当,应承担相应的法律后果。

以上的声明或措施对于认定爬虫行为的非法性具有一定的参考意义,但是如果我们从对于某一行为刑事规制的角度出发,一概将这些举措不加分辨地视为行为非法性的依据则显失妥当。理由之一在于非法性的本质在于违反国家规定,而根据我国刑法的规定,这里的“法”须是高位阶的法律,否则即会与刑法的谦抑性和最后手段性的基本原则与精神相抵触;理由之二在于上述措施大部分均为被爬取网站或平台的单方面声明,既可能未与相对方形成意思合意,又可能存在显示的不明确性,以此作为发动刑事制裁的依据或理由只会导致刑罚的不当扩大,而使得互联网从业者人人自危。因此,有学者将上述的措施称之为数据网站对数据的“弱保护意愿”,其违反的后果仅仅承担民事责任。

针对上述问题的缺陷,理论上提出了“代码理论”,即认为只有爬取行为避开或突破了计算机信息系统所设置的“代码屏障”时,其访问行为才可被视为承担刑事责任意义上的“非法访问”。理由在于,当网站或平台希望保护自己的隐私和数据的安全时,往往会采取一定的技术手段(编码)来赋予特定的或一定的网络用户访问网站或平台的权限。如同每个人在自己的家中安装房门与门锁,其代表着自身的隐私范围与他人及社会的界限。而现实空间的界限反映在网络世界即为身份认证系统。据此,只有在绕过某些需要认证才能访问的信息系统时,才能认为这里的授权路径存在瑕疵。所谓的“认证系统”(例如账号密码体系)需要通过创建必要的壁垒将网络环境中的开放空间与封闭空间区分开来。这个区分为非法侵入计算机系统的法律规定提供了适当的平衡空间。当计算机信息系统采取有意义的措施来阻止公众的任意访问时,它既可以实现隐私保护的目的,同时也创设了网络开放空间中免于被起诉恐惧的权利。身份认证系统与前述的“弱保护意愿”相比,属于网站或平台的“强保护意愿”,具备划分爬取行为非法性与否的正当性与合理性。

上述的“代码理论”与我国的刑法规定与司法解释具有异曲同工之处。首先是我国刑法285条的罪状表述中明确规定非法获取计算机信息系统数据罪的前提行为为“采用侵入或其他技术手段”。这里的“侵入”显然是要从违反相对方主观意愿的角度去把握;其次是最高人民法院、最高人民检察院颁布的《关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》第2条规定,将“专门用于侵入、非法控制计算机信息系统的程序、工具”解释为“具有避开或者突破计算机信息系统安全保护措施的……”。另外,我国对于数据网络犯罪的审判实践中也体现了上述“代码理论”的观点。在“今日头条”一案中,法院最终认定的事实为:被告人采用技术手段破解被害单位的防抓取措施,使用“tt_spider”文件抓取视频数据。经鉴定,“tt_spider”文件中包含通过头条号视频列表、分类视频列表、相关视频及评论3个接口对今日头条服务器进行数据抓取,并将结果存入到数据库中的逻辑。在数据抓取的过程中使用伪造devie_id绕过服务器的身份校验,使用伪造UA及IP绕过服务器的访问频率限制,最终造成被害单位损失技术服务费2万元。本案的承办人在对行为人的行为是否属于“非法侵入”的认定时指出:涉案数据库只允许被害单位APP用户或被害单位视频APP用户访问。被告单位正是为了伪造device_id绕过了服务器的身份校验,并使用伪造的UA及IP绕过服务器的访问频率限制才实行了对被害单位服务器数据库的访问。不是通过被允许的身份验证机制获得的权限访问,不是通过真实的UA和IP进行的访问,均是无权限的非法访问。

上述对于网络爬虫的刑事风险与责任的认定,确立了针对此类犯罪的审判思路与规则,但同时也制造了一个新问题:对于网站或平台单方面设置的反爬机制是否等同于身份认证机制?本案的审理者显然未将其严格区分而径直作为一体。这一做法也同时带来了些许隐患:隐患之一是使得刑法的规范目的落空。通过考察我国刑法第285条第1款非法侵入计算机信息系统罪的立法背景可知,立法者确立该罪名的主要目的在于规制通过突破网站设立的系统安全保护措施的黑客入侵与攻击等行为。因此,该网站所设立的系统安保措施必定也是针对具有访问权限的特定主体,而对其他主体则是默认关闭。此种立法目的在刑法修正案七设立非法获取计算机信息系统数据罪时并未发生改变。反爬措施在技术层面上,并不具有排除特定主体访问计算机信息系统的效果,而只是对某种特定的访问方式进行了限制。在此种情况下,将反爬措施与其他传统意义上的安全保护措施相提并论,恐与立法者本意不符。隐患之二则是违背了互联网基本精神,为网络用户不当地制造了风险。互联网的基本精神为“互联互通”,这需要以数据资源的广泛流通与高效利用为基础。由网站或平台单方设置的反爬机制却可以轻易地为这一精神目标的实现设置障碍;并且,如果可以以一个网站或平台单方面的意思来作为爬取行为的合法与否的判断标准,则将容易忽视网站或平台是否有正当理由采用技术手段拒绝他人的访问,以及访问者是否有正当理由无视被拒绝而继续访问。而拒绝的后果则有可能面临刑事责难。

上述隐患背后的原因则在于,网站或平台设置的反爬机制与身份认证机制的规范目的不尽相同。具言之,反爬机制主要是针对网络爬虫的技术特征而对其实施的反制。如前所述,网络爬虫的技术本质在于模拟人工手动点击从而可以一次性大量地获取数据信息,因此反爬机制的主要目的并非禁止对方对于网站或平台的访问,而是禁止或拒绝采用特定的方式对其进行访问与浏览。而身份认证机制的设置,其根本目的则在于划定网站或平台自身的隐私范围与控制领域,换言之,是为了确定计算机信息系统安全的领域与范围。据此反爬机制与身份认证机制在范围上可以产生交叉,但绝非一致。因此,将二者混为一谈除了有技术认定或鉴定上的偷懒之嫌疑,更多的后遗症还是在于不当地降低了刑事入罪的门槛从而增加了互联网用户的刑事风险。

对此,本文认为对于网站或平台设置的反爬机制原则上可以作为身份认证机制,进而作为爬取行为非法性认定的实质标准。但是同时也应注意根据反爬机制的规范目的需要分类甄别,将与同计算机信息系统安全无关的反爬机制从身份认证机制的范围内排除出去,并且对于网站或平台设置账号登录系统的具体目的进行进一步审视,将其范围限定在与计算机信息系统安全密切相关的登录系统作为“非法侵入”的判断标准,而对于设置目的仅仅是为了落实网络实名制的要求,或者为了对用户行为做记录,甚至仅仅是为了让用户在访问网站或平台前阅读《用户协议》或《隐私政策》以避免承担未经用户同意的法律风险的账号登录系统予以排除在外。如当一个人使用自动化程序绕过了CAPTCHA系统(一个旨在阻止非真人操作的“僵尸用户”访问网站的程序)时,他并不构成“未经授权访问”该网站。因为CAPTCHA系统并不限制某些个人的访问;它是作为一种减缓用户访问进程的方式而存在,而不是因此拒绝访问。

(二)实质授权范围的超越

除了“未经授权”,非法侵入或访问的第二种情形是“超越授权”。主要包括两种类型:一是纵向越权。即通过某种技术手段获得对计算机信息系统控制的更高权限。最为典型的是在网络攻击中,在通过合法的渠道获得某一计算机系统的普通权限之后,进而利用该系统的漏洞将自己的一般权限提升至管理员权限;二是横向越权。即行为人虽获得了一定的访问权限,但是超出了授权的范围或时间。如系统只授权行为人访问特定领域,但行为人却访问了其他领域;或者,公司员工在与公司解除聘用合同或离职后依然访问该公司的系统。需要注意的是,这一类型的超越授权并非体现行为的技术特征。

最高人民检察院确立的36号指导案例对“超越授权”的认定树立了明确的裁判规则。其大致案情为:被告人龚旭为某一大型网络公司的员工,拥有公司内部管理开发系统的账号、密码、Token令牌(计算机身份认证令牌),根据职责范围可以查看相关数据信息。但该网络公司禁止员工私自在内部管理开发系统查看、下载非工作范围内的电子数据信息。2016年6月至9月,龚旭将自己掌握的公司账号、密码、Token令牌提供给另一被告人卫梦龙,并由后者利用上述工具多次在异地登录该公司内部的管理系统,并将该公司管理系统内部的电子数据下载、储存。后卫梦龙将非法下载的数据信息通过互联网出售获利37000元。最终二人的行为被法院认定为非法获取计算机信息系统数据罪,分别判处四年有期徒刑与三年九个月有期徒刑。

在对本案的“裁判要旨”与“指导意义”的说明中,司法机关特意强调了本案中对于“非法侵入”的理解:非法获取计算机信息系统数据罪中的“侵入”,是指违背被害人意愿、非法进入计算机信息系统的行为。其表现形式既包括采用技术手段破坏系统防护进入计算机信息系统,也包括未取得被害人授权擅自进入计算机信息系统,还包括超出被害人授权范围进入计算机信息系统。本案中,被告人龚旭将自己因工作需要掌握的本公司账号、密码、Token令牌等交由卫梦龙登录该公司管理开发系统获取数据,虽不属于通过技术手段侵入计算机信息系统,但内外勾结擅自登录公司内部管理开发系统下载数据,明显超出正常授权范围。超出授权范围使用账号、密码、Token令牌登录系统,也属于侵入计算机信息系统的行为。

无独有偶,发生在美国的“United States v. Nosal案”也确立了类似的裁判规则。被告人Nosal在被公司解聘后,为启动与该公司存在竞争关系的新业务,说服仍在公司任职的前同事使用现行的员工账号登里公司的管理系统,访问并收集该公司的机密数据,其中包括了涉及该公司商业机密的数据。法院认为,“未经授权”是一个明确的而非技术性的概念,通过对其进行文义解释,“未经授权”就是未经允许访问了一个受保护的计算机信息系统。而在本案中,被告原有的访问授权在他离开公司时就已经被撤销了。当雇员访问计算机信息系统的授权被其雇主明确撤销后,他或者他的前同事作为共犯使用现行有效的员工账号登录雇主的后台系统时,也构成CFAA(计算机欺诈与滥用法)中规定的“未经授权”行为。

反之,如果行为人进入系统的行为未超出公司的授权范围则不构成“非法侵入”而排除刑事责任。对此,北京市海淀区人民检察院办理的一起不予批准逮捕案可以佐证,案情为:犯罪嫌疑人于某系某互联网公司工程师,该公司内部使用一款企业即时聊天APP作为内部人员沟通交流的办公软件,员工通过其个人账号、密码使用手机登录后,如有工作需要,可与公司内任一员工即时聊天,并可点击查看公司员工备注的姓名、员工号、手机号码、职位职级以及公司组织架构等信息,APP后台会将访问记录予以记录,公司内部制度规定非因工作需要不得随意查看其他员工的数据信息。2018年2月,于某对该聊天软件的源代码进行反向编译,查找到该聊天工具传送员工信息数据的服务器接口,后编写了专门的爬虫程序,在其使用其账号密码登录APP后,该程序自动运行,向该接口循环发送访问请求,成功从该隐藏接口爬取到6万余名员工的姓名、员工号、手机号码职位职级以及公司组织架构等信息。检察院最终作出不予批准逮捕的决定,主要理由在于,于某为公司正式员工,根据公司规定即可登录聊天工具浏览、查阅本公司的员工数据信息,因此其爬取的数据信息本属于其职责范围内可知晓的对象。换言之,于某所采用的爬虫方式仅仅是提升了浏览或查阅的效率,但并非超越自己的权限范围,不属于“非法侵入”从而排除刑事责任。

(三)爬取行为的善意出罪

除了从“未经授权”与“超越授权”两个客观要件为数据爬取行为设置责任边界之外,另一个要件则为行为的主观恶性,这又涉及到司法实践中的一种情形——网络“白帽子”的法律责任。所谓“白帽子”,又称“道德黑客”,指的是采用网络黑客的技术手段对计算机网站进行检测,并对计算机信息系统存在的漏洞进行报告,以督促计算机网站进行网络安全整改。可见,“白帽子”与网络黑客在客观行为方面具有相似性,均具备未经授权或超越授权的特征,区别则在于其主观上的差异,即“白帽子”的行为人并不具有侵入他人系统的“恶意”,而是具有通过检测系统漏洞,以帮助所涉系统进行漏洞修补的“善意”。据此,如何结合“白帽子”的技术特征从而推定该行为的“恶意”,进而将不具有实质危害性的“善意”白帽子予以排除刑事责任则成为互联网时代数据爬取行为刑法规制的另一核心问题。本文认为,可以结合以下三个要素来综合认定:

第一,侵入的计算机信息系统性质。如果“白帽子”所侵入的是属于国家事务、国防建设、尖端科学技术领域的计算机信息系统,则可以直接认定为“恶意”。因为根据我国刑法285条第1款规定,非法侵入上述领域的计算机信息系统并不需要主观上的恶意动机,或者说由于上述系统的重要性与保密性,在技术上也必定会设置门槛较高的身份认证识别系统,突破这些系统的侵入行为本身就代表了行为的恶意属性。对此“白帽子”们并不能以行为出于技术检测上的善意而进行抗辩。

第二,“白帽子”对行业规范的遵守。“白帽子”更多的是出于对网络安全的提醒与维护的动机进入对方的网站。因此,“白帽子”可以主张行为出于善意的第二个理由便在于得到了网站企业的同意或授权。但在实践中,由于“白帽子”的出现是网络社会自发形成的一种现象,因此经过长期的发展后逐渐形成了“白帽子”、第三方平台、网站企业三方的维护网络安全机制。其运作模式一般为:“白帽子”与网站企业均在第三方平台进行注册,审核通过后统一在第三方平台的管理下,“白帽子”基于行业规范主动测试企业的网络安全漏洞并将结果提交至第三方平台,第三方平台作出审核并提醒网站企业修复。因此,出于对行业规范的必要尊重与刑法的谦抑性,如果“白帽子”是在正规的第三方平台注册并审核通过,即使主动对网站企业进行安全检测或抓取数据,也可以基于网站企业与平台企业的概括授权而排除行为的“恶意”。当然,目前的第三方平台的流程监管基本上依靠管理人员的自律,技术水平也参差不齐,漏洞检测与披露的规则不尽统一。从长远来看,应严禁“白帽子”的单方测试,并规范统一检测、报告的行业规范与操作程序。

第三,侵入系统的后续行为。一方面, “网络黑客”之所以是恶意,主要原因在于,当其发现网站或系统的漏洞后,并不会提醒对方漏洞的存在或修复,而是利用这一漏洞从事破坏或获利活动,而“白帽子”的选择恰恰相反。因此,观测行为人侵入系统后的所作所为可以反推其主观善意与否;另一方面,行为人在成功获取数据库的数据后,对数据的处理是出卖变现还是自己留存,也可以在一定程度上反映其主观恶性。如,李某自称是“白帽子”黑客,以安全测试为名,远程使用SQLmap等工具对某社交网站进行安全测试,发现了该社交网站存在的系统安全漏洞,在测试的过程中同时浏览了该网站后台数据库的部分数据。后李某将检测结果提交至所属的“漏洞平台”,平台将报告以及修复方法报告给网站负责人。但在社交网站修复漏洞的过程中发现,李某在对该网站检测后仍多次访问该网站的后台数据库,并获取了数据库中的核心数据900多条。公安机关以“非法获取计算机信息系统数据罪”将李某拘留,但检察机关认为,鉴于李某并未将所获取的数据用于谋取不正当利益,在到案后能够如实供述自己的罪行,认罪悔罪,犯罪情节轻微,决定对其不起诉。

三、数据安全法益与爬取行为的罪质界定

(一)数据与信息的相对区分

除了对侵入行为非法性与否的判断,数据爬取刑法规制的第二个维度是如何界定数据的法律属性。即,公开的数据可否作为爬取的对象,或者说如何理解数据的公开性。对此,在比“今日头条案”更早的“车来了案”中,“车来了”智能公交APP负责人邵凌霜指示他人使用网络爬虫,并不断变化IP地址,获取谷米公司开发的智能公交APP“酷米客”的大量公交车行驶实时数据。该数据并非公开可查看,而是储存在APP系统后台。法院认为被告人的行为构成非法获取计算机信息系统罪,这一判决似乎确立了只有保密的数据才是本罪的行为对象的认定规则。但在“今日头条案”中,被告人利用网络爬虫抓取的却是公开的视频数据。因此,对于法院的裁判观点有论者提出了质疑,其认为数据犯罪所侵害的法益为数据安全,包括数据的保密性、完整性、可用性。非法获取计算机信息系统数据罪侵犯的是数据的保密性,即,数据不被非法刺探与截获。如果数据已然公开则保密性未受到侵犯应将予以出罪。另有论者主张,数据安全法益的本位在于保护信息内容而非数据载体,数据的保密性即数据承载的信息内容的保密性,行为没有侵害信息内容的保密性不应认定为数据犯罪。进而主张“今日头条案”的被告人不应以犯罪论处。

上述观点看似有理,实则未搞清楚数据的真实含义与刑法保护数据的规范目的,不仅会打乱我国目前对于数据犯罪的规制体系,而且会带来司法实务中的定性错误。而问题的关键则在于,数据与信息应否区分以及如何区分,其是否隶属于不同的权利束。本文认为,数据与信息虽存在一定的使用混同,但是从法学的视角应当予以区分,从而界定不同的问题场域,明确不同的规制路径。以下从四个方面进行论述:

第一,语义指向。首先需要说明的是,此处指的“数据”并非只是信息内容的“数字化”,而是特指经过计算机编码并通过特定的设备或装置予以读取的表现形式。根据国家标准化组织(ISO)的定义:数据指的是信息的一种表现形式,且这种表现形式可被再展示出来,适用于沟通、展示或处理。信息则是一种在特定语境下具有特定含义的知识,例如事实、事件、过程或思想包括理念。由上述的定义可知,数据更侧重于载体形式,而信息则更侧重于实质内容,二者建立联系的路径是:通过一定的计算机技术,将信息通过电磁的方式存储到介质上,最终形成“数据文件”。由于以电子的方式存在,无法用人的肉眼观察,因此属于法学上的“无体物”。其与我们通常所谓的无体物电、热、风能类似,具有一定的可控性与经济性,但是最大的不同在于可以被以极低成本复制,从而又具有了较强的非竞争性。数据由于以电子的方式存在,因此需要借助或依附于电子设备,而信息则可以更多地跳出物理媒介而直接进入人类的思维意识,必须通过人类大脑的理解与提取后才有意义。因此,无论是从语义学还是信息论的角度,数据均不同于信息。

第二,问题归属。数据与信息的区分不仅具有语义学上的意义,更具有法学实践上的意义。有学者总结了理论上与实践中将数据与信息两概念混用的三种形式,即信息包括数据型、数据包括信息型和数据信息并立型,并指出这一混用甚至是混淆会导致权利设定上的偏差与裁判论证上的难题。以至于法律实务业者也不禁感慨:对数据和个人信息的保护,经常会产生交集,如果不加以区分,可能会在价值判断层面产生冲突。目前的司法实践中,存在“数据信息”和“信息数据”两种不同表述。这种界限上的不清晰可能产生概念混淆,建议从立法角度加以明确。

本文认为,区分数据与信息最大的意义在于确定需要处理的问题归属,确定不同的法律问题类型,即是属于“信息问题”还是“数据问题”,从而采取不同的法律处理规则。如,理论上近年来热议的“可携带权”,就可以从信息和数据两个不同的角度去理解:从信息的角度,可携带权指的是网站或平台将个人信息提供给个人,具体的形式在所不问;而从数据的角度,可携带权指的则是网络用户有权查阅、复制、删除自己的个人信息。再如,“政府信息公开”指的是政府按照一定的条件与范围将一定的信息公之于众,被社会公众所知晓,对何种形式不作特定要求;而“政务数据开放”则指的是社会公众可以进入政务数据平台浏览、查阅、下载、分享数据。还如,平台之间通过网络爬虫爬取对方的数据,如果是通过非法操作获取对方的数据则应适用数据安全规则,反之则适用信息利益失衡的不正当竞争规则。可见,信息与数据除了外观上的差异之外,更多的是归属于不同的法律问题场域:信息更多的指向公开和分享问题,而数据则更多的指向操作规范问题。

第三,立法导向。数据与信息的“区别对待”在我国目前的立法体系与规划中也有不同的体现,且有着不同的指导思路:首先,我国的民事立法将信息与数据采取了不同的规范思路。个人信息逐步与隐私权相分离,并从其中独立出来作为一种人格权的限缩保护方式,而数据则是与虚拟财产一起局限于计算机领域,是大数据时代财产权的扩张。换言之,信息更多的指向“人”,而数据更多的指向“物”,且严格防止个人信息的“物化”倾向;其次,我国的行政立法将《个人信息保护法》与《数据安全法》作为两种领域不同的法律进行规划。前者侧重的是对个人信息应如何规范其采集、利用,平衡个人信息保护与利用的关系,后者侧重的则是为电子数据确立基础性的安全规则,包括数据分类、重要数据识别、数据流通、数据泄漏通知以及国家的数据主权;最后,我国的刑事立法也对信息与数据采取了不同的保护模式。对前者主要采取的是经济秩序保护模式(如窃取、收买、非法提供信用卡信息罪、侵犯商业秘密罪)与人格权保护模式(如侵犯通信自由罪、侵犯公民个人信息罪),对后者则主要采取的是公共秩序保护模式(如非法获取计算机信息系统数据罪、破坏计算机信息系统数据罪)。

第四,法益属性。上述信息与数据的区别也预示着其法益属性的差别。信息的法益属性是一种“能够知悉的状态”,且刑法应保护的是某一信息内容不为他人知晓;而数据虽作为无形物的一种却可以通过现代计算机技术进行处理。由此,信息安全指的是保障不被超越权限地获取、披露、使用或允许他人使用信息;而数据安全则是保障数据权利人有权获取、知晓、控制或操作数据。在计算机技术、数字化处理时代背景下,数据安全中的保密性,指的是对于数据文本或电子记录进行加密等处理外,其核心为为信息系统安全,即该信息系统只应为有权访问的人访问,且防范非经授权的人的侵入、获取、篡改、攻击等。在这个意义上,数据安全真正的含义是数据控制的安全,而非数据本身的安全,旨在保护数据为适格主体的访问、控制和使用,而保持特定信息的秘密性只是其中最核心的内容,但不是全部内容。

(二)数据公开与爬取行为的定性

数据与信息不仅在观察视角而且在法益属性上均存在重要的区别,这一区别不应因为日常用语的使用习惯而无视。据此,数据公开也不等同于信息内容的公开。所谓数据的公开,是给数据传输的过程而非传输的数据定性。即使传输的数据是公开可获得的信息,但是当事人想秘密传输,或者数据可能为了商业目的而被秘密化直到该服务得到付费,如付费电视。因此,非公开一语本身不排除通过公共网络的通信。另外,对于信息与数据,其“获取”的含义也不尽相同。例如视频,观看了视频,即获得了视频所要表达的信息内容,但如果该视频并未被复制或拷贝,则该视频数据并未被获取。再如阅读或浏览了网络文章,即获得了文章所要表达的信息内容,但是只有将该文章下载或“另存为”到电脑或硬盘,才能说获得了文章数据。

由此我们需要对理论上主张的“数据安全法益”进行必要的反思。其主张数据安全的主要内容包括数据的三性——保密性、完整性、可用性,并且以此作为一项新兴法益,对数据犯罪的刑事立法与司法适用予以指导。但是保密性、完整性、可用性如上所述其实专指信息的法益属性,而数据的法益属性指向的是对数据的控制与操作。换言之,数据安全不同于信息安全,而是与计算机系统安全是密不可分的,离开系统安全不存在独立的数据安全。这一点我们可以通过对官方的有权解释中窥见:根据两高《关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》第十一条,将“计算机信息系统”解释为“具备自动处理数据功能的系统,包括计算机、网络设备、通信设备、自动化控制设备等”。可见,是否具有对数据的处理与操作这一功能是界定计算机信息系统的重要依据。另外,从刑法286条破坏计算机信息系统罪的法条规定来看,其第一、三款规定中均有“造成计算机信息系统不能正常运行”的表述,第二款虽没有“造成计算机信息系统不能正常运行”的表述,但是刑法理论上基于体系解释的基本法理,也普遍认为应以“造成计算机信息系统不能正常运行”作为限制本罪成立范围的不成文要素,否则本罪将成为网络时代的新式“口袋罪”。当然,有论者会指出,在上述两高的解释中,其将非法获取计算机信息网络数据罪中的“数据”界定为“以金融服务为代表的身份认证信息”,以此来论证数据安全的本质是信息安全,但是司法解释之所以如此界定,主要是因为“身份认证信息”影响着权利人信息系统中具体的操作权限,而非关注的是其信息本身的内容。因此,这一点亦不能作为数据安全本质是信息安全的论据。

回到“今日头条案”中关于数据公开的争议。本文认为,这里必须将网站或平台的商业运作模式纳入参考范围。即,网站或平台在允许用户或访客浏览、观看视频的同时,是否提供了下载服务。如果未提供,则属于上文所述的“信息公开但数据并未公开”。而之所以将视频信息内容允许用户观看,无非是网站或平台吸引用户的一种商业操作,并不意味着用户可以永久地享有该视频信息内容。如果用户或访客需要观看该视频内容,就需要再次登陆或反复登录网站或平台。具体到本案,今日头条采用的是流媒体技术播放,用户在观看视频时需要同时缓存该视频,但是观看完毕后,该视频的数据文件也随即消失。缓存与复制下载的区别在于,缓存意味着断电即无,而复制下载则意味着可以永久保存。因此,网站采用流媒体播放这一技术本身即意味着视频数据的非公开性,也同时意味着行为人爬取其视频文件的非法性。反之,如果网站允许用户复制、下载视频,或者说并未采取技术措施对视频数据予以保护,则意味着视频数据的公开,即使行为人采用爬虫技术一次性大量抓取数据,也由于失去了数据的公开性而丧失了刑法规制的必要性。

四、数据分层原理与爬取行为的罪数认定

(一)数据分层的基本原理

由上述对于数据与信息的区分可以看出,由计算机网络所塑造的虚拟世界中,数据与信息分别指向的是不同的层次内容。根据美国学者莱斯格教授的观点,可以将其划分为物理层、符号层(代码层)、内容层(语义层)。物理层指的是数据所存储载体的特定物质结构或空间(如硬盘);符号层指的是以计算机编程技术为依托表现为以0和1二进制的一定数量的符号以及符号之间的逻辑关系;内容层则指的是符号或代码所承载或实现的信息内容。三者的关系是,物理层是基础,符号层是处理的对象,而内容层则是可视化的人可识别的信息。以现实世界的事物作为对比,例如一张纸上写的一段话,纸张属于物理层,上面的文字或数字属于符号层,而文字或数字表征的信息(如时间、地点、人物)则属于内容层。我们通常所说的数据,一般指物理层或符号层,而信息则一般指内容层。

以上可以看作是对数据进行的计算机技术视角的观察,接下来我们需要从法学的视角重新审视这一现象:物理层与符号层虽然可从技术上予以区隔,如云存储、分布式存储技术,但是法益属性并未发生变化,依然属于计算机网络世界范畴;内容层则不然,其不仅属于人机交互内容,而且与现实人类社会发生联系,其法益属性已不再局限于虚拟世界,而是现实世界。有学者将数据在物理层与符号层上的特性称之为“技术属性”,而将数据在内容层上的特性称之为“法律属性”。其背后的原理也在于此,侵犯数据物理层与符号层的特性的犯罪属于纯正的计算机(网络)犯罪,而侵犯数据内容层的特性的犯罪则属于不纯正计算机(网络)犯罪。在我国目前的刑法规制体系中,前者主要表现为以非法获取计算机信息系统数据罪与破坏计算机信息系统数据罪为代表的计算机犯罪。该类犯罪中数据以及背后的计算机信息系统本身是被攻击的对象;后者则表现为将信息内容作为保护法益的犯罪,如侵犯公民个人信息罪、侵犯商业秘密罪、侵犯国家秘密罪等。在该类犯罪中,行为侵害的主要是传统法益,属于传统犯罪的网络化。数据或网络仅仅是犯罪的手段,或承载传统法益的载体。

(二)数据分层与想象竞合原则的适用

由此带来的问题是,从法益属性上如何处理两类法益的关系?换言之,如果某一行为一次性地触犯或侵害了数据的“符号层属性”与“内容层属性”,应如何全面、精确地予以评价。对此,理论上有一种观点认为,数据的内容特性优先于符号特性的判断,因此二者属于法条竞合的关系,前者属于“特殊法”,后者属于“一般法”,适用“特殊法优于一般法”的处理原则。据此,个人信息也是数据的一种,只不过刑法规定的侵犯公民个人信息罪是对个人信息数据的特殊保护。另外,有论者认为,应该通过数据的“去识别性”、“去财产性”以及“去创造性”,将通过侵害数据内容层的犯罪(包括侵犯个人信息的犯罪、侵犯财产罪、侵犯知识产权罪)予以优先认定,进而防止获取数据犯罪成为“口袋罪”。这一见解的实质也是将侵犯数据内容层的犯罪与侵犯数据符号层的犯罪视为特殊罪名与一般罪名的关系,利用特殊法排斥一般法的原理,优先适用特殊罪名。

本文认为,上述观点未厘清竞合的基本原理,无法全面评价案件事实,从而得出不尽合理的结论。在刑法理论上,法条竞合与想象竞合均表现为一行为触犯数罪名的情形,二者的区别在于,法条竞合所触犯的数罪名属于特殊罪名和一般罪名的关系(如诈骗罪与金融诈骗罪),而想象竞合所触犯的数罪名之间并不存在这一关系(如开一枪导致一人死亡的同时导致珍贵文物的毁损)。或者说,法条竞合属于法条(罪名)之间由于刑事立法规定所产生的竞合,而想象竞合属于案件事实所产生的罪名之间的竞合。但是这一理解仅仅是看到了问题的表面,而未进行法律的目的思考。其实,法条竞合之所以原则上适用“特殊法优于一般法”的认定规则,乃在于数个罪名存在“包容评价”的关系,即,对某一案件事实进行特殊罪名的评价已经包容了一般罪名的评价(如对某某是一个男人的评价已然包容了某某是个人的评价),因此如果此时再进行一次特殊罪名的评价则属于“评价过分”。而想象竞合并不存在这种情形,即使对某一案件事实进行A罪名的评价也不妨碍对其进行B罪名的评价,因此数个罪名均可以而且必须对同一案件事实进行评价,才不至于“评价不足”,但出于“一事不二罚”的原则,最终选择一个较重的罪名进行论罪处罚,因此想象竞合的处理原则是“择一重罪论处”。据此,法条竞合与想象竞合的实质区别应为一罪名是否能够充分评价案件事实,如果可以则适用法条竞合的处理原则,排斥另一罪名的适用空间,反之,则必须引入另一罪名的评价才不至于评价不充分,但是可以按照最重的罪名实现具体处刑上的罪刑相适应。

由此,一罪名能否实现对案件事实的充分评价,即成为两种竞合类型的分水岭。而是否能够充分评价的判断,除了考虑刑事立法的安排、沿革等形式要素外,更多的要考察其实质要素——保护法益上的同一性。即,数个罪名是否是沿着同一法益保护上的程度高低。据此,上述提到的诈骗罪与金融诈骗罪是否为法条竞合则不无疑问,原因在于,诈骗罪保护的法益是公私财物的所有权,金融诈骗罪保护的法益则为我国社会主义市场经济秩序,这一点通过两类罪名的立法安排也可以一见端倪。因此将二者理解为想象竞合的关系更为准确。同样的道理,也适用于诈骗罪与招摇撞骗罪的关系处理。

通过上一部分的阐述我们可以得知,归属于内容层的信息所表征的法益实则为传统法益的网络呈现,是对信息内容保密性、完整性、可用性的侵害。其中,保密性指的是信息不被无权刺探与获取,完整性指的是信息整体的结构性不被分割与破坏,可用性则指的是信息本身可以用来被挖掘与预测。如体现个人数字人格的个人信息、体现财产价值的虚拟财产、体现市场主体商业利益的商业秘密、体现国家安全的国家秘密等,其侵犯的方式或手段与现代计算机网络技术并无必然关系,对上述法益的侵犯实则是对传统法益的侵犯,只不过该种方式属于“线上”。而归属于符号层的数据所表征的法益则为数据安全,即,数据控制、处理、操作过程的稳定性与可实现性,其与计算机系统安全紧密联系又有所区别。因此,属于内容层的信息与属于符号层的数据所表征的并非同一法益,而是分属不同法益,属于想象竞合的情形,应按照想象竞合的处理原则予以认定。如,被告人通过一定的技术手段,盗取了电脑系统内容的淘宝客服账号及密码,进而获取了淘宝公司的客户订单数据(包含买家姓名、卖家姓名、手机号码、送货地址、淘宝或者旺旺登陆账号)9万组以上,并通过贩卖后获利人民币2万余元。本案中的行为人采取技术手段突破了淘宝公司的系统防护获取数据,侵犯了数据安全,构成非法获取计算机信息系统数据罪;同时该类数据符合个人信息的“可识别性”特征,亦属于刑法意义上的个人信息,因此该行为同时构成侵犯公民个人信息罪。根据本案的情节,法院最终以想象竞合择一重罪论处的原则,以侵犯公民个人信息罪定罪处罚。

五、结论

回到本文最初提出的问题,大数据时代刑法应如何回应以网络爬虫为代表的网络技术的异化风险,为技术的合理使用划定伦理底线与法律红线。本文得出以下几点结论:1.爬取行为建立在对计算机信息系统非法访问的基础上,因此如何界定访问的“非法性”即为爬取行为正当性的重要判断依据;2.非法性的核心在于突破了计算机信息系统的安全机制,对计算机信息系统安全构成了威胁。对这一要件的判断需要结合系统反爬机制的规范原理与主观上的恶意推定;3.作为爬取行为对象的数据,与信息在规范意义上具有区分的意义与价值,这也决定了数据安全法益不同于信息安全法益的内涵;4.数据与信息分属于计算机网络的不同层次,刑法对其设置了不同的保护体系,应采用想象竞合的原理实现行为的充分评价。

(转自:《政法论丛》2021年第3期 作者系山东政法学院副教授、硕士生导师 孙杰 )

找记者、求报道、求帮助,各大应用市场下载“齐鲁壹点”APP或搜索微信小程序“壹点情报站”,全省600多位主流媒体记者在线等你来报料!

2023-11-30

2023-11-30