法律研究

专业立本 追求极致

法律研究

反法视域下的网络爬虫与Robots协议的攻守道

在大数据时代,我们一边享受着巨量数据洪流带来的快捷与便利,却也一边承受着个人信息安全的风险。其中,在构成数字经济生活中扮演最核心角色的,莫过于网络爬虫。


说起网络爬虫,早就不是一件新鲜玩意,但出乎人意料的是,现如今的网络爬虫的应用几乎无孔不入,让人细思极恐。如购物平台收集用户在不同平台上的行为数据用于个性化推荐和营销,金融类企业收集用户的个人信用记录等信息评估用户授信条件,互联网搜索引擎从海量网页中抓取信息建立索引供用户搜索等等。


图片来源于网络


个人或企业不正当使用网络爬虫工具抓取个人信息、商业秘密、国家秘密的,可能构成对民事财产权的侵犯,更严重的,将面临侵犯计算机信息系统安全及数据安全类犯罪的刑事责任风险。而对于个人信息、商业秘密、国家秘密以外的公开数据的抓取,更多的是面临竞争法上的风险。


数据抓取者千方百计地利用网络爬虫意图抓取更多信息,而网站所有者则是使尽浑身解数地建立和巩固自身的信息上的竞争优势,由此展开了网络爬虫与Robots协议之间的“一场好戏”。


一、网络爬虫与Robots协议


网络爬虫,是一种模拟人类行为自动抓取网络信息的计算机程序。


网络爬虫抓取网络数据的行为,除了需要符合《网络安全法》《数据安全法》《个人信息保护法》《反不正当竞争法》等法律法规的相关规定外,在抓取特定网站的数据时,可能还需要遵循该网站的Robots协议。在特定场景下,违反互联网站所有者设置的Robots协议而抓取数据的行为,将涉嫌构成不正当竞争。


图片来源于网络


Robots协议(robots exclusion protocol),出自中国互联网协会于2012年11月1日发布的《互联网搜索引擎服务自律公约》第七条,Robots协议是指互联网站所有者使用robots.txt文件,向网络机器人(Web robots)给出网站指令的协议。即网站所有者可通过设置robots文件,指引或限制网络爬虫可抓取信息的范围。


从制定者的法律地位来看,《互联网搜索引擎服务自律公约》更倾向于是互联网行业的技术规范,不具有强制性。而在司法实践中,对于《互联网搜索引擎服务自律公约》中的具体规定能否作为互联网全行业的商业道德,应考量其具体行为是否有利于互联网信息的互联、互通、共享、开放。


二、搜索引擎行业与非搜索引擎行业Robots协议的效力


在北京市第一中级人民法院审理的(2013)一中民初字第2668号案件的民事判决书中,北京一中院认为,遵循网站所有者设置的Robots协议是互联网行业搜索引擎行业内公认的商业道德。该判决具体指出“在被告(百度公司)推出搜索引擎伊始,其网站亦刊载了Robots协议的内容和设置方法,说明包括被告在内的整个互联网行业对于Robots协议都是认可和遵守的。其应当被认定为行业内的通行规则,应当被认定为搜索引擎行业内公认的、应当被遵守的商业道德。”


图片来源于网络


而在非搜索引擎行业,能否适用《互联网搜索引擎服务自律公约》文件,以及网络所有者设置的Robots协议能否被认定为需遵守的商业道德则产生较大的争议。


在微博与今日头条两大信息聚合平台的(2017)京73民初2020号不正当竞争案中,一审法院北京知识产权法院在判决书中指明,《互联网搜索引擎服务自律公约》是在中国互联网协会组织下,由部分会员提出草案,并得到包括新浪公司在内的互联网企业广泛签署的行业自律公约,反映了互联网行业的行业惯例和商业规则,因此,可以将《自律公约》作为认定互联网行业公认商业道德的参考。


然而,上述一审法院的认定随后便被二审法院北京市高级人民法院所纠正。


在(2021)京民终281号判决书中,二审法院认为,微博限制的今日头条的应用场景并非搜索引擎服务,而是“微头条”等非搜索引擎应用场景。因此,一审判决将《互联网搜索引擎服务自律公约》作为本案中商业道德的参考显有不妥。《互联网搜索引擎服务自律公约》仅可作为搜索引擎服务行业的商业道德,而不能成为互联网行业通行的商业道德。具体而言:


1.Robots协议最初是针对搜索引擎提出的;


2.非搜索引擎的网络机器人与搜索引擎的网络机器人相反,不是给被搜网站带来流量,而是带走被搜网站的流量;


3.非搜索引擎的网络机器人不同于搜索引擎的,不当然地违背公众利益以及互联网的互联、互通、共享、开放的精神。


由此不难看出,关于《互联网搜索引擎服务自律公约》的适用,网站所有者设置Robots协议限制数据抓取,数据抓取者违反网站所有者设置的Robots协议是否会被认定为违反商业道德的一系列问题,定应回归至制订《互联网搜索引擎服务自律公约》的初衷与本质。


三、搜索引擎行业设置Robots协议限制抓取与不正当竞争


《互联网搜索引擎服务自律公约》的制定初衷是“倡导公平理性竞争,抵制不正当竞争行为,维护公平、开放、竞争、有序的市场秩序,积极营造平等参与、理性竞争、持续发展的市场环境”“鼓励技术和商业模式创新,完善搜索服务,优化搜索结果,节省网络资源,培育和维护创新活跃、开放共赢、良性循环的行业生态体系”(《互联网搜索引擎服务自律公约》第十条、第十一条),而Robots协议中列明了互联网站所有者可通过修改robots.txt,来允许或限定何种网络爬虫可以抓取何种数据。


那么,互联网站所有者通过设置Robots协议限制数据抓取的行为,在何种情形下将构成不正当竞争?


对于上述问题,《反不正当竞争法》中并无特别条文予以规制,但根据《反不正当竞争法》的第二条所规定,经营者在生产经营活动中,应当遵循自愿、平等、公平、诚信的原则,遵守法律和商业道德。如互联网站所有者通过设置Robots协议限制数据抓取的行为,违背了公平诚信原则与商业道德的,则构成不正当竞争。


图片来源于网络


在(2017)京民终487号案件中,北京市高级人民法院就百度与360设置Robots协议限制数据抓取的不正当竞争案做出了裁决,并为同类案件指明了裁判思路。在该案中,百度公司通过设置“User-agent”语句制定了可抓取的“白名单”,而360公司的搜索引擎则被排除在百度公司的“白名单”外。


北京高院认为,Robots协议作为一种互联网行业惯例,一方面要求搜索引擎的网络机器人遵守受访网站的Robots协议,另一方面也要求受访网站设置的Robots协议本身应当是合理的,不应违背“促进信息共享”的初衷。即互联网站所有者设置的Robots协议限制的行为的正当性、合理性,是判断是否构成不正当竞争的关键。


而在该案中,北京高院认为百度公司允许国内外主流搜索引擎抓取其网页内容的情况下,却限制360搜索引擎抓取,其行为显然有悖于Robots协议的初衷;另外,百度公司通过设置Robots协议的方式限制360搜索引擎对其相关网站内容的抓取,会导致网络用户在使用360搜索引擎时无法及时获取所需信息,转而使用百度搜索引擎,这不仅会降低360搜索的用户满意度,损害奇虎公司的合法权益,也会在客观上增强百度搜索引擎的市场优势地位,其限制行为不具有正当性。


此外,百度公司限制360搜索引擎抓取的内容不属于其内部信息或敏感信息,也没有证据显示360搜索引擎的抓取会导致相关网站无法正常运行或损害社会公共利益,百度公司的限制行为也不具有合理性。


同时,北京高院对互联网站所有者设置Robots协议,限制特定内容被抓取的行为的合理性判断作出进一步提炼:


1.出于保护受访网站的内部信息或敏感信息的需要。由于这些信息属于隐私信息,且对于网络用户而言没有使用价值,故不应被抓取。


2.出于维护受访网站正常运行的需要。如果抓取会导致受访网站无法正常运行,则有必要对其进行限制。


3.出于保护社会公共利益的需要。如果抓取会损害社会公共利益,则理应对其加以限制。


四、非搜索引擎行业设置Robots协议限制抓取与不正当竞争


上述北京高院对Robots协议限制数据抓取行为的正当性、合理性的认定,是在搜索引擎的场景下,基于《互联网搜索引擎服务自律公约》可作为商业道德的参考所作出的认定,并不当然可套用至互联网的其他行业。如针对不同的场景、行业,对网站所有者设置Robots协议限制抓取数据的行为是否构成不正当竞争仍需另外讨论。


图片来源于网络


如上述微博与今日头条的(2021)京民终281号案件中,微博在其网站的Robots协议中以文字宣示方式单方限制今日头条抓取相关网页内容,法院认为,微博限制今日头条的网络机器人的抓取行为是企业经营自主权的体现。


此外,今日头条的网络爬虫是将抓取后的内容直接“移植”到“微头条”,实现对微博内容实质性替代,虽然在一定程度上扩大了消费者对于用户发布内容的获取途径,但并没有实质上增加消费者的消费体验。即使微博不允许今日头条的网络机器人抓取,消费者通过微博上也可以获取用户发布的内容,或者通过搜索引擎搜索到用户发布到微博上的内容。因此,微博限制今日头条的网络爬虫的抓取行为并未对消费者的利益造成损害,因而不构成不正当竞争的行为。


同时,北京高院还认为,对于网站经营者通过Robots协议限制其他网站网络机器人抓取的行为,不应作为一种互联网经营模式进行绝对化的合法性判断,而应结合Robots协议设置方与被限制方所处的经营领域和经营内容、被限制的网络机器人应用场景、Robots协议的设置对其他经营者、消费者以及竞争秩序的影响等多种因素进行综合判断。


综上所述,无论是否是搜索引擎行业,在判断网站所有者设置Robots协议之行为,或数据抓取者绕过Robots协议之行为是否构成不正当竞争时,需要充分考量以下因素:


1.数据抓取者与网站所有者之间是否存在竞争关系;


2.数据抓取者、网站所有者对被抓取、限制抓取的数据是否享有竞争性利益;


3.抓取、限制抓取数据的行为是否非法或不正当,是否符合诚实信用原则;


4.抓取、限制抓取数据的行为是否损害消费者、其他组织或社会公共利益;


5.抓取、限制抓取数据的行为是否有助于促进数据开发利用与有序流动。


 结 语


总的来说,对于数据抓取者使用网络爬虫抓取数据的行为,亦或是网站经营者设置Robots协议限制数据抓取行为,都需要遵守《反不正当竞争法》第二条中所述的自愿、平等、公平、诚信的原则,遵守法律和商业道德。


然而,《反不正当竞争法》的本质与权益保护法不同。因此,在司法实践中,法院引用《反不正当竞争法》对互联网行业的竞争行为进行规制时,未必会考虑商业主体的静态利益和商业成果,而是更多地考量商业主体的竞争手段的正当性,以及所作出的裁决是否影响商业竞争机制的健全性。



作者介绍

Attorney

周英东  Don Zhou

广东敦和律师事务所  

■ 执业律师

周英东律师,理学学士、工商管理硕士,具有复合学科背景,专注知识产权法律服务,有丰富的知识产权溯源调查取证、民事诉讼经验,擅长处理版权、商标侵权、不正当竞争等类型知识产权案件。

广州市律协涉外律师人才库成员、广州市南沙区劳动争议调解员、敦和律所知识产权及数据合规委员会及专利与技术法律专业委员会成员。



-END-


[如需转载,请联系我们获得授权]


撰稿|周英东       审核|肖宴明

校对|黄鸿宇       编辑|陈丝华


保持热爱,共赴山海

敦和律所期待您的加入!

敦和律师事务所加盟请柬

Tel:020-38847887



广州总所

地址:广州市海珠区聚新街31号A座19楼01、02室

电话:020-38847887

邮箱:info@harvestinglaw.com

上海分所

地址:上海市长宁区仙霞路319号远东国际广场A座2001单元

电话:021-62260550

邮箱:Harvesting.Shanghai@harvestinglaw.com

敦和官方公众号