数据有用但应“爬取有道”

来源：法治日报 2021-06-02 08:40:46

近日，北京市海淀区人民法院对新浪微博诉字节跳动不正当竞争纠纷案作出判决。法院认为，字节跳动通过类似“复制粘贴”的方式，将新浪微博内容大规模移植至今日头条，扰乱了市场竞争秩序，构成不正当竞争。字节跳动需依法赔偿新浪微博经济损失2000万元及合理开支115.67万元。此案再次引发了公众对“网络爬虫”合法性的关注。

所谓网络爬虫，也称网页蜘蛛、网络机器人，是一种可以自动收集和整理互联网上数据信息的技术。在数字经济时代，得数据者得天下。目前，数据已成为继土地、劳动力、资本、技术之后的新关键生产要素。2019年，党的十九届四中全会首次提出，将数据作为生产要素参与收益分配。2020年中共中央、国务院发布的《关于构建更加完善的要素市场化配置体制机制的意见》明确要求，“加快培育数据要素市场”。可以预见，未来的数据争夺战必将更加激烈，网络爬虫纠纷必将更加普遍。而如何合理规范网络爬虫，既有效保护数据主体的利益，又有力促进数据的高效流通利用，也是一个全球难题。

其实，网络爬虫并非必然有害。正当爬取已公开的数据，符合互联、互通、共享的互联网精神，在某种程度上也有利于促进数据共享和数据流通利用，增加用户福利。如百度、搜狗等搜索引擎的运行，实际上利用的就是网络爬虫技术。通过网络爬虫分享相关信息，可以给用户带来极大的便利，甚至可以增进社会公共利益。

然而，如果长时间大量爬取数据，尤其是爬取具有竞争关系的经营者的数据，并对其商业模式进行实质性替代，就可能构成不正当竞争，甚至构成犯罪。如此前法院审理的“酷米客”诉“车来了”案，法院就认为被告利用网络爬虫技术大量获取并无偿使用原告的实时公交信息数据，实为一种“不劳而获”“食人而肥”的行为，非法占用了他人无形财产权益，破坏他人市场竞争优势，违反了诚实信用原则，扰乱了竞争秩序，构成不正当竞争。

一般而言，在UGC（用户生成内容）模式下，平台对于用户上传的内容的确不享有知识产权，但如果放任其他平台随意大量爬取用户上传的内容，通过“搭便车”的方式，进行相同或相近的商业模式运营，那么就会降低原来平台的竞争优势，损害其商业利益。而且，对于许多被爬取的数据，原平台可能投入了大量的人力、物力、财力，即使这部分数据是公开呈现的，也不能被随意爬取，否则就可能侵犯产权，而不仅仅是不正当竞争的问题。

数据有用但应“爬取有道”。互联网企业在爬取数据时，应当遵守法律和商业道德，不得损害其他经营者或消费者的合法权益，不得扰乱公平竞争的市场秩序。

其一，大量爬取具有竞争关系经营者的数据应获得合法授权。如果爬取的数据涉及用户上传的内容，则应获得双重授权，即“用户授权”+“平台授权”。即使爬取的完全是用户上传的合法文字、图片、视频等内容，也应获得原来平台的授权，因为这些内容可能涉及原来平台的竞争权益。适度爬取不具有竞争关系经营者的数据，或许不需要获得授权，以促进数据流通利用。

其二，即使是合法爬取数据，也不得超出授权范围处理数据。使用数据应当与授权目的具有关联性。如果用于明显没有关联的其他目的，应当重新获取授权。

其三，爬取的数据不得用于对竞争者的商业模式构成实质性替代的业务。如果大范围使用被爬取的数据从事相同或相近的业务，那么将导致具有竞争关系的经营者无法从市场竞争中获得相应的回报和激励，从而使其降低对相应产品和服务的研发与投入，最终会破坏公平竞争的市场秩序。

其四，不得爬取侵犯隐私权和个人信息的数据。我国民法典明确规定自然人享有隐私权，任何组织或者个人不得以刺探、侵扰、泄露、公开等方式侵害他人的隐私权，同时还规定自然人的个人信息受法律保护。如果爬取行为情节严重，还可能构成侵犯公民个人信息罪、破坏计算机信息系统罪，需要承担刑事责任。

对于网络爬虫行为需要进行有效规范，但不宜“一刀切”地简单予以禁止。在进行立法制度设计时，应区分不同的数据爬取场景，充分运用比例原则、成本收益分析方法等进行利益衡量，实现权利保护和数字经济发展的平衡。行政机关在执法时，需要贯彻包容审慎监管理念，对于没有主观恶意但造成客观损害的数据爬取行为应予以适度宽容，以降低企业试错成本而促进数字科技创新。

（作者刘权系中央财经大学数字经济与法治研究中心执行主任、法学院副教授）