全国电子音乐交流中心

如何合规使用网络爬虫收集个人信息

科技法律网2020-11-20 15:43:02


大数据时代,个人信息安全的重要性自不待言。日前持续发酵的Facebook用户数据泄露门,又为全球人民上了一课。该事件在用户群体中所引发的惶恐和不安,让即使是非用户亦心有戚戚焉;而远在大洋彼岸的中国互联网公司也一定正在思考,在收集、处理、保存用户个人信息等环节时,如何操作才能合规的问题。迄今为止,中国尚无专门针对个人信息保护的系统性立法,而相关内容仅散见于法律、法规、司法解释、其他规范性文件[1]和相关国家标准和行业标准的规定中[2]。

中国的个人信息安全规则正在逐步建立,时下对很多互联网公司来说无疑是一个发展的黄金时期。仅就收集用户个人信息环节而言,互联网公司大多使用网络爬虫在海量信息中高效快速爬取特定数据。而该等特定数据,既涉及个人信息,又涉及第三方平台所控制的数据。究竟怎样爬才合规,成为了使用网络爬虫的互联网公司关注的重点。





一、个人信息保护的立法动态





2017年是大数据立法十分重要的一年,关于2017年6月1日起实施的《中华人民共和国网络安全法》(以下简称“《网络安全法》“)和最高人民法院、最高人民检察院联合发布的《关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》(法释〔2017〕10号)(以下简称“《解释》”)具有里程碑式的意义。

值得注意的是,根据《网络安全法》的规定,国家质量监督检验检疫总局、国家标准化管理委员会于2017年12月29日,联合发布了国家标准《信息安全技术个人信息安全规范》(GB/T 35273-2017)(以下简称《个人信息安全规范》)作为个人信息安全问题的配套规范。该规范将于2018年5月1日起实施。

《个人信息安全规范》相较之前的立法和各类规范性文件,将个人信息安全规则又向前实质推进了一步。虽然其性质属于推荐性国家标准,无强制效力,但其对企业的影响不容轻视。业内有诸多学者指出[3],该规范可能因商业环境、交易对手的压力,行政机关、法院等裁判机构的参照或援引,法律法规、强制性标准的援引,产生对企业的拘束力。

实践中,支付宝和芝麻信用的有关负责人前期就因“支付宝年度账单”收集使用个人信息的方式不符合《个人信息安全规范》,被国家互联网信息办公室网络安全协调局约谈[4]。

鉴于该规范实施尚待时日,建议互联网公司按照《个人信息安全规范》的要求,尽早进行合规自查、完善合规政策,在新一轮监管到来前做好准备。



 



二、核心概念:

个人信息、个人敏感信息、匿名化




 

 

综合目前法律法规及规范性文件对个人信息的描述,个人信息涵盖的内容十分丰富,因评价角度不同可能产生不同程度的延伸。而《个人信息安全规范》中对个人信息的描述可谓集大成者,因此下文以该规范为基础讨论对个人信息收集涉及的核心概念。

 

(一) 个人信息

 

根据《个人信息安全规范》,个人信息是指以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人身份,或者反映特定自然人活动情况的各种信息。由此可见,该概念在《网络安全法》的基础上有所突破,结合了《解释》中的特点。

判断是否属于个人信息可以参照以下两条标准。凡符合其中任一标准者,皆可被认定为个人信息:

(1)识别:有助于识别特定个人。有专家认为,识别“可以包含将个人的数据从一个群体或人群中‘单列’出来,且无需对这一关联的个人进行特别识别”[5];或

(2)关联:反映特定个人活动情况。

通常认为,个人信息应包括:姓名、出生日期、身份证件号码、个人生物识别信息、住址、通信联系方式、通信记录和内容、账号密码、财产信息、征信信息、行踪轨迹、住宿信息、健康生理信息、交易信息等。

 

(二) 个人敏感信息

 

作为个人信息的重要组成部分,个人敏感信息是指一旦泄露、非法提供或滥用可能危害人身和财产安全,极易导致个人名誉、身心健康收到损害或歧视性待遇等个人信息。

一般认为,个人敏感信息包含,个人财产信息、健康生理信息、生物识别信息、身份信息、其他如电话号码、行踪轨迹、网页浏览记录、住宿信息、精准定位信息等。通常情况下,14 周岁以下(含)儿童的个人信息和自然人的隐私信息属于个人敏感信息。

收集个人敏感信息的合规要求更加严格,本文将在第三部分详述。

 

(三) 匿名化

 

匿名化,是指通过对个人信息的技术处理,使得个人信息主体无法被识别,且处理后的信息不能被复原的过程。《个人信息安全规范》在注释中指出,个人信息经匿名化处理后所得的信息不属于个人信息。

业内普遍认为,《网络安全法》第四十二条[6]为平衡个人信息保护与大数据产业发展提供了空间,而《个人信息安全规范》则是对该问题做出了明确的回应。换言之,个人信息经过匿名化处理后失去可识别性且不能复原的,不受国内现行个人信息保护规则的约束,可以投入大数据的开发与应用。



 




三、用户同意和第三方平台授权





 


选择同意原则或称授权同意原则是个人信息收集的核心原则之一。引言中所介绍的网络爬虫技术,在收集个人信息的过程中,是否须同时获得用户同意和第三方平台的授权?以下将结合相关立法、《个人信息安全规范》和司法判例,分别展开讨论。

 

(一) 告知义务与用户同意

 

1. 一般规则

根据《个人信息安全规范》,个人信息控制者,即有权决定个人信息处理目的、方式等的组织,收集个人信息前应向个人信息主体(注:个人信息所标识的自然人)明确告知以下信息:

(1)所提供产品或服务的不同业务功能分别收集的个人信息类型

(2)收集、使用个人信息的规则。例如,收集和使用个人信息的目的,收集方式和频率、存放地域、存储期限、自身的数据安全能力、对外共享、转让、公开披露的有关情况等。

在完成上述告知义务后,个人信息控制者方可获得个人信息主体的授权同意。值得注意的是,有学者指出,此处的授权同意可以是明示同意[7],也可以是默示同意。[8]

 

2. 收集个人敏感信息时的告知义务和用户明示同意

收集个人敏感信息时的特殊性在于,对告知义务与获得用户同意的要求更严格。具体表现为:

(1)告知所提供产品或服务功能义务

a. 就核心业务功能,应告知所必需收集的个人敏感信息、选择拒绝所带来的影响,由个人信息主体自愿选择;

b. 就其他附加功能,应逐一说明收集个人敏感信息对应附加功能的必要性,允许个人信息主体逐项选择是否提供或同意自动采集个人敏感信息。个人信息主体拒绝时,可不提供相应附加功能,但不应以此为由停止提供核心业务功能,并保障相应的服务质量。

(2)用户明示同意

收集个人敏感信息时应获得个人信息主体,即用户的明示同意,并且是在其完全知情的基础上自愿给出的,具体的、清晰明确的意思表示。

(3)收集未成年人个人信息的特殊明示同意要求

a. 不满14周岁的,应当征得其监护人的明示同意;

b. 年满14周岁不满18周岁的,应征得其本人或监护人的明示同意。

 

3. 例外情形

 

有原则必有例外。符合以下例外情形的,收集时不须征得个人信息主体的授权同意,包括所收集的个人信息是个人信息主体自行向社会公众公开的;从合法公开披露的信息中收集个人信息的,如合法的新闻报道等;个人信息主体要求签订和履行合同所必需的等。

 

4. 个人信息主体撤回同意的安排

 

针对个人信息主体撤回同意的安排,对个人信息控制者的要求包括:

(1)应向个人信息主体提供方法撤回收集、使用其个人信息的同意授权。撤回同意后,个人信息控制者后续不得再处理相应的个人信息;

(2)对外共享、转让、公开披露个人信息,应向个人信息主体提供撤回同意的方法。

但《个人信息安全规范》在该条注释中亦强调,撤回同意不影响撤回前基于同意的个人信息处理。

 

(二) 第三方平台授权

 

如前所述,网络爬虫在数据爬取时,往往需通过第三方平台获得数据。而第三方平台,如微信、新浪微博、美团和大众点评等,则将其掌握的大量用户数据视为核心竞争资源。近年来,因争夺数据引发的纠纷屡见报端,如淘宝屏蔽百度搜索,顺丰宣布关闭对菜鸟的数据接口,新浪与今日头条关于微博内容爬取的争议等。那么,在已获得用户同意的前提下,爬取第三方平台的个人信息和数据需要获得平台授权吗?根据国内现有的司法判例,目前主流的看法倾向于答案是肯定的。以下将通过两个典型案例的总结,讨论征得第三方平台授权的必要性:

 

1.  Open API开发合作模式中的“用户授权”+“平台授权”+“用户授权”的三重授权原则

 

在著名的新浪微博诉脉脉不正当竞争案[9]中,二审法院法官认为,在Open API开发合作模式中,通过Open API获取第三方平台的用户信息时应坚持“用户授权”+“平台授权”+“用户授权”的三重授权原则。用户信息和数据是互联网经营者重要的竞争优势与商业资源。互联网公司推出的应用,未经第三方平台同意的,不得使用第三方平台的用户信息。

 

2. Robots协议的效力

 

Robots协议,即robots.txt文件,作为一种国内外互联网行业内普遍通行、普遍遵守的技术规范,是网站服务商或所有者在网站程序的开头部分写入的一段网络程序,以此标示限制网络爬虫访问的信息。但其对于不遵守该协议的网络爬虫,亦不会起到强制禁止访问的作用。

在百度诉360不正当竞争案[10]中,法官认为Robots协议应当被认定为行业内的通行规则及商业道德。网站服务商或所有者基于除网站服务器和带宽、隐私信息保护以外的合理的理由,以设置Robots协议的方式拒绝网络爬虫的抓取行为是正当的。不遵守Robots协议的爬取行为显然不当,应当承担不利后果。

 

另外,《个人信息安全规范》要求个人信息控制者间接获取个人信息时,应对信息来源进行调查,包括要求个人信息提供方说明个人信息来源,并对其个人信息来源的合法性进行确认;了解个人信息提供方已获得的个人信息处理的授权同意范围,包括使用目的,个人信息主体是否授权同意转让、共享、公开披露等。个人信息控制者开展业务需进行的个人信息处理活动超出该授权同意范围,应在获取个人信息后的合理期限内或处理个人信息前,征得个人信息主体的明示同意。

 

(三) 用户单方面同意是否可以取代第三方平台授权

 

2017年8月,华为和腾讯就用户微信数据发生的冲突即为一个典型的范例。据媒体报道,华为旗下的荣耀品牌在2016年底12月发布了一款新型手机,可依微信聊天内容自动加载地址、天气、时间等信息并提示通话、购物等服务信息。对此,微信认为,华为的做法实际上夺取了腾讯的数据。华为予以否认,并表示其仅在用户通过手机设置予以授权的情况下收集用户活动信息。所有用户数据都属于用户,而不属于微信或是手机,该公司手机设备上处理用户数据之前经过了用户的授权。[11]

有学者认为,依目前我国个人信息保护的规则,“用户单方面的同意是不够的,原因是《网络安全法》把数据保密义务和建立保护制度的义务,放在了数据收集方[12],当然这个前提是数据收集是合法的。因此,微信聊天数据天然是由微信保存的,华为要访问,肯定得获得微信的授权”[13]。





结束语

个人信息保护涉及方方面面的问题,即使仅针对前文所述的个人信息收集环节,由于篇幅所限,亦只能选取一个合规角度展开论述。值得注意的是,近日“两会”上,数位全国人大代表、全国政协委员都提出了加强个人信息保护方面立法的议案、建议和提案。全国人大常委会法工委亦表示,正会同有关方面研究、论证个人信息保护立法的相关问题,针对大数据时代发展的新形势,进一步完善相关制度,切实加强维护公民个人信息的权益。

 





[1]如《中华人民共和国民法总则》、《中华人民共和国网络安全法》、《中华人民共和国消费者权益保护法》、《中华人民共和国刑法修正案(九)》、《全国人民代表大会常务委员会关于加强网络信息保护的决定》、《征信业管理条例》、《电信和互联网用户个人信息保护规定》、《最高人民法院关于审理利用信息网络侵害人身权益民事纠纷案件适用法律若干问题的规定》、《最高人民法院、最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》等。

[2]如《信息安全技术公共及商用服务信息系统个人信息保护指南》、《电信和互联网服务用户个人信息保护定义及分类》、《电信和互联网服务用户个人信息保护分级指南》、《互联网企业个人信息保护测评标准》、《信息安全技术 个人信息安全规范》(GB/T 35273-2017)等。

[3]中国人民大学未来法治研究院研究员许可《试论《个人信息安全规范》的法律效力》 https://mp.weixin.qq.com/s/ZxadBeYTW9Idm0neWwhk8Q

[4]《国家网信办就“支付宝年度账单”约谈企业负责人》网址:http://news.sina.com.cn/o/2018-01-10/doc-ifyqptqv6664245.shtml

[5]Graham Greenleaf&Scott Livingston, China’s Personal Information Standard: The Long March to a Privacy Law, PRIVACY LAWS & BUSINESS INTERNATIONAL REPORT (2017) P25-29 网址:https://mp.weixin.qq.com/s?__biz=MzIxODM0NDU4MQ==&mid=2247484590&idx=1&sn=00c7080ed3200b6c246831e9e09c5a28&chksm=97eab944a09d305215caf407d9d4b8b017e4a20b34a4956f6bcc03c27deeb0804fca481e4c65&scene=21#wechat_redirect;摘自孙娟娟翻译《中国个人信息保护标准:迈向隐私法的漫漫长征》网址:https://mp.weixin.qq.com/s?__biz=MzIxODM0NDU4MQ==&mid=2247484873&idx=1&sn=d9d014ccdf36d94903d32c2ba7428c71&chksm=97eab823a09d3135c4c9e3ee2dbe56a2c1cdd743270208a90987139456651a147e4567a3af30&scene=21#wechat_redirect

[6]《中华人民共和国网络安全法》第四十二条  网络运营者不得泄露、篡改、毁损其收集的个人信息;未经被收集者同意,不得向他人提供个人信息。但是,经过处理无法识别特定个人且不能复原的除外。

[7]明示同意,是指个人信息主体通过书面声明或主动做出肯定性动作,对其个人信息进行特定处理做出明确授权的行为。肯定性动作包括个人信息主体主动作出声明(电子或纸质形式)、主动勾选、主动点击“同意”“注册”“发送”“拨打”等。

[8]龙卫球 林洹民《我国个人信息保护制度的新发展与若干缺憾——《信息安全技术:个人信息安全规范》评述》网址:https://mp.weixin.qq.com/s/WbR7zO7gZKyHsJ4iVo0oMA

汉坤律师事务所的唐志华、朱敏、黄颖 《个人信息安全的"GSP"来了!》网址:https://mp.weixin.qq.com/s/WZaJdywzK_loTUWew8sTHw

 [9]《北京淘友天下技术有限公司等与北京微梦创科网络技术有限公司不正当竞争纠纷二审民事判决书》北京知识产权法院 (2016)京73民终588号(裁判日期: 2016.12.30)

[10]《北京百度网讯科技有限公司、百度在线网络技术(北京)有限公司与北京奇虎科技有限公司不正当竞争纠纷案》北京市第一中级人民法院(2013)一中民初字第2668号(裁判日期:2014.08.07)

[11]《华为腾讯互怼,我们的数据究竟归谁?》网址:http://www.sohu.com/a/163022919_792435

[12]《中华人民共和国网络安全法》第四十条   网络运营者应当对其收集的用户信息严格保密,并建立健全用户信息保护制度。(注:网络运营者,是指网络的所有者、管理者和网络服务提供者。)

[13]洪延青《从《网络安全法》来看腾讯和华为关于用户数据的争端》网址:https://mp.weixin.qq.com/s/cl7N6SEWfFELANc8M14GdA