互联网恶意爬虫案件频发 专家呼吁规制非法爬虫保护数据资源
原标题:互联网恶意爬虫案件频发 专家呼吁规制非法爬虫保护数据资源
21世纪经济报道王峰北京报道 近年来,网络爬虫“爬取数据”成为热词,相关司法案例不断出现。
在近日举行的长三角数据合规论坛(第三期)暨数据爬虫的法律规制研讨会上,法律专家、司法工作者、企业代表研讨了爬虫技术及其对数字产业的影响,恶意爬虫的民事责任和刑事合规等话题。
{image=1}
(来源:公开信息)
爬虫纠纷与数据成为科技创新必备要素密不可分。在大数据时代,爬虫爬取他人数据的法律边界在哪里?如何规制恶意爬虫肆意爬取的行为?
爬虫技术中立,但爬虫技术应用侵权严重
从技术角度看,爬虫是通过程序去模拟人类上网或者浏览网页、APP行为,让其高效的在网上抓取爬虫制造者所需要的信息。
欧莱雅中国数字化负责人刘煜晨表示,大多数网站拒绝爬虫访问,其中的原因既包括商业利益考量,也包括自身网站运营安全的考量。除了可能爬到网站的上不愿被爬取的数据以外,网站经营者往往还会担心爬虫干扰网站正常运营。
爬虫自动持续且高频地对被爬取方进行访问,服务器负载飙升,这会给服务器带来“难以承受”之重。应对高并发经验不足的网站,尤其是中小网站可能会面临网站打不开,网页加载极其缓慢,有时甚至直接瘫痪。网站经营者面对“凶猛”的网络爬虫时往往苦不堪言。
小红书法务负责人曾翔表示,恶意爬虫案例经常发生在内容平台和电商平台。在内容上更多被爬取视频、图片、文字、网红互动数据、用户行为数据,在电商领域更多被爬取商家信息和商品信息。
“内容平台一般而言会约定相关内容知识产权应当是归发布者或者发布者和平台共同所有,这些爬虫没有签订协议获得用户授权,如何获得知识产权,涉嫌对知识产权的破坏。平台通过投入激发很多创作者的创造力,如果爬虫很轻易获得再去抄袭、改编,损害很大。”曾翔说。
新浪集团诉讼总监张喆表示,无论是爬虫还是实现其他目的的技术,本身都是中立的,但爬虫技术的应用不是中立,技术应用都带有应用者的目的。发生纠纷时,这个时候不应该只评价技术原理,而是需要评价技术用来干什么,这个行为手段到底是不是具有正当性。
现实中,恶意爬虫爬取数据的目标清晰,通过爬虫爬取数据建立数据增值服务,从而获益。然而,所建立的这类数据增值服务往往与被爬取方形成直接的竞争关系,甚至可以形成某种替代关系。
上海浦东法院知识产权庭法官徐弘韬表示,数据是内容产业的核心竞争资源,内容平台经过汇总分析处理后的数据往往具有极高的经济价值。如果要求内容平台经营者将其核心竞争资源向竞争对手无限开放,不仅有违“互联互通”的精神实质,也不利于优质内容的不断更迭和互联网产业的持续发展。
无视robots协议“君子协定”,恶意爬虫“破门而入”
提及网络爬虫,robots协议是绕不开的话题。robots协议(也称爬虫协议)的全称是“网络爬虫排除标准”,网站通过robots协议明确警示搜索引擎哪些页面可以爬取,哪些页面不能爬取。该协议也被行业称为搜索领域的“君子协定”。
刘煜晨表示,当网络爬虫访问一个网站,通常有一个robots协议,它像一个牌子立在自己房间门口,告诉外来人谁可以过来,谁不可以过来。如果你过来,哪些房间可以进,哪些房间不可以进,也就是哪些页面可以爬,哪些页面不可以爬。但是,这只是一个君子协议,只能起到告示作用,起不到技术防范作用。
实践中,恶意爬虫爬取时不遵守网站的robots协议,并可能爬取到不该爬的数据,这种情形并非孤例。
虽然网站可以开发相应策略或技术手段,防止爬虫抓取数据,但爬虫也有更多技术手段,来反制这种反爬策略,即反反爬策略。
刘煜晨表示,反爬和爬取的技术一直在迭代,在技术领域,没有爬不了的网站,所有对外公开的网站、APP,只要人能访问,绝对能爬得了,只有他愿不愿意爬和多难爬的问题。越大厂的APP或者网站越难爬,反爬机制多。
徐弘韬认为,应当尊重网站预设的robots协议,如果违反robots协议强行抓取数据,可能导致在行为正当性上给予负面评价。
数据价值凸显,恶意爬虫爬取数据问题突出
恶意爬虫爬取数据案件频发的背后,与数据的价值极具增加并成为市场竞争重要的资源,以数据为核心的市场竞争愈发激烈密不可分。
杭州长三角大数据研究院副院长郭兵表示,数据爬虫作为一个中立性的技术,已经在互联网产业领域广泛应用,但是如果爬虫技术不当应用,对于其他竞争者的合法权益造成损害,甚至涉嫌违法或者犯罪,对于产业的健康发展也会产生非常大的负面影响。
上海市人民检察院研究室副主任陈超然表示,检察机关正在积极推动企业合规改革试点工作,数据合规是关注热点。当一个网络平台或者个人通过技术手段抓取别的平台数据的时候,这种行为是否合法,平台数据主体是谁,归谁使用,值得深入研讨。
华东政法大学教授高富平认为,如果网站合法积累数据资源,都应该属于网站生产端可以控制的数据资源,是它的资产。对于数据财产权,他提出数据的控制者权,数据的控制者是基于自身控制,可以自己用,也可以给别人用,只要法律上承认合法的数据生产者能够实际控制,只能通过他的许可使用方式来开放数据的使用。
高富平认为,更重要的是承认数据的生产者、控制者可以基于他的商业目的来开放数据,让他积极通过许可使用、交换交易等方式,让更多人享用数据服务。
徐弘韬认为,对于非搜索引擎爬虫的正当性判别,还要考虑是否足以保障用户数据的安全性。包括身份数据、行为数据等在内的用户数据,从属性来讲不仅仅是经营者的竞争资源,同样具有用户的个人隐私属性,而此类数据的集合更涉及社会公共利益。如果以危害用户数据安全性为代价抓取数据,将在行为正当性上被给予负面评价。
责任编辑:王珊珊
境内民宿订单量同比恢复超九成 高端产品“要提前两个月订”
有6.37亿人次出游,国内旅游收入4665.6亿元的2020年国庆中秋假期落下帷幕,中国旅游市场也在防控防疫的大背景下加速复苏。据文旅部门披露的数据显示,八天长假期间,全国共接待国内游客按可比口径同比恢复79%;国内旅游收入按可比口径同比恢复69.9%。多个在线旅游平台发布的报告显示,酒店民宿订单量均出现“一房难求”现象,而民宿行业甚至超过去年同期。0001300万亩红缨子高粱供不应求 涨价已成定局
从红缨子高粱种植基地面积看,今年优质酱酒还将保持稀缺。文|云酒团队“高粱供不应求,下半年价格一定会涨。”6月10日,遵义市(仁怀市)酒业协会联合红缨子高粱协会达成红缨子高粱专家委员会成立意向。次日,红缨子高粱协会会长涂佑能在走访红缨子高粱种植基地时,表达了上述观点。涂佑能此番观点背后有着怎样的依据?两大协会联手,又透露出什么信号??两大协会携手管控“高粱乱象”0001恒大汽车发布智能网连系统 2025年计划产销超100万辆
{image=1}3月25日,恒大汽车(00708.HK)发布2020年业绩公告。在举行的业绩会上,恒大汽车管理层向外透露了多个最新进展。恒大汽车在过去的一年共实现营业收入154.87亿元,同比增长175%;毛利润26.95亿元,同比增长43%。恒大汽车主要业务为健康管理和新能源汽车,其中健康管理收入约153亿元,同比增长207%;新能源汽车收入约1.88亿元。0001富士康与吉利成立的电动车合资公司目前不会为百度、拜腾代工
来源:雪球从接近消息人士处了解到,吉利与富士康成立的合资公司暂时并没有为百度与吉利的合资公司代工的计划。当然,也没有计划为数日前与富士康签署战略合作框架协议的新创造车公司拜腾进行代工。合资公司将设立管理团队负责公司的日常运营。其中,富士康有权提名或更换公司CEO,吉利有权提名及更换公司的CFO。目前合资公司没有引入新投资人的计划,也没有IPO计划。责任编辑:张亚楠0000北方供暖季开启:我国有6.2万家相关企业 前三季增9020家
新京报贝壳财经讯全国各地气温逐步降低,我国北方多地将陆续开启供暖模式。企查查数据显示,目前全国范围内共有6.2万家供暖相关企业。山东以7千余家企业排名第一,辽宁、河北分列二三位。2019年相关企业注册量达近10年来最高,共新注册1.1万家,比10年前数据增长4.7倍。今年前三季度共新增企业9020家,同比增长8%,其中三季度新增3491家。0000