课程分享第5期|吕本富:大数据及大数据分析

北京大学公共传播与社会发展研究中心(centerfor public communication and social development)成立于2012年,秉持北大学术精神和人文关怀,在社会发展的大视野下致力于公共传播领域的学术研究、国际交流、媒体培训和公益合作,旨在搭建政界、学界、企业界、媒体同仁、公益同仁跨界交流、融通合作的平台,以公共传播推动社会发展,以社会发展丰富公共传播。编者按
如果说互联网是一座宝藏,那么大数据就是打开这座宝藏的钥匙。新事物出现所带来的实现更美好事物的可能性,不仅需要我们的欢呼,更需要我们细致的思考,还有超乎想象力地运用。北大公共传播研修班 2017年春季课程,特邀请中国科学院大学经管学院教授、博士生导师吕本富为大家讲授5期《大数据分析》课程,梳理大数据相关技术及其原理,启迪大家把握历史未来发展脉络,更为深刻地去认识“媒介与社会变迁”这一命题。本期为大家推送的是吕本富老师北大公共传播班第二课的精华。
名师简介
国家创新与发展战略研究会副理事长
中国科学院大学经管学院教授博士生导师
主要研究领域:网络经济和网络空间战略、创新创业管理、管理智慧与谋略。在网络空间和创新创业研究方面,主要承担国家创新与发展研究会的政策研究工作;在智慧与谋略方面,主要研究中国传统智慧与博弈论结合。
与非常大的数据集合交互。这些数据集合是无法一个人能够阅读、看过、听过或体验过的。这些数据不仅包括高度结构化的、统一的、整体来说特定的,也包括完全非结构化的、异质的数据。
应用技术分析。不管描述为对于这些数据集合的工具、应用,或仅仅是一个算法。这些工具、应用和算法可能是高度专业化的,也可能是通用的;可能是实验性的,也可能是成熟的。一些能够广泛使用,而另一些则需要计算机专家的专门技能。
需要对工具和数据不断的改良,因此需要有不同背景和技能的多个项目参与者的合作和协同。数据的数量、质量、和效用毫无疑问是这些项目最复杂的决定因素,不仅影响不同的学科传统,也影响合作者的选择的重要的不同点,包括:目标数据集合的媒体、规模和组织,手工到自动工作的比例,分析工具的不间断适应的需求,以及在短暂的授权期间取得主要结果的可能性。hadoop比较强大万金油,它可以兼顾大数据量和精确性,但不能保证实时性;
storm可以保证实时性和小数据窗口的精确性,却不能处理数据全集;
针对只读历史数据的dremel和基于多维、多分辨率采样的blinkdb,可以在海量数据上实现准实时的查询,但必须损失一定的精确性。1、switching variables切换变量 。它是用来解决大数据“残缺”问题的。通过“列转换器”、“动画播放”等工具,海量因素之间的关联性分析变得十分简单、快捷,还可以根据需要对关联性的重要程度进行排序,大数据分析的效率由此得到大幅提升。
3、imputation缺失数赋值。它是用来解决大数据“残缺”问题的。在有missing data的时候,我们并不完全排斥直接删除的方法,但更多的时候,我们会在条件允许的情况下,用赋值的方法去替代原先的缺失值。
4、robust modeling稳健建模。它是用来解决大数据“异常”问题的。在融入了自动识别、重要性加权等处理手段后,分析人员既直接消除了个别强影响点的敏感程度,又综合考虑了所有数据的影响,增强了模型的抗干扰能力,使得模型体现出良好的预测特性,由此做出的业务决策自然变得更加科学、精准。隐私泄露
大数据在隐私方面具有双面性。大数据是获得新的认知,创造新的价值的源泉,也是改变市场组织结构,以及政府与公民关系的方法。商业机构和政府组织可以通过无处不在的终端和计算能力更加便利地搜集个人的信息,并加以挖掘和利用,产生集体性价值,方兴未艾的大数据革命就是这一过程的开端。大数据有另外一面,其中伴随着大数据而来的信息泄露问题,一直成为焦点。如果信息被泄露、被恶意利用,会造成的危害也非常大,人就会像生活在一个玻璃盒子里面。这似乎是这个社会的演进过程中不得不面对的一个问题,它的解也不是一个简单的方式。但弊端就是你的个人信息可能会被使用,甚至基于大数据的分析还能预测出你下一步会做什么。如何定义隐私隐私是权利两种主张
一种是以美国为代表,认为人格自由是隐私权的基础,强调个人对数据的控制性,注重推进数据合理化使用的发展。这让美国成为现代网络发展的前沿阵地;
一种是以欧盟为代表强调隐私保护,限制数据使用的理念,最终导致欧洲未出现任何一家世界范围内知名的互联网公司,使得欧洲在网络经济和影响力上受制于美国。隐私的三个角度(1)关系隐私,从古代社区到现代社会的变化过程中,可以发现带有人身性质的信息通常会依据不同的圈子和亲密程度有选择地披露和流动;
(2)空间隐私,即人们在某一封闭私人空间中的行为非经合法授权不得打扰,保留独处的权利;
(3)细节隐私,除非是被国家安全部门重点关注的对象,普通人在意的作为隐私的日常信息无法得到优先关注。
消费便利化与的潜在风险性(个人)在这三方面都要找到一个平衡点,如果考虑多方参与者的利益,就是一个博弈平衡点。
数据是关于变量的观测值。
采集
数据脱敏化:对数据进行匿名处理,把人们的姓名、身份和实际的数据相分离。这并不是针对某一个人而言的,而是针对整个群体的匿名化处理。
责任平衡:用户有权利控制关于自身的数据是否对外开放;介于熟人和陌生人之间的社交网络将产生,为用户的信用进行背书,并监督用户的行为;当用户可以无偿的获得大数据的时候,也必须有相应的回馈。精准服务是均衡点:“精准”,不是在消费者需要的时候“狂轰滥炸”地给出服务提示,而是能区分不同的消费者,根据其自身的偏好以及承受能力,提供出个性化的服务,再加上一些“超预期”,必然可以为服务“加分”。
数据拥有权:数据拥有权强调数据生产主体对数据的拥有权利,影视产品的版权就是一种数据拥有权。
使用知情权:使用知情权是对拥有权的保障。如果拥有者可以随时随地了解自己有几分拷贝数据、这些数据在哪里、谁在使用、产生了多少价值、作为拥有者自己能分到多少价值,无疑将革命性地推动数据交易和价值发现。大数据分析权:获得数据并进行分析的权限。公共数据的开放政府公共部门在披露公共数据、科学数据等信息数据时,应该注意避免披露涉及国家安全问题,或涉及个人隐私信息和商业秘密方面的数据,否则会有法律的风险。因为用户隐私信息、商业秘密等都属于私权范围,业内常遵循“谁拥有谁控制”原则。政府机构由于自身定位和责任机制,缺乏放开公共数据的动力。同样出于利益考量,一些政府部门担心,随着数据的开放,本部门履职的行动自由会受到束缚,原来不透明的部门行为被公开后,可能招致舆论批评甚至诉讼,因而没有意愿主动开放数据。
抛开主观意愿,官方机构能不能拿出高质量的数据资源,也是一个问题。
北大公传大数据分析课程师生合影本文为北大公共传播首发版权归作者所有如需转载请联系授权欢迎合作|投稿pcsdpku@163