王洪伟:大数据更懂我们
发布时间:01-16-19

王洪伟 同济大学经济与管理学院教授、博士生导师

 一个清晨,某程序员还在沉睡,他的手环检测到主人的体征异常,将异常数据提交到台端,云服务器通过大数据分析发现:该程序员病了。手环收到主人的病讯及相关治疗建议后,向公司提交病假单,同时给主人预约了医疗服务。一切都在程序员的熟睡中完成。这就是大数据!它了解我们的生活、甚至情感;它通晓企业的经营,协助制定计划;它洞悉网络舆情、了解民众诉求,助力政府决策;它深谙经济市场,时刻提醒决策者规避风险,抢占先机。

什么是大数据?

大数据从概念兴起到应用落地,是一个水到渠成的过程。首先,虚拟化技术、大规模分布式数据管理技术、分布式的并行编程模式、面向服务的应用组装及管理、前端展现及交互技术的发展日新月异,为数据的产生、存储、处理提供了技术支撑。同时,互联网思维日益喧嚣,各路诸侯跃跃欲试。“互联网+”导致企业视野更广,手臂更长,企业将触及前所未有的海量数据,同时应用场景也将层出不穷。

大数据具有四个特点:(1)规模性。从现在的TB/PB级体量,很快就将进入ZB时代;(2)异构性。类型丰富,既包括结构化数据,还包括图片、声音、视频等非结构化数据;(3)时效性。数据采集和处理即时性强,满足市场的瞬息万变;(4)价值性。针对实际应用场景,提出可落地的管理建议。

传统的数据,实质上是基于业务逻辑的小数据,来自企业信息系统,如零售商的进销存系统。在万物互联时代,大数据是由非结构化数据构成,这些数据比原来的结构化数据多得多,比如微信里的一张照片抵得上小型超市进销存系统一个月的数据量。目前,无线网络、可穿戴设备、物联网的普及,在丰富数据来源的同时,大大降低了数据采集成本。

大数据的社会影响

进入大数据时代,工业时代产生的社会结构和政治形态,都将被重塑。在过去,基础设施包括铁路、公路、机场、港口,而今智能终端、云计算、宽带网络扩展了其内涵;在过去,土地、劳动力、资本是核心生产要素,而今数据已成为最有价值的资产。在过去,基于产业链的分工体系和市场体系,存在着巨大限制,如资源、制造基地和市场在时空层面的隔离与不平衡,会产生高额成本,也会受到规模限制。而今,大数据推动了大规模协同与共享协作方式。

大数据的分析方法

大数据技术体系初具雏形,在采集、预处理、存储、处理、可视化展示等环节,形成了相对成熟的技术规范。然而,在商科背景下,我们更关注数据驱动的商业模式创新。传统的模型驱动的方法不再放之四海而皆准,尤其是在非结构化的大数据面前。

早期的数据分析基于归纳演绎法,后期产生了人工智能。大数据是异构性,包含图片、音频、视频。对这些数据进行处理,传统的工具远远不够。比如,自然语言处理技术可以根据一段语音判断其中包含正面评价或是负面评价,甚至判断情感,这种技术归属计算语言学。大数据分析同时还需要用到深度学习的概念,以及LDE模型等。

在商业领域,客户画像是精准服务的基础。用“瞎子摸象”作比喻,我们从不同角度获取鼻子、耳朵、腿等部位信息,经过筛选和组合,一头完整的大象就展示在我们脑海中。在操作层面,需要进行跨屏整合。个人手机、办公电脑、家庭电视、可穿戴设备……通过“Super ID”,把同一个人在不同时间点、不同屏幕背后的信息整合起来,这个人就变成“透明人”了。年初,央行成立了“百行征信”,旨在整合互联网巨头的数据,面向全社会提供征信服务。此外,国内诸多城市成立数据交易中心,为数据资产的交易提供平台。

值得一提的是,除了丰富的数据来源,还需要知识库指导数据分析。比如,网络留言在用词和语法上相对随意。比方说,“计算机”和“电脑”是同一个概念;再比如,在不同语境下,“苹果”可能是指电脑品牌,也可能是指水果。为此,我们需要将领域知识事先提取,构建知识管理系统,将这些概念联接起来。基于建成的知识库,进行后续知识推理。

大数据能给我们带来些什么?

也许大家还没有感觉到,现在的普通人比100年前的皇帝还要幸福!现在,这个幸福指数将通过大数据的普及而得到进一步的提高!

先看在线购物。顾客会参考商品评论,有些评论甚至超过十万条,我们不可能逐一阅读,因此会错过有用的信息。目前,我们的研究能够对商品评论进行抓取,自动提取产品特性(如面板、操作系统、待机),最终实现面向特征的细粒度意见挖掘。相比于问卷调查的演绎法,这种方法没有样本数量限制,没有样本偏差,实时性更强。

再看股市。股民会参考股评专家的评论,但是也会有这样的疑虑:专家的评论是真的吗?我们的研究解决了这个问题:从股票论坛上抓取股评数据,总结他们对具体板块或者股票涨跌的看法,将这些数据与后市数据比较,在此基础上,可以判断专家的评论是真是假。

对于企业经营模式,大数据也将带来彻底的颠覆。过去,公司运营是问题驱动的,而大数据时代,则是由数据驱动。在过去,企业管理模式是发现问题、数据分析、找到答案、解决问题;现在的管理者可以直接从数据中找规律,为己所用。例如,给产品“画像”后的数据,管理者可以和竞争对手的数据比较,了解自身产品优劣,对产品缺点改进,最后针对产品优势做精准推广。

互联网公司的盈利模式也在改变。本质上,互联网公司就是数据公司,不论从事什么业务,最关键的就是收集数据。在过去,主要靠广告盈利;现在则通过数据分析,向客户推送定制服务。除此之外,还可以对用户数据进行分析,将结果转卖给利益相关方。

在公共管理领域,大数据可以大显身手。在国内,约80%的有用信息(自然人、法人、空间地理、宏观经济)掌控在政府手中,但政府数据治理能力薄弱,如果加大数据开放力度,由企业参加数据处理,将有效推动全社会数据产业的发展,同时也会助力智慧城市建设。

对于医疗领域,面临的现状是:老龄化趋势、慢性病增加、亚健康人群庞大。随着智能芯片、传感器以及可穿戴设备的兴起,无数的设备可以即时监控人体的健康信号,例如:呼吸、脉搏、血压、睡眠等。这些数据可以与云端数据进行对比,得到身体健康状况的信号,该数据也可以为医生临床诊断提供辅助。根据美国临床肿瘤学会报告,IBM Watson对癌症的治疗方案与医生的建议十分吻合。23andMe通过基因分析,给出用户染色体属地、构成和基因中可能带有的患病风险。

大数据并非十全十美

(1)理论基础问题。相关关系不能取代因果关系,大数据使用归纳法,而非传统的演绎法,强调事物的相关性,主动忽视因果关系。比如,经典应用“啤酒和尿布”,啤酒和尿布具有相关性,至于哪个是因,哪个是果,商家并不关心,他们只关心两者的相关性带来的销量。(2)隐私保护问题。大数据的使用者会以攫取的心态使用数据,将我们在不同屏幕、不同系统、不同时间、不同空间的行为足迹加工组合,我们将变成“透明人”,个人的隐私安全堪忧。目前,商家利用大数据“杀熟”现象时有发生。在美国,利用社交平台洞悉网民心理,预测甚至干涉总统大选,都需引起警觉;(3)需求问题。很多企业对业务需求不明确,寄希望大数据挖掘出点什么东西。在缺少明确需求情况下,大数据难以发挥作用;(4)数据质量问题。不少企业时刻产生大数据,却忽视数据的预处理,数据治理制度缺失,缺少ETL流程,导致数据处理不规范,最终影响数据质量;(5)大数据人才匮乏,大公司掌握着先进的大数据技术,但是缺乏教育资源,训练有素的从业人员并不多。中小企业尽管存在数据,但是没有合适的人力资源,无从下手。

大数据的未来

大数据产业:产业链已经形成,就像餐厅点菜。专业的数据公司出售大数据,就像菜市场的批发食材;有些公司出售加工过的数据,就像饭店厨师按需加工;也有些公司负责底层技术支持,就像供给锅碗瓢盆一样。随着技术进步,大数据公司的数据加工能力会越来越高。

人才培养:数据科学专业时不我待。美国常春藤联盟以及国内部分高校已经开设相关专业。最近,我们正在跟数学系联合筹备数据科学专业,新专业将融合管理学、统计学和信息科学知识,培养的学生不仅胜任系统开发,还能够对企业内外部的数据进行综合分析处理。

开放共享:互联网的开放性决定了会有海量数据涌入。管理者应因势利导,原先“围墙”内的东西是我的,在大数据时代,整个世界的数据都能为我所用。此外,大数据产业的发展离不开标准。由于数据维度的差异,数据方难以互联互通,因此有必要形成统一的标准。

前景行业:未来5-10年,智慧医疗、普惠金融、城市治理、工业制造的应用场景将会越来越丰富,必将成为大数据产业新一轮发展的着力点。

最后强调一点,大数据只是一个阶段性的概念,不久的将来,所有的数据都是大数据,也就不存在所谓小大数据之争。数据驱动的企业发展模式和社会管理模式是大势所趋。为此,商学院应该未雨绸缪,提前布局,将这种思维模式引入到教学科研之中。