文件名称:十问大数据.doc
文件大小:211KB
文件格式:DOC
更新时间:2022-12-24 11:30:39
文档资料
十问大数据 作者:杨强 来源:《互联网经济》2014年第12期 Q1:大数据是商业炒作吗? 业界给大数据的定义是4个"V":体量大(Volume)、种类多(Variety)、速度 快(Velocity)和真实性高(Veracity)。但这个定义其实并未抓住大数据本质。如果 仅仅看这几个维度,大数据就是一种炒作,因为它们只是表面现象。 大数据的本质应该是如何为企业带来一种更新更好的商业运作模式,而大数据 应用的成功,也是依靠决策者提出好的商业问题及与其相关的商业模式。这些商业问题 可以非常简单,但问题背后必须有一系列相关的商业模式。 比如,如何运用智能手机应用商城的数据,来提高对用户APP推荐的精度?随后 ,利用应用商城的大数据,可以产生上百万维的数据表,进而建立可靠准确的推荐模型 ,使得用户体验水平大幅提升。 大数据应用成功的关键也正取决于是否有一个明确的商业(或科学)目的,商 业模式的定义是其前提条件。 Q2:数据越多越有用? 首先,如果收集大数据的目的是建立一个对位置数据的预测模型,那么,得到 这一模型的训练数据一定要包含所需的信息。但问题恰恰是,事前并不知道哪些特征是 重要的,因此,需要把尽量多的数据整合起来,让机器去寻找。 然而,这个问题为什么不能去咨询该领域内的专家们呢?事实证明,专家们虽 然会自己解决问题,但大都说不清他们是如何解决这些问题的。这也就是为什么在大数 据应用中,专家的作用更多体现在帮助连接、聚合尽量多的数据上。 除此之外,要建立一个好的预测模型,用来训练模型的数据总量也要足够多。 如果历史数据少于一定规模,就会出现所谓"过拟合"(为了得到一致假设而使假设变得 过度复杂)现象。例如,如果一个服装品牌按照某一个模特的身材来设计,衣服很可能 做得偏瘦,以至于绝大多数其他消费者无法使用。这种"过拟合"现象在建立大数据下的 预测模型时也会发生。 那么,数据的总量越大,是不是预测模型需要学习的时间就一定越长呢?答案 是否定的。研究成果表明,在一定条件下,当数据变得越大,实际所需要的训练时间反 而越短。为什么会这样呢?可以想象:如果一个学生在学习某种概念时,只有少数习题 ,那么这个学生想透彻学会这个概念,就需要把每一个习题翻来覆去地看,加以扩展, 这样学习的过程会比较慢。相反,如果他有许多不同类的习题,只需要把每一个习题过 一遍,即可应付未来的大部分情况。因此,习题多的学生,学到同样水平的时间反而会 短。 Q3:人工智能将超过人类大脑? 经过几十年的探索,可以相信:机器的智能只能从针对大数据的学习中得来, 而大数据只能从人与人的交互、人与机器的交互中得来。如果想要这些交互产生足够多 的数据,就一定要让这些交互为人类提供有用的服务。 如今,什么数据最为充分?充分的数据首先是最容易被记录的那一部分,比如 语音、图像、文字等。能不能直接获取人类大脑活动信息,并以此来充实我们的智能呢 ?当今的这种技术(如磁共振脑图成像技术)还不够精确,因此,通过学习得到的系统 虽然在单方面可以超过人类大脑(如IBM Watson),但就通用性而言,现阶段的人工智能比起人类大脑还差得很远! 有没有可能在不久之后的某天,具有人工智能的机器人成为人类的敌人呢?这 是有可能的。但前提是:这些机器人的领袖一定是人类。 Q4:用户隐私问题如何解决? 隐私问题的出现其实比大数据要早,但隐私真正成为家喻户晓的议题,却是在 大数据成为热点之后。从斯诺登揭秘到苹果数据上传,随着越来越多媒体的爆料,大家 对隐私的关心程度也与日俱增。隐私问题的最大矛盾在于,一方面,数据被严严实实地 包起来,另一方面,它又要被运用来发现有用的东西,不得不将之开放和上传。 目前看来,数据隐私问题有三个考虑:1.技术;2.用户利益;3.社会接受程度。 从技术上来说,以前有关数据的解决方式大都是把数据从终端迁移到计算端( 如计算中心),得出结果后再把结果送到终端。这种方式无疑会引发隐私问题,因为一 旦数据离开用户的个人终端,就无从保证谁将有权利接触数据,数据的隐私也就无从保 护了。 要保护隐私,一种新的模式是"计算随着数据走",也就是利用终端自身的强大 计算功能,在终端算好一个结果(如一个预测模型,即本地模型),再把这个模型与某 一个通用模型加以整合。这种模式无疑会引入更多计算量与复杂性,目前还属于前沿研 究领域。这种方法就像是有人要买股票,但又不想别人知道他自己的需求,只读取网上 有关股票的信息,与自己知道的需求结合起来,做出买卖决策。只要每个人足够聪明, 又有足够的计算能力,这样的系统就会最大程度地保护每个人的隐私。 另一种做法是,仍把数据传输到计算中心,但在传输之前,将数据加以改变, 使其中的关键隐私信息在传输和计算中被隐藏起来,让人无法反推原始的敏感数据(如 用户性别、住址等)