十问大数据.doc下载

【文件属性】：

文件名称：十问大数据.doc

文件大小：211KB

文件格式：DOC

更新时间：2022-12-24 11:30:39

文档资料

十问大数据作者：杨强来源：《互联网经济》2014年第12期 Q1：大数据是商业炒作吗？业界给大数据的定义是4个"V"：体量大（Volume）、种类多（Variety）、速度快（Velocity）和真实性高（Veracity）。但这个定义其实并未抓住大数据本质。如果仅仅看这几个维度，大数据就是一种炒作，因为它们只是表面现象。大数据的本质应该是如何为企业带来一种更新更好的商业运作模式，而大数据应用的成功，也是依靠决策者提出好的商业问题及与其相关的商业模式。这些商业问题可以非常简单，但问题背后必须有一系列相关的商业模式。比如，如何运用智能手机应用商城的数据，来提高对用户APP推荐的精度？随后，利用应用商城的大数据，可以产生上百万维的数据表，进而建立可靠准确的推荐模型，使得用户体验水平大幅提升。大数据应用成功的关键也正取决于是否有一个明确的商业（或科学）目的，商业模式的定义是其前提条件。 Q2：数据越多越有用？首先，如果收集大数据的目的是建立一个对位置数据的预测模型，那么，得到这一模型的训练数据一定要包含所需的信息。但问题恰恰是，事前并不知道哪些特征是重要的，因此，需要把尽量多的数据整合起来，让机器去寻找。然而，这个问题为什么不能去咨询该领域内的专家们呢？事实证明，专家们虽然会自己解决问题，但大都说不清他们是如何解决这些问题的。这也就是为什么在大数据应用中，专家的作用更多体现在帮助连接、聚合尽量多的数据上。除此之外，要建立一个好的预测模型，用来训练模型的数据总量也要足够多。如果历史数据少于一定规模，就会出现所谓"过拟合"（为了得到一致假设而使假设变得过度复杂）现象。例如，如果一个服装品牌按照某一个模特的身材来设计，衣服很可能做得偏瘦，以至于绝大多数其他消费者无法使用。这种"过拟合"现象在建立大数据下的预测模型时也会发生。那么，数据的总量越大，是不是预测模型需要学习的时间就一定越长呢？答案是否定的。研究成果表明，在一定条件下，当数据变得越大，实际所需要的训练时间反而越短。为什么会这样呢？可以想象：如果一个学生在学习某种概念时，只有少数习题，那么这个学生想透彻学会这个概念，就需要把每一个习题翻来覆去地看，加以扩展，这样学习的过程会比较慢。相反，如果他有许多不同类的习题，只需要把每一个习题过一遍，即可应付未来的大部分情况。因此，习题多的学生，学到同样水平的时间反而会短。 Q3：人工智能将超过人类大脑？经过几十年的探索，可以相信：机器的智能只能从针对大数据的学习中得来，而大数据只能从人与人的交互、人与机器的交互中得来。如果想要这些交互产生足够多的数据，就一定要让这些交互为人类提供有用的服务。如今，什么数据最为充分？充分的数据首先是最容易被记录的那一部分，比如语音、图像、文字等。能不能直接获取人类大脑活动信息，并以此来充实我们的智能呢？当今的这种技术（如磁共振脑图成像技术）还不够精确，因此，通过学习得到的系统虽然在单方面可以超过人类大脑（如IBM Watson），但就通用性而言，现阶段的人工智能比起人类大脑还差得很远！有没有可能在不久之后的某天，具有人工智能的机器人成为人类的敌人呢？这是有可能的。但前提是：这些机器人的领袖一定是人类。 Q4：用户隐私问题如何解决？隐私问题的出现其实比大数据要早，但隐私真正成为家喻户晓的议题，却是在大数据成为热点之后。从斯诺登揭秘到苹果数据上传，随着越来越多媒体的爆料，大家对隐私的关心程度也与日俱增。隐私问题的最大矛盾在于，一方面，数据被严严实实地包起来，另一方面，它又要被运用来发现有用的东西，不得不将之开放和上传。目前看来，数据隐私问题有三个考虑：1.技术;2.用户利益;3.社会接受程度。从技术上来说，以前有关数据的解决方式大都是把数据从终端迁移到计算端（如计算中心），得出结果后再把结果送到终端。这种方式无疑会引发隐私问题，因为一旦数据离开用户的个人终端，就无从保证谁将有权利接触数据，数据的隐私也就无从保护了。要保护隐私，一种新的模式是"计算随着数据走"，也就是利用终端自身的强大计算功能，在终端算好一个结果（如一个预测模型，即本地模型），再把这个模型与某一个通用模型加以整合。这种模式无疑会引入更多计算量与复杂性，目前还属于前沿研究领域。这种方法就像是有人要买股票，但又不想别人知道他自己的需求，只读取网上有关股票的信息，与自己知道的需求结合起来，做出买卖决策。只要每个人足够聪明，又有足够的计算能力，这样的系统就会最大程度地保护每个人的隐私。另一种做法是，仍把数据传输到计算中心，但在传输之前，将数据加以改变，使其中的关键隐私信息在传输和计算中被隐藏起来，让人无法反推原始的敏感数据（如用户性别、住址等）

立即下载

秒客网

十问大数据.doc

网友评论

相关文章