机器大数据也离不开Hadoop

时间:2022-09-13 20:30:31

根据数据来源划分,大数据主要包括三类:商业运作产生的数据人类行为产生的数据机器数据。目前,人们谈论最多的是前两类数据的 处理和分析。创立于2004年的Splunk公司独树一帜,从公司成立之初就一直专注于机器数据的处理和分析。Splunk公司产品营销副总裁 Sanjay Mehta在接受本报记者采访时表示,机器大数据未来具有非常广阔的发展前景。

  机器大数据有可为

   何为机器数据?人们的每项活动都会在机器数据中留下痕迹,这些数据包含客户行为、使用事务处理、应用程序行为、服务水平等的明确记录,像人们非常熟悉的 日志文件传感器数据等都是机器数据。Sanjay Mehta表示:“机器生成的数据是发展最快、最复杂同时也是最宝贵的那部分大数据。但是现有的数据分析、管理和监控解决方案很少有为这类数据设计的。”

  机器数据处理的难点在于以下三方面:机器数据来自于不同来源,而将这些不同来源关联起来十分复杂;机器数据主要是非结构化的,很难用预先定义的架构来处理;机器数据对实时处理的要求非常高。Splunk的产品被外界称为机器数据的引 擎,它能够有效应对机器数据的种种挑战,收集非结构化的时间序列机器数据,并编制索引加以利用。Sanjay Mehta表示,Splunk可以读取人们能够想到的任何来源的数据,比如网络流量、Web服务器、自定义应用程序、应用程序服务器、虚拟机管理程序、GSP系统甚至股市源、社交媒体和结构化数据库的数据,并通过它们实时掌握业务状况,深入分析在整个IT系统和基础设施中发生了什么,从而做出正确决策。

机器大数据也离不开Hadoop

  增强Hadoop的易用性

   “我们的某些客户告诉我们,他们要使用Hadoop,希望以更低成本来存储数据。但问题是,如果想部署Hadoop并基于它获得更多价值并不是一件容易 的事。部署Hadoop所花费的人力和服务可能是部署普通软件的20倍。如果想充分发挥Hadoop的作用,至少要将13个项目与Hadoop进行集成。 另外很多客户反映,Hadoop平台上的数据量太大而无法随意迁移。”Sanjay Mehta表示,“2012年10月,我们推出了 Splunk Hadoop Connect,让用户可以简单、方便地在Splunk Enterprise和Hadoop之间转移数据。”

  Splunk Hadoop Connect打通了Hadoop与Splunk产品平台之间的传输通道, 用户可以将Splunk平台上的数据传输到Hadoop平台上进行长期存储。Hadoop上的数据也可以实时地传输到Splunk上进行分析和可视化。

  对于很多客户来说,最棘手的问题是Hadoop上的数据量太大,无法随意移动。

  2013年6月22日,Splunk 发布了Hunk测试版——Splunk Analytics for Hadoop,它提供了针对Hadoop平台的互动数据探索分析和可视化功能,这为用户使用Hadoop平台提供了更多便利。

   Splunk Analytics for Hadoop是一个全功能的集成的产品,针对Hadoop上的数据在同一个平台上提供了互动的数据探索、分 析和可视化三种必要的功能。“Splunk Analytics for Hadoop为用户提供了一个简单、易用的界面,不仅专业人员可以使用,即使普 通的管理人员也能使用它对数据进行访问和分析。以前可能要花几个月时间来了解和分析数据,现在使用 Splunk Analytics for Hadoop,可能只要一小时甚至几分钟。”Sanjay Mehta表示。

   Splunk Analytics for Hadoop是首个采用Splunk虚拟索引技术(正在申请专利)的产品。用户通过它可以无缝使用 Splunk的所有技术,包括Splunk搜索处理语言(SPL)等。它可以实现互动地探索、分析和可视化存储在任何地方的数据,就像这些数据存储在 Splunk Index中一样。Sanjay Mehta介绍说:“未来,我们会把更多技术创新反馈给Hadoop社区。目前,我们正在邀请特定的用户 参与Hunk的测试。”

机器大数据也离不开Hadoop的更多相关文章

  1. 大数据系列(4)——Hadoop集群VSFTP和SecureCRT安装配置

    前言 经过前三篇文章的介绍,已经通过VMware安装了Hadoop的集群环境,当然,我相信安装的过程肯定遇到或多或少的问题,这些都需要自己解决,解决的过程就是学习的过程,本篇的来介绍几个Hadoop环 ...

  2. 大数据系列(3)——Hadoop集群完全分布式坏境搭建

    前言 上一篇我们讲解了Hadoop单节点的安装,并且已经通过VMware安装了一台CentOS 6.8的Linux系统,咱们本篇的目标就是要配置一个真正的完全分布式的Hadoop集群,闲言少叙,进入本 ...

  3. 大数据系列(2)——Hadoop集群坏境CentOS安装

    前言 前面我们主要分析了搭建Hadoop集群所需要准备的内容和一些提前规划好的项,本篇我们主要来分析如何安装CentOS操作系统,以及一些基础的设置,闲言少叙,我们进入本篇的正题. 技术准备 VMwa ...

  4. 一文看懂大数据的技术生态圈,Hadoop,hive,spark都有了

    一文看懂大数据的技术生态圈,Hadoop,hive,spark都有了 转载: 大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的.你可以把它 ...

  5. 大数据系列(5)——Hadoop集群MYSQL的安装

    前言 有一段时间没写文章了,最近事情挺多的,现在咱们回归正题,经过前面四篇文章的介绍,已经通过VMware安装了Hadoop的集群环境,相关的两款软件VSFTP和SecureCRT也已经正常安装了. ...

  6. 大数据框架:Spark vs Hadoop vs Storm

    大数据时代,TB级甚至PB级数据已经超过单机尺度的数据处理,分布式处理系统应运而生. 知识预热 「专治不明觉厉」之“大数据”: 大数据生态圈及其技术栈: 关于大数据的四大特征(4V) 海量的数据规模( ...

  7. 大数据项目实践:基于hadoop+spark+mongodb+mysql+c#开发医院临床知识库系统

    一.前言 从20世纪90年代数字化医院概念提出到至今的20多年时间,数字化医院(Digital Hospital)在国内各大医院飞速的普及推广发展,并取得骄人成绩.不但有数字化医院管理信息系统(HIS ...

  8. 大数据系列(1)——Hadoop集群坏境搭建配置

    前言 关于时下最热的技术潮流,无疑大数据是首当其中最热的一个技术点,关于大数据的概念和方法论铺天盖地的到处宣扬,但其实很多公司或者技术人员也不能详细的讲解其真正的含义或者就没找到能被落地实施的可行性方 ...

  9. 【大数据】Summingbird(Storm + Hadoop)的demo运行

    一.前言 为了运行summingbird demo,笔者走了很多的弯路,并且在国内基本上是查阅不到任何的资料,耗时很久才搞定了demo的运行.真的是一把辛酸泪,有兴趣想要研究summingbird的园 ...

随机推荐

  1. HTML超标记语言

     Html超文本标记语言,负责描绘Web世界的骨架. 〇.工具 http;//www.w3cchool.com.cn 一.Tim Bemers Lee 万维网之父: Html设计者: W3C创始人: ...

  2. php中array_flip数组翻转

    array_flip() 函数返回一个反转后的数组,如果同一值出现了多次,则最后一个键名将作为它的值,所有其他的键名都将丢失. 如果原数组中的值的数据类型不是字符串或整数,函数将报错. Return ...

  3. IOS NSDate NSDateFormatter 导致相差8小时

    时间问题应该是所有编程语言都要处理的.详细学过php的同学知道,php中也会有相差8小时的问题,然而php可以非常方便的解决的,直接设置下就好了 我最近在学习IOS的过程中,发现IOS的日期处理也是个 ...

  4. [HIHO]hihoCoder太阁最新面经算法竞赛7

    题目链接:http://hihocoder.com/contest/hihointerview12 期末完事了,终于有时间成套刷题了.这套题比较简单,难度上感觉和上一套差不多.除了最后一个题是看了讨论 ...

  5. ORA-15221: ASM operation requires compatible.asm of 11.2.0.0.0 or higher

    昨天在做存储迁移的时候,对ASM磁盘组的东西进行操作时,出现了如标题的错误.经查资料,发现原因如下:     如磁盘组是使用asmca图形化工具创建,则compatible.asm默认设置就已经为11 ...

  6. SQL Server 之 事务隔离级别

    SET TRANSACTION ISOLATION LEVEL xxx  -- 每次设置只针对当前事务块 xxx 取值: READ UNCOMMITTED READ COMMITTED REPEATA ...

  7. AOJ 0118 深度优先搜索

    日文题... 题意:一个面积为H*W的果园,种了苹果,梨和蜜柑.相邻(上下左右)的果树属于同一个区域,问果园共有多少个区域. 分析:迷宫问题.对于每一个格子,可以用深度优先搜索把相同果树的格子遍历并标 ...

  8. Jmeter之性能测试插件PerfMon Metrics Collector监听器,实时监听服务器资源(十四)

    Servers Performance Monitoring Introduction During a load test, it is important to know the health o ...

  9. MySQL数据库索引简介

    一.索引的含义和特点     索引是一个单独的.存储在磁盘上的数据库结构,他们包含着对数据表里所有记录的引用指针.使用索引用于快速找出某个或多个列中有一特点值的行,所用MySQL列类型都可以被索引,对 ...

  10. linux内核原子变量与原子位操作API

    原子变量: arch/arm/include/asm/atomic.h 定义并初始化 atomic_t v = ATOMIC_INIT(0); 写 void atomic_set(atomic_t * ...