研究内容-浅谈pci+express体系结构导读

时间:2024-06-28 17:45:02
【文件属性】:

文件名称:研究内容-浅谈pci+express体系结构导读

文件大小:2.31MB

文件格式:PDF

更新时间:2024-06-28 17:45:02

Hadoop 分布式 网络爬虫

1.2 研究现状 目前,国内外有很多成功的商业网络爬虫。但是这些商业网络爬虫往往不会公布技 术细节。现在比较著名的分布式网络爬虫有 UbiCrawler、WebFountain 和 Google Crawler。 Ubi Crawler[4]是个分布式爬虫软件。该项目是一个高性能,大规模的分布式网络爬虫。 这个爬虫主要特点是:平*立性即,即可以跨平台运行;大规模分布式效率良好;很 好容错性能;高效的分配函数效率;可自行调整爬行任务优先级。该项目由 Java 语言实 现。 WebFountain[5]分布式爬虫项目是由 IBM 公司开发完成的。其与 Mercator 相似。使用 分布式模块化,采用 C++语言实现。其有一个管理节点,管理节点负责整个集群的任务 分配。而其他节点都是工作节点,负责具体的爬取工作。 Google Crawler[6]爬虫系统使用一个计算机集群进行合作,完成网页抓取工作。它使 用一个 URLServer 分配 URL 给网络爬虫让它们去爬取。爬下来的原始网页传送到一个节 点上,此节点将网页进行压缩之后保存。 Nutch 是一个在 Hadoop 框架上开发,源代码开放的分布式搜索引擎。主要用 Java 语言实现。它主要的任务是爬取网页,并且对爬取下来的网页进行分析。其底层实现采 用了 Hadoop 平台的核心部件 MapReduce 编程模型和 HDFS。 1.3 研究内容 1. URL 的相关知识 URL(Uniform Resource Locator)即统一资源定位符。其能标识网络上所有资源的 具体位置。主要用在各种 WWW 客户程序和服务器程序上。URL 用一种统一的格式来描 述各种信息资源。包括服务器地址,视频资源地址等等。 因为互联网上所有的资源就是通过 URL 来统一是别的。爬虫程序都是通过 URL 来 识别所爬取的网页。因此,要设计一个爬虫软件,必须掌握 URL 相关知识。 2. Hadoop 平台 研究对 HDFS 的基本知识以及如何通过程序来访问操作 HDFS 文件系统;理解 MapReduce 编程模型的编程方法;理解分布式并行计算。 3. 网络爬虫 网络爬虫(Web Spider),是一种可以爬取网络上所有资源的程序。从网站首页开始, 爬取网页的内容,之后解析网页上的超链接,然后通过这些链接地址寻找下一个网页,


网友评论