SharePoint 搜索爬网第三方网站配置

时间:2022-09-20 00:09:55

介绍:SharePoint的搜索着实强大,而且最近用到SharePoint搜索第三方爬网,感觉收获挺大,而且网上资料没找到太多类似的,就小记录一下,分享给大家。

首先,我自己写了一个net页面,里面读取所有我需要内容,充当SharePoint爬网的数据源,对这个页面进行爬网,页面如下图:

SharePoint 搜索爬网第三方网站配置

然后,打开SharePoint管理中心,搜索设置,新建内容源Crawl,爬网http://moss:9000,如下图。爬网设置可以按照自己的需要进行设置,比如想要爬网页面深度,可以进行设置,我的爬网,只是爬网页面下面的链接,所以深度设置为1;设置完成,先不要爬网,还需要设置爬网规则。

SharePoint 搜索爬网第三方网站配置

设置爬网规则:

打开爬网规则,设置路径,我的路径是9000端口下的所有页面,所以设置为http://moss:9000/*,当然,你的规则应该按照需要进行设置,可以排除这些路径,也可以包含这些路径,同时,如果有爬网到的任何结果,都可以在这里进行排除。

特别的是,我的页面上的链接,包含“?”问号,所以勾选了对复杂的URL进行爬网,下面的指定认证,可以选择认证的账号,如果需要Form认证的网页,可以设置指定其他内容访问账户【特别:如果登录需要验证码的,SharePoint是无法爬网的】。设置完爬网规则,点击确定保存,然后可以对Crawl内容源进行完全爬网了。

SharePoint 搜索爬网第三方网站配置

对Crawl内容源进行完全爬网,查看爬网日志,如下图:

SharePoint 搜索爬网第三方网站配置

在SharePoint搜索页面上,试试搜索刚配置的内容源,如下图:

搜索结果:

SharePoint 搜索爬网第三方网站配置

注意事项:

1、  如果,服务器处于代理访问网站的情况,需要配置管理中心的代理,位置在 搜索管理 - 代理服务器和超时 -  管理中心URL/_admin/searchfarmsettings.aspx

2、  搜索爬网内容,可能会出现异常情况,可以尝试重置搜索内容,位置在 搜索管理 - 重置所有已爬网内容,重置一下搜索结果。

3、  爬网结果,搜索出来的结果,标题为搜索页面的Html的页面Title,内容为页面上的Body内容,链接为URL。

4、  同样的搜索配置,可以搜索新浪,搜狐等网站。

SharePoint 搜索爬网第三方网站配置的更多相关文章

  1. SharePoint 2013 搜索爬网功能

    最近在*部门介绍SharePoint 2013 新功能,我也准备了很多,比如SharePoint 2013的Search.以后有机会谈谈Office Web App,Workflow等. Share ...

  2. [转载]SharePoint 2013搜索爬外网配置

    本文介绍SharePoint 2013 设置外网(Internet)爬网源: 下面是步聚: 1. 新建外部爬网源 a. 打开 “SharePoint 2013 Central Administrati ...

  3. SharePoint 2013 对二进制大型对象(BLOB)进行爬网

    本文是参考MSDN文档做的示例,SharePoint 2013搜索二进制对象(BLOB),通过外部内容类型的方式将外部数据与SharePoint相关联,修改BCD模型,使SharePoint能够爬网外 ...

  4. SharePoint 2013中的默认爬网文件扩展名和分析文件类型

    摘要:了解默认情况下 SharePoint 2013 爬网的文件扩展名及其解析的文件类型,可以借此了解搜索可以爬的文件和支持的功能. 如果“管理文件类型”页上的列表包含文件扩展名,爬网组件将仅爬网文件 ...

  5. 解决SharePoint 2010拒绝访问爬网内容源错误

    今天发现SP爬网出现了问题,持续时间蛮长的,一直爬不到内容. 解决方案: 这里有一条解决在SharePoint 2010搜索爬网时遇到的"拒绝访问错误"的小技巧. 首先要检查默认内 ...

  6. 解决 SharePoint 2010 拒绝访问爬网内容源错误的小技巧(禁用环回请求的两种方式)

    这里有一条解决在SharePoint 2010搜索爬网时遇到的“拒绝访问错误”的小技巧. 首先要检查默认内容访问帐户是否具有相应的访问权限,或者添加一条相应的爬网规则.如果目标资源库是一个ShareP ...

  7. SharePoint 2013中的爬网最佳做法

    了解在 SharePoint Server 2013 中爬网的最佳做法 搜索系统对内容进行爬网,以构建一个用户可以对其运行搜索查询的搜索索引.本文包含有关如何最有效地管理爬网的建议. 本文内容: 使用 ...

  8. sharepoint 2013 持续爬网

    能否对所有类型的内容源都使用连续爬网?不能.连续爬网仅适用于 SharePoint 型内容源.所有其他类型的内容源将继续选择增量爬网和完全爬网. 使用连续爬网是否会给存储库增加额外负载?连续爬网的资源 ...

  9. SharePoint 2013 手动删除爬网项目

    本文介绍如何手动删除某些搜索项目,其实删除搜索项目并不常用,主要还是在刚刚完成爬网,就删除了某些项目,然后有比较敏感需要马上删除的时候.下面,就跟着图文简单了解下手动删除已爬网的项目吧. 1.配置好搜 ...

随机推荐

  1. svn强制加注释才能提交

    进入库的hooks目录下 cp pre-commit.tmpl pre-commit 并对pre-commit加入运行权限 修改pre-commit内容如下 REPOS="$1" ...

  2. css相对定位和绝对定位

    相对定位,是对原来元素的位置为参照物进行定位: 绝对定位,如果父级没有定位,则针对HTML为参照物进行定位:如果父级有定位,则针对父元素为参照物进行定位

  3. crontab 管理指定用户的定时任务

    创建用户定时任务文件 touch /var/spool/cron/target_user crontab -u target_user /var/spool/cron/target_user 编辑用户 ...

  4. Access is denied

    昨天有学习ASP.NET MVC的publish和IIS发行网站<简单的ASP.NET MVC发布>http://www.cnblogs.com/insus/p/4466200.html  ...

  5. 《JavaScript DOM 编程艺术(第2版)》读书笔记

    阅读了本书第五章关于使用JavaScript的最佳实践,大部分的建议之前都有耳闻,不过阅读之后有更深的体会. 1.防止滥用JavaScript “不管你想通过JavaScript改变哪个网页的行为,都 ...

  6. 动态规划晋级——HDU 3555 Bomb【数位DP详解】

    转载请注明出处:http://blog.csdn.net/a1dark 分析:初学数位DP完全搞不懂.很多时候都是自己花大量时间去找规律.记得上次网络赛有道数位DP.硬是找规律给A了.那时候完全不知数 ...

  7. JS两个页面通过URL传值

    1.传递参数: window.location.href = "./list.html?id="+id; 1.接收参数: (1)接收参数函数封装 function GetReque ...

  8. SAS 删除数据和对缺失值处理代码程序

    %INCLUDE '00@HEADER.SAS'; %LET dir=..\04@Model;LIBNAME cc "&dir"; %MACRO ModelVariable ...

  9. zsh 安装powerline 主题特效

    查看当前使用的shell脚本是哪一种   echo $0 1. 安装Powerline   使用pip指令,安装方法:   pip install powerline-status   如果没有,则先 ...

  10. Linux设备驱动之mmap设备操作

    1.mmap系统调用 void *mmap(void *addr, size_t len, int prot, int flags, int fd, off_t offset); 功能:负责把文件内容 ...