目录

一、 基本情况

二、 详细比较项目

2.1 首页易用性

2.2检索分类

2.3搜索结果操作

2.4用户参与度

2.5 用户输入的容错和提示

2.6搜索能力比较项目

三、 其他学术检索引擎的优点

一、基本情况

该分析报告对线上近二十种学术搜索引擎产品进行了分析,并且着重以较大篇幅来衡量如下四个学术搜索引擎的产品设计:

a) Microsoft Academic Research(MAR)

b) Google Scholar (GS)

c) CiteseerX (CX)

d) U Trier DBLP (DBLP)

注:括号内为本文所使用的简称,并非代表官方简写。

本次使用的检索测试关键字是:

a) 领域关键字:Optical flow

b) 作者关键字:Berthold K. P. Horn

c) 论文关键字:Determining Optical Flow

在本报告的第三部分会分析其他的搜索引擎不同于这四个引擎的功能特性。

二、详细比较项目 2.1 首页易用性

在四项比较中,前三者都是在首页有搜索栏,便于用户快速输入,而DBLP则将前三者的Advanced Search项目和索引首先呈现给用户:

学术检索产品比较分析

图1 DBLP首页

个人倾向前三者,因为用户访问该搜索引擎可能并没有想清楚是根据作者或者论文名称来进行搜索。

2.2检索分类

在分类中,对于用户易用性,MAR直观的告诉了用户它的四大检索分类,并且分类合理。

学术检索产品比较分析

图2 MAR检索分类

对比中,GS分类只有Articles ( include patents) 和Legal opinions and journals,分类也不如MAR直观;CX则与MAR风格近似,但是分类不同,个人认为后者分类更为合理直观;DBLP则采用索引的形式进行分类。DBLP提供了快速检索某一个Entry Point,例如Operating System,在所有渠道(书籍、杂志、会议)中出现的文章,例如,欲找ACM Transactions on Computer Systems (TOCS)这本杂志中有关Operating System的话题,则可以通过By Subject后选择Operating System后在Journal上选择相应杂志名字即可

学术检索产品比较分析

图3 DBLP检索

比如,欲找Communications of the ACM的第32期,则可以快速定位,但是这样的需求并不多见。

而CX和GS并未提供该功能,即使是在高级搜索选项中也未发现提供如MAR完整的功能。

2.3搜索结果操作 2.3.1排名:

MAR、 GS、CX默认是对关键字匹配度和引用率的综合考虑后进行搜索结果的排名,而DBLP则是以发表年最近来进行排名,前三者较为符合用户期望,学术论文的引用率和搜索关键字的匹配自然是用户最关键的。

2.3.2进一步缩小搜索的方式:

MAR提供了根据时间的方式(如图四),而在右边栏中关于相关作者、会议、杂志这三个功能上并非提供了缩小搜索范围的工作,只是一些类似超链接的功能,提供相关信息,例如某个作者的其他文章和研究领域信息(不过好像不是这么简单,因为在选择Related Conferences或者Related Journals会出现排序的选项。但可以确定的是不是进一步缩小搜索方式,因为进一步分类得到的检索结果总和超过了总数)。GS也提供了根据时间的方式,有意思的是他是since的方式,也就是只能制定自从某年的文章,并且还提供了一些法律方面的过滤选项,这与其产品定位有关。CX索性没有这个功能。DBLP在这个功能上最为全面,用户可以根据关键字分解、作者、渠道、确切年份对自己的搜索结果进行更为精准的定位。我们假设一个场景:我希望找Brian G. Schunck写的关于Optical flow 的论文,则相比之下该功能最为贴近用户需求。

学术检索产品比较分析

图4 MAR中右边栏提供的功能,但它只是提供了参考

2.3.3搜索结果的进一步追踪:

MAR提供了RSS订阅该关键词的功能。而GS则没有对应功能。CX在这方面表现最佳,不但提供了RSS,而且还提供了Atom订阅输出。DBLP则无此功能。

2.3.4 搜索结果的排序:

MAR只有在选择Related Conferences或者Related Journals中才会出现,提供了三种排序方式,如下图:

学术检索产品比较分析

图五MAR提供的排序方式

CX提供了Order by: Citations | Year (Descending) | Year (Ascending) | Recency四种方式排序,较为全面,不过没有Rank这个综合考虑的选项。DBLP未提供该功能。

2.3.5 搜索结果的呈现

MAR对检索结果的呈现表现为论文名称、发表年、引用数、作者、关键词在文中出现的句子摘要,发表处,另外还可能有下载的链接(大多是Citeseer提供)。对比中,GS除了上述呈现内容外,还有一个All version选项,以方便用户搜寻更为完整或显示度更清晰的版本,如下图所示:

学术检索产品比较分析

图5 GS提供的All versions功能

在CX中,有一个蛮有意思的功能,这个功能类似网上购物时的购物车,你将所有你喜欢的论文加入其中,在结束检索时去“结账”,将欲研究的论文信息“打包”带走(链接在右上角的MetaCart,以BibTeX或者Refer/BibIX格式导出,以便Latex和EndNote等工具导入)。这个功能既方便了使用Latex完成论文时导入参考文献,又方便了导入平时整理论文时常用的笔记工具,非常实用。

学术检索产品比较分析

图7 CX提供的MetaCart功能

对于这个功能,官方的说法是你不但可以导出,还可以利用这个功能作为一个暂存最近浏览的记录,以便后期查找。

DBLP中规中矩,缺憾的地方是没有关键字在文中出现句子的摘要,导致用户在检索时对所查论文是否符合自己的需要没有把握。

2.3.6检索结果的进一步点击

在用户点击所感兴趣的检索结果,MAR进一步提供了详细的摘要,与未点击之前的页面信息量基本不变,简单明了,在点击作者后可以出现作者的研究兴趣和所在机构,以及其他相关论文信息(例如代表论文质量和影响力的H/G信息,这一点在CX中的作者检索亦提供),甚至提供了导出Embedded在HTML中的功能,极为方便。值得注意的是提供了作者出版的活跃程度和被引用程度(以年为单位),非常贴心。而GS则直接链接到可下载的PDF或者相应数据库或研究机构页面。DBLP无法进一步点击。相比之下,CX在这方面的表现则有它自己的特点:

1) 首先,直接呈现给用户引用该文的文章,这一点与MAR的处理不同,MAR需要进一步点击。

2) 提供了对LaTex和EndNote等工具的导出格式

学术检索产品比较分析

图8 CX提供的导出功能

3) 提供了该论文被引用的年份的数据统计

学术检索产品比较分析

图9 CX提供的被引用数据统计功能

4) 支持多达六种的书签,最大化的方便用户收藏该论文。

学术检索产品比较分析

图10 CX提供的论文收藏功能

5) 相关文档的部分又提供了“共引”和相关书目两大功能,方便用户查找相关书目和论文。

6) 在Version History中有该论文的详细发表信息,并且用户可以积极参与这个项目进行修订(用户参与度的话题将在随后讨论)。

2.4用户参与度

MAR提供了feedback功能,用户可以选择三种反馈类型之一后填写具体意见建议。Google学术搜索则提供了“图书馆链接计划”和对学术著作出版商的支持,并且提供了“让 Google 学术搜索的强大功能使您的网站如虎添翼”为用户的个人网站提供快速学术检索入口。CX则提供了Submit Documents,FeedBack,并且充分利用了CX账户对论文信息进行用户修改错误提交,监控变更等功能,甚至提供了用户可添加的Tags,这些在CX账户中都能长久保存。针对这一点可以建议MAR结合Live账号做进一步用户参与度的功能,譬如将论文自动更新至共享空间,

DBLP提供了普通的Feedback功能。

2.5 用户输入的容错和提示

MAR在错误输入作者名字时会给用户提示,例如,输入Berthold K. P. Hornd(最后的d不应该有),MAR就会给出提示,如下图:

学术检索产品比较分析

图11 MAR的错误提示功能

GS同样也具备了这个功能。

CX在耗时很久后按照其最符合的作者(Berthold K. P. Horn)就行检索结果呈现,DBLP直接返回查找不到对应结果。

2.6搜索能力比较项目

因为没有权威数据和翔实资料,并且每个搜索引擎对关键字的匹配处理算法不同, 这一部分无法用人工比较检索数字的大小的方法来客观公正的评判。

三、其他学术检索引擎的优点

SCIRUS对检索结果提供了多项选择的操作,比如将感兴趣的多个检索结果放入电子邮件发出,保存在最近浏览的记录中和批量导出信息。并且在进一步缩小检索结果的上,还提供了根据文件格式进行过滤的措施:

学术检索产品比较分析

图12 SCIRUS的文件格式过滤功能

INFOMINE提供了用户对某一个检索结果的评论功能。并且在提供的检索条件上较为强大:

学术检索产品比较分析

图13 INFOMINE提供的检索选项

OAIster提供了更多的分享选项,供用户使用:

学术检索产品比较分析

图14 OALster提供的分享功能

Vascoda则在进一步缩小检索结果方面做的很好,提供了诸如分类细化(支持多领域检索)、出版年、作者、语言、发行类型等。