目前高校网站或者一般网站中使用的站内搜索引擎基本有三大类:一种是使用 Google的站内搜索引擎服务(由 Google Search Appliance 驱动)。(如:清华大学、上海交大、浙江大学等等)。一种是使用原始的文件索引技术,类似于在 word 中查找关键字的方法对文档进行搜索,因此只能搜索一些办公通知(如:中科院研究生院) 。最后一种是只能搜索校内各个下属网站主页(如:武汉大学,相当于查询一个主页名字和网站地址的映射表)。 后两种不能称之为真正意义上的站内搜索引擎。 比较特殊的是北京大学的站内搜索使用了自己开发的天网搜索引擎,属于真正意义上的
站内搜索引擎。
b) 项目目的
针对中科院旗下网站,部署一个类似 Google 站内搜索和北大天网搜索引擎的站内式搜索引擎。用户通过输入关键字能够检索到内容相关的站内网页及图片、文档等多种文件,并能够对结果进行排序、分类和整理,最终通过浏览器将结果返回给用户。
c) 已有的解决方法
从目前调查结果来看,北大天网搜索引擎返回结果中不能直接提供 MS word、pdf等文件的直接链接,Google 站内搜索可以(通过点击返回的结果标题,可以直接下载 doc、pdf等文件)。但Google站内搜索没有提供网页快照功能,天网提供了。 其他高校如华中科技大学的站内搜索也能够对站内的网页进行搜索,但是也只能处理网页,不能处理其他类型的文件。中科院以后的站内搜索也是同样的情况。 除了 Google 的站内搜索服务,目前另一位比较优秀的站内搜索引擎是基于开源检索工具改造和搭建的。如: 美国俄勒冈州立大学……