搜索资源列表
-
0下载:
本文用lucene和Heritrix构建了一个Web 搜索应用程序
Lucene 是基于 Java 的全文信息检索包,它目前是 Apache Jakarta 家族下面的一个开源项目。
Lucene很强大,但是,无论多么强大的搜索引擎工具,在其后台,都需要一样东西来支援它,那就是网络爬虫Spider。网络爬虫,又被称为蜘蛛Spider,或是网络机器人、BOT等,这些都无关紧要,最重要的是要认识到,由于爬虫的存在,才使得搜索引擎有了丰富的资源。
Heritrix是一个纯由Java开
-
-
0下载:
指定论坛文本数据采集系统,可以对指定的论坛进行数据采集,并且可以根据采集结果进行分类检索-Specified the forum text data acquisition system can be specified forum for data collection and classification retrieval based on the collected results
-
-
0下载:
全文检索,可用于中文分词检索,是基于sphinx的开源。(Full text retrieval, which can be used in Chinese word segmentation, is open source based on sphinx.)
-