搜索资源列表
robot
- 用robots.txt文件设置使BBS只有首页被搜索引擎收录
ThesaurusAnalyzer
- lucene中文分词代码 带有19万字的词典 本分词程序的效果取决与词库.您可以用自己的词库替换程序自带的词库.词库是一个文本文件,名称为word.txt. 每一行一个词语,以#开头表示跳过改行.最后保存为UTF-8的文本.
src
- 从网上找了很久,没找到合用的,就自己写了一个根据配置文件keyword.txt批量多线程下载图片的程序。比较简单,但很实用。不用一个个从image.google.com或者images.baidu.com上扒拉图片了。下次该给起个很酷的名字,叫图片吸血鬼,好像有了
本程序可以实现对已有网页的信息提取和分词
- 本程序可以实现对已有网页的信息提取和分词,结果会导入叫做res.txt的文件中。本程序是开发搜索引擎的前期工作。-This procedure can be achieved on existing Web information extraction and segmentation, the results into a file called res.txt. This program is the development of the preliminary work the searc
Scramble_List
- 字符串 匹配搜索工具 匹配给定的 scamble-list文件中的词语 在某个给定文件中出现的形式和次数 用法为 ./scrable.exe file.txt scrable.txt file.txt 和 scrable.txt 请自行提供,英文,任意大小-Match the search string matches a given scamble-list word document In a given document occurs in the fo