搜索资源列表
LuceneDesktop_1.0
- lucene的检索算法属于索引检索,即用空间来换取时间,对需要检索的文件、字符流进行全文索引,在检索的时候对索引进行快速的检索,得到检索位置,这个位置记录检索词出现的文件路径或者某个关键词。 -Lucene search algorithm belonging to Index Search, which uses space in exchange for time on the need to retrieve a document, character stream full-text
renew
- 文件扩展名更改程序的功能:在命令行中输入renew dir old new,应用程序的名字为renew.exe,后面的dir,old和new是三个命令行参数,dir代表一个全路径名,old和new代表文件扩展名,在路径为dir中搜索所有扩展名为old的文件,如果找到将扩展名改为new而文件名不变。在读入参数的过程中检验路径是否合法,若不合法则输出提示并退出,如果用户输入的参数不符合要求也输出提示并且退出程序;在修改文件扩展的过程中如果遇到重名的文件,提示用户是否覆盖,若选择覆盖则删除原文件,更改
SharpICTCLAS
- ICTCLAS分词的总体流程包括:1)初步分词;2)词性标注;3)人名、地名识别;4)重新分词;5)重新词性标注这五步。就第一步分词而言,又细分成:1)原子切分;2)找出原子之间所有可能的组词方案;3)N-最短路径中文词语粗分三步。 在所有内容中,词典库的读取是最基本的功能。ICTCLAS中词典存放在Data目录中,常用的词典包括coreDict.dct(词典库)、BigramDict.dct(词与词间的关联库)、nr.dct(人名库)、ns.dct(地名库)、tr.dct(翻译人名库
spider2006
- 可配置:线程数、线程等待时间,连接超时时间,可爬取文件类型和优先级、下载目录等。 状态栏显示统计信息:排入队列URL数,已下载文件数,已下载总字节数,CPU使用率和可用内存等。 有偏好的爬虫:可针对爬取的资源类型设置不同的优先级。 健壮性:十几项URL正规化策略以排除冗余下载、爬虫陷阱避免策略的使用等、多种策略以解析相对路径等。 较好的性能:基于正则表达式的页面解析、适度加锁、维持HTTP连接等。 -C# spider.
NWebCrawler
- 网络爬虫, * 可配置:线程数、线程等待时间,连接超时时间,可爬取文件类型和优先级、下载目录等。 * 状态栏显示统计信息:排入队列URL数,已下载文件数,已下载总字节数,CPU使用率和可用内存等。 * 有偏好的爬虫:可针对爬取的资源类型设置不同的优先级。 * 健壮性:十几项URL正规化策略以排除冗余下载、爬虫陷阱避免策略的使用等、多种策略以解析相对路径等。 * 较好的性能:基于正则表达式的页面解析、适度加锁、维持HTTP连接等。-Web crawler