搜索资源列表
madengine.zip
- 根据特定URL地址读取所有页面自动建立索引文件的搜索程序
readHtml
- 一个小的网络爬虫,从文件中读取URL,然后抓取网页文件-network crawler
madengine
- 根据特定URL地址读取所有页面自动建立索引文件的搜索程序 -Serach app which can read all the special urls webpages and setup up index automatically
SharpICTCLAS
- ICTCLAS分词的总体流程包括:1)初步分词;2)词性标注;3)人名、地名识别;4)重新分词;5)重新词性标注这五步。就第一步分词而言,又细分成:1)原子切分;2)找出原子之间所有可能的组词方案;3)N-最短路径中文词语粗分三步。 在所有内容中,词典库的读取是最基本的功能。ICTCLAS中词典存放在Data目录中,常用的词典包括coreDict.dct(词典库)、BigramDict.dct(词与词间的关联库)、nr.dct(人名库)、ns.dct(地名库)、tr.dct(翻译人名库
totsearch
- 淘特站内搜索引擎(C#版)基于Lucene.Net核心,通过高效的中文分词算法将数据库中内容进行分析、索引并保存至硬盘中。前台搜索时,通过读取索引文件查询,避免了传统数据库查询在高并发及海量数据下的性能问题。因前台搜索不在连接数据库,为不希望数据库放到前台的特殊用户群体提供了数据快速查询解决方案-Amoy Special Search Engine (C# Edition) Based on Lucene.Net core, through the effective Chinese word
wordbag
- 根据一个人物名单文件,查找wekipedia上相应网页,读取网页文本,并统计每个人物在每个网页上出现的次数,最终形成word bag,人物500人,运行时间6分钟左右。-from a namelist making a word bag
ulinks_2.20110305
- PHP自动链,通过读取http_referer变量获得你的网址,然后读取你的网页标题和其他信息,来达到友情连接交换的效果。搜索引擎会根据本站的链接加快收录或者更新您的网站。 PHP自动链 2.20110305 更新内容: 修正因目标站变化产生的查询错误 更新以下2个文件,覆盖既可。 /www/checkServer.php -php automatic chain v 2.20110305