搜索资源列表
htmlparser
- HTML的解析器,是Majestic-12分布式搜索引擎的一部分。作者Alex Chudnovsky, Majestic-12 Ltd (UK)。这个是3.0版本,性能经过多次优化,文档也比较全。也可以到http://www.majestic12.co.uk下载。-HTML parser, Majestic-12 distributed search engine part. Author Alex Chudnovsky, Majestic-12 Ltd (UK). This is versio
MyDTDReader
- 对DTD文档进行解析,得到一个哈希表,其中包括关键字及其编码。-DTDparser
ExtractUtil
- 做搜索时经常用到的extract解析组件工具,将异构文档解析为string从而方便写入索引 -Do search often used analytical components, the extract of the heterogeneous document parsing string by the write index