搜索资源列表
ContentAnalyzer
- 搜索引擎正文提取程序,通过html分析和正则,去掉html代码,保留网页正文,只针对中文有效。英文稍加修改即可使用。-The body of the search engine extraction process, through analysis and regular html remove html code to retain the page text, only effective against the Chinese. Slightly modified to use Engl
joyhtml-0.2.2
- html正文提取,利用匹配来进行正文的抽取-html text extraction, the use of matching to carry out the extraction of the body
regularexpontheweb
- regular expresions for optimizing text extraction on the web
SearchEngine
- dySE 是个开源的 Java 小型搜索引擎。该搜索引擎分为三个模块:爬虫模块、预处理模块和搜索模块。其中详细阐述了: 多线程页面爬取、正文内容提取、文本提取、分词、索引建立、快照等功能的实现。-dySE is an open source Java small search engines. The search engine is divided into three modules: crawler module, pretreatment module and search module
PhpGuest2002
- 系统是基于文本存储数据,系统登录采用了Cookie管理,网页的显示采用模板化管理,多用户留言管理系统,真实 IP 提取,使用代理也逃不出手心 :) 但这个功能对一些代理服务器没用,悄悄话功能(只有版主才可以看到),oicq 在线是否显示,可以设定注册是否开启,增加全文搜索功能,可以使用关键字对数据库全文进行搜索, 加入了图片自动缩进,对齐功能,自动URL分析-System is a text-based data storage, system login using the Cookie Ma
7287phpguest
- 文本存储数据,系统登录采用了Cookie管理,网页的显示采用模板化管理,多用户留言管理系统,真实 IP 提取,使用代理也逃不出手心 :) 但这个功能对一些代理服务器没用,悄悄话功能(只有版主才可以看到),oicq 在线是否显示,可以设定注册是否开启,增加全文搜索功能,可以使用关键字对数据库全文进行搜索,加入了图片自动缩进,对齐功能,自动URL分析 加入了类论坛树型显示-Text data storage, system login using the Cookie Manager, disp
源代码
- 论坛正文提取从互联网海量数据中抽取有意义、有价值的数据和信息,从而能更好的利用互联网资源。(Forum text extraction)