搜索资源列表
分词模块
- 一个非常有用的分词模块,对研究搜索引擎的人有参考价值-a very useful segmentation module, the study of search engines reference value
中文分词函数库CipSegSDKV1.03
- 东大做中文分词的源代码,主要是用于搜索引擎的中文文本预处理-Tung Chinese-made version of the source code is mainly for the Chinese search engine Hypertext
基于自动分词的企业文档搜索引擎设计与实现
- 一个关于基于自动分词的企业文档搜索引擎设计与实现的优秀论文
中文分词技术及最新发展
- 搜索引擎通常由信息收集和信息检索两部分组成。对于英文,由于英文中词 与词之间是用空格隔开,检索起来很方便,故计算机采用了词处理的方式,大大 减轻了用户与计算机的工作量:相对来讲,中文的情形就复杂得多。中文的词与 词之间是没有分隔符的,因此若想建立基于词的索引,就需要专门的技术,这种 技术被称之为“汉语词语切分技术”。根据是否采用词语切分技术,中文搜索引 擎又可分为基于字的搜索引擎和基于词的搜索引擎。由于中文信息处理的特殊 性,开发中文搜索引擎决不像西文软件的汉化那样简单。在实
搜索引擎分词支
- 搜索引擎分词支持Lucene.net.rar
网页搜索引擎
- K-PageSearch是由Kwindsoft在2007年自主研发的专为行业、专类信息检索设计的网页搜索引擎。主要功能特点:网络蜘蛛、定向采集、正文提取、中文分词、全文索引、相关度排序、网页快照、相关搜索、竞价排名;后台数据库采用Microsoft SQL Server,静态化搜索系统设计采用XML数据岛缓存搜索结果提高系统的稳定性和性能、节省服务器资源减轻系统负担。 网络蜘蛛 K风蜘蛛组件包括三大功能模块:链接采集、网页分析、无效网页扫描; 自动识别GB2312、BIG5、UTF-8、Unic
中文分词
- 搜索引擎中文分词
仿百度搜索引擎NET 2.0
- 军长搜索是一款基于 Microsoft .NET 2.0 开发的垂直搜索引擎。系统有着强大的文件和数据库引索能力,支持中英文分词,文件相似度分析排序,文件数据时实监控与更新,恐龙级的引索速度和毫秒级的搜索速度,搜索结果高亮显示,系统分两部分组成第一部分是C/s的搜索蜘蛛,第二部分是B/s的 WEB用户搜索显示界面,其整个系统的工作过程完全模仿了超级搜索引擎的工作原理。系统支持对站内和全网的引索。
本程序可以实现对已有网页的信息提取和分词
- 本程序可以实现对已有网页的信息提取和分词,结果会导入叫做res.txt的文件中。本程序是开发搜索引擎的前期工作。-This procedure can be achieved on existing Web information extraction and segmentation, the results into a file called res.txt. This program is the development of the preliminary work the searc
NETspider
- 军长搜索是一款基于 Microsoft .NET 2.0 开发的垂直搜索引擎。系统有着强大的文件和数据库引索能力,支持中英文分词,文件相似度分析排序,文件数据时实监控与更新,恐龙级的引索速度和毫秒级的搜索速度,搜索结果高亮显示,系统分两部分组成第一部分是C/s的搜索蜘蛛,第二部分是B/s的 WEB用户搜索显示界面,其整个系统的工作过程完全模仿了超级搜索引擎的工作原理。系统支持对站内和全网的引索。-Search is a commander based on the Microsoft. NET
Source_Code
- 中文分词系统分析库,可以对UTF8表述的中文文字进行分词操作, 支持外挂的词库和手动干预(回调方式)的加权处理。 可用于搜索引擎的基础分词开发-Chinese word segmentation system analysis libraries, can be expressed UTF8 Chinese text segmentation operation, support plug and manual intervention in the thesaurus (callback me
fenci
- 中文分词 中文搜索引擎中的关键字识辨-Chinese word segmentation in Chinese search engine keywords that identify
Web
- WEB搜索引擎 DATATEST目录为数据目录 nSearch 目录为 源代码目录 nSearch/Bin 目录为 可执行版本目录 具体请参照 文档.pdf 运行环境 Microsoft .NET Framework 2.0 C# 开发 注意:必需步骤 nSearch\xOcx\install.bat 加载分词组件-err
SentenceSplit
- 中文分词组件。小型搜索引擎用中文分词组件, 内带词库-Sentence Split
yssfor
- 1、真正的搜索引擎: 2、 网页蜘蛛灵活高效。 3、可控的正文提取。 4、可控的中文分词及新词学习。 5、无人值守。 6、BS架构,虚拟主机支持。 7、强大功能,简单使用。 8、个性化。 9、增强网站软实力-1, the real search engine: 2, Web Spider flexible and efficient. 3, the body of controllable extraction. 4, controlled the Chinese
WawaTextCluster
- 关键词提取算法-搜索引擎技术代码实例。该算法由C#编写,采用经典的TF-IDF权重公式计算并确定关键词,对研究搜索引擎的初学者有较大帮助。-Keywords extraction algorithm- Code examples of search engine technology. The algorithm from C# to prepare, using the classical TF-IDF weighting formula and to identify words.
src
- 利用lucene编写的一个简单搜索引擎,能够中文分词。-a simple search engine built with lucene.
qygl
- lucene 中文分词公用组件,对搜索引擎开发中中文分词做了很好的封装。-Chinese word segmentation lucene common components, the development of the Chinese search engine has done a very good segmentation of the package.
worddivision
- 自己写的一个关于智能分词算法的文件. 对于想研究搜索引擎的朋友来说必不可少-a algorithm about word division
搜索引擎
- 一款简单的搜索引擎,能够实现爬虫 热词推荐 分类 pagerank等(A simple search engine, can implement the reptile hot word recommendation classification PageRank and so on)