搜索资源列表
classifier-1.12
- 能对从Google中搜索出来的文本进行聚类,提供了Java包,及调用源代码.-can right from the Google Search for the text clustering, a Java package, source code and call.
HanziSearch
- 以2000年的人民日报为检索对象,查找所有包含所要检索汉字字串的内容,并输出到searchresult文本文件,并统计条目数-2000 to the People's Daily to retrieve objects that you have to include all search strings of Chinese characters, searchresult and exported to text files, and several statistics entry
Source_Code
- 中文分词系统分析库,可以对UTF8表述的中文文字进行分词操作, 支持*的词库和手动干预(回调方式)的加权处理。 可用于搜索引擎的基础分词开发-Chinese word segmentation system analysis libraries, can be expressed UTF8 Chinese text segmentation operation, support plug and manual intervention in the thesaurus (callback me
googrep.tar
- 类似于google命令行的字符串搜索,对于全文搜索有参考意义-Google command line similar to the string searching, full text search for the reference value
Lucene.Net.Analysis.Cn
- Lucene是什么? Lucene是Apache组织的一个用JAVA实现全文搜索引擎的开源项目。后来有人将Lucene移植到。Net语言。 Lucene是一个信息检索的函数库(Library),利用它你可以为你的应用加上索引和搜索的功能。 Lucene的使用者不需要深入了解有关全文检索的知识,仅仅学会使用库中的一个类,你就为你的应用实现全文检索的功能。 不过千万别以为Lucene是一个象google那样的搜索引擎,Lucene甚至不是一个应用程序,它仅仅
qw
- 全文检索工具,用来检索全文以提取句子和自动分词-Full-text search tool, is used to retrieve the full text to extract sentences and automatic word
TF-IDF
- The tf–idf weight (term frequency–inverse document frequency) is a weight often used in information retrieval and text mining. This weight is a statistical measure used to evaluate how important a word is to a document in a collection or corpus. The
NLU
- 内容很多,包括文本分类、机器翻译、自然语言理解、搜索引擎、词法分析等资料-A lot of content, including text classification, machine translation, natural language understanding, search engine, lexical analysis, etc.
