搜索资源列表
TextCategorization
- 基于朴素贝叶斯算法实现的中文文本分类程序。可以对中文文本进行分类识别,使用时先对分类器进行训练,然后进行识别。该Beta版本仅支持对3类文本进行分类,使用简单的中文分词方法,本程序尚不具备实用性,用于算法研究和改进。-based on Bayesian algorithms to achieve the Chinese text classification procedure. Can the Chinese text classification identification, the us
Classifier4J-0.6-dist
- Classifier4J是一个很好的基于java的分类器,里面有Native bayes和KNN等方法的文本分类.另外还 提供了分词和自动摘要等功能
TextCategorizer
- 自己实现的中文分词器、贝叶斯文本分类器 附分词词典、中文停用词表 用于数据挖掘学习、交流 Visual Studio 2010 开发-Realize his Chinese word segmentation, Bayesian text classifier the attached word dictionary, the Chinese stop word table is used for data mining learning, exchange of the Visua
Stemmer
- 在英语中,一个单词常常是另一个单词的“变种”,如:happy=>happiness,这里happy叫做happiness的词干(stem)。在信息检索系统中,我们常常做的一件事,就是在Term规范化过程中,提取词干(stemming),即除去英文单词分词变换形式的结尾。 应用最为广泛的、中等复杂程度的、基于后缀剥离的词干提取算法是波特词干算法,也叫波特词干器(Porter Stemmer)。详见官方网站。比较热门的检索系统包括Lucene、Whoosh等中的词干过滤器就是采用的波
NBclassfier
- 贝叶斯情感分类器,基于五倍交叉法来验证。程序可以直接运行,改程序是在基于已经分词的情况下实施的。-Bayesian classifier, emotion to verify five times based on the crossover. Program can be run directly, the program is based on the segmentation of the case.