搜索资源列表
JAVA实现文本聚类,用到TF/IDF权重
- JAVA实现文本聚类,用到TF/IDF权重,用余弦夹角计算文本相似度,用k-means进行数据聚类等数学和统计 知识。,JAVA realization of text clustering, using TF/IDF weight, calculated using cosine angle between the text of similarity, using k-means clustering for data such as mathematical and statistical
sourcearesult
- 用JAVA实现k-means算法,其中聚类方法使用余弦相似度-Using JAVA k-means algorithm, clustering method using the cosine similarity
ComputerDecision
- 计算文本的余弦相似度,进行文本分类 。两文本相似度越接近1,越有可能被分为1类-Calculated text cosine similarity for text classification
1661a86897bc
- 余弦相似度算法(余弦相似度(cosine similarity)是资讯检索中常用的相似度计算方式,可用来计算文件之间的相似度,也可以计算词汇之间的相似度,更可以计算查询字串与文件之间的相似度。) 这是一个基于Jcseg分词算法的余弦相似度例子,运行com.fenci.test.IKMainTest可以查看运行结果。-please do it by yourself
文本查重
- 类说明: 名称:Contrast 描述:用于两文本进行各种方法的相似度对比。 相似度对比方法: 1.EditDistance编辑距离 2.CosineSimilarAlgorithm余弦定理 3.JianDanMoHu模糊匹配 4.综合对比,三种方法皆对比一遍,取平局值 方法:String getDegree(文本1,文本2,使用方法id)返回值为:字符串型的,相似度百分比(Class descr iption: Name: Contrast Desc
Kmeans
- 算法思想:提取文档的TF/IDF权重,然后用余弦定理计算两个多维向量的距离来计算两篇文档的相似度,用标准的k-means算法就可以实现文本聚类。源码为java实现(Algorithm idea: extract the TF/IDF weight of the document, then calculate the distance between two multidimensional vectors by cosine theorem, calculate the similarity
java-string-similarity-master
- similarity cosine ontology