搜索资源列表
Measuring-the-SemanticSimilarity
- 本文提出了一个以知识为本 文本的语义相似性测量方法。虽然是一个大 以前的工作机构,专注于寻找概念的语义相似度 也就是说,这些字为导向的方法应用到文本相似不 尚未探讨。在本文中,我们介绍一种方法,组合成一个文本到文本度量字,字的相似性度量,我们表明,这种方法 优于传统的文本相似度 基于词法匹配的指标。-Thispaper presents a knowledge-based method for measuring the semantic-similarity oft
TextSimilarity
- 文本相似度计算程序,有图形界面,基于向量-text similarity
CosineSimilarAlgorithmzf
- 这里会用到TF/IDF权重,用余弦夹角计算文本相似度,用方差计算两个数据间欧式距离,用k-means进行数据聚类等数学和统计知识。-Here will use the TF/IDF weight, with cosine angle calculation of text similarity, with the variance of the two data between the data of the European distance, with K-means data cluste
cos
- 计算词向量间的余弦相似度,用于语义文本挖掘 。(Calculate the cosine similarity between word vectors for semantic text mining.)
English
- 包括了原始英文文档、删除特殊符号、分词、词干化、计算相似度等文本预处理后产生的文档,总的数量是500个英文文档(Including the original English document, delete special symbols, such as text segmentation, a preprocessed documents produced, the total number of 500 English document)
Chinese
- 是做文本预处理时候利用爬虫收集的500个中文文档,包括分词部分、去掉特殊符号部分以及最后的相似度计算等(It is the 500 Chinese document collected by a crawler for text preprocessing, including the part of the participle, the removal of the special part of the symbol, and the final similarity calculatio
文本相似度计算方法研究综述.pdf
- Text similarity; semantic similarity; ontology; word bag model; neural network ; thesis review
协同过滤算法
- 文本聚类(Text clustering)文档聚类主要是依据著名的聚类假设:同类的文档相似度较大,而不同类的文档相似度较小。作为一种无监督的机器学习方法,聚类由于不需要训练过程,以及不需要预先对文档手工标注类别,因此具有一定的灵活性和较高的自动化处理能力,已经成为对文本信息进行有效地组织、摘要和导航的重要手段,为越来越多的研究人员所关注。(Text clustering document clustering is based on the well-known clustering assum