搜索资源列表
gmeans
- gmeans-- Clustering with first variation and splitting 文本聚类算法Gmeans ,使用了3种相似度函数,cosine,euclidean ,KL.文本数据使用的是稀疏矩阵形式. -gmeans clustering with first variation and splitting Gmeans,a text clustering algorithm, uses 3 functions,cosine,euclidean and
discriminable_matirx_builder
- 实现了粗糙集理论的可辨识矩阵的生成,输入为一个文本文件的数据方阵,以数据之间用Tab分开,用回车键分行,用Skowron用可辨识矩阵的方法实现对不分明类的生成。压缩包里面还有一个测试数据。-realization of the rough set theory of identification matrix generation, import text files to a data matrix. Data used to Tab between the separate branches
publictran
- 用Matlab人工神经网络工具箱预测公交客流量,数据可以输入成文本形式,改变数据和精度即可使用。
Sliq
- 实现数据挖掘的一个重要算法sliq。能够从文本中读出数据,并进行数据挖掘的关联规则分析。
TextClassification_wbfl_sn
- 整个实验是在Windows环境下使用delphi完成的。选取了600篇文档,数据集共分教育,商业与经济,计算机与因特网,娱乐与休闲,自然科学5个类别, 教育类包括31篇文档, 商业与经济类有93篇文档, 计算机与因特网102篇文档, 娱乐与休闲166篇文档, 自然科学有208篇文档。 目录“DataSet”:RawText中的文本分词后保存在DataSet目录。 数据表“WordsTable”:保存DataSet中所有文本的倒排文档。 其中“目录
classfication_toolbox
- 这个文本分类工具箱给出了有监督和无监督的文本分类算法清单。 这些算法为实验和合成数据提供了设计分类方法。
20newgroup数据集
- 这是一个著名的文本分类训练集.通常用于测试分类算法的性能.写论文的同志必不可少的东西~~
perceptron.rar
- 人工神经网络,多层感知器,C++源代码,可在文本中读写数据。,Artificial neural network, multilayer perceptron, C++ source code, can read and write data in the text.
MessageClassifier
- 数据挖掘 文本分类算法 很适应,可以轻松的学习和体会数据挖掘的奥妙-Data mining text classification algorithm is to adapt, you can easily learn and experience the concave data mining
supermarket
- 大四上学期做的一个人工智能里有关数据挖掘的课程设计,里面包括数据挖掘算法和数据库文件。。。对于想学好人工智能的非常有用-Last semester to do a senior artificial intelligence in the design of data mining programs, which include data mining algorithms and database files. . . The artificial intelligence is very u
kNNalgorithm
- 采用KNN分类算法对输入的文本数据进行自动分类-KNN classification algorithm using the input data for automatic classification of text
p5
- 中文文本数据挖掘研究,写的非常详细.rar-Chinese text data mining research, write a very detailed
predata3pca
- 用PCA算法对中文文本数据进行降维,然后再将结果可视化显示-PCA algorithm to reduce the dimensionality of the Chinese text data, then the results of visual display
TCA-AAAI2012-version2.0
- 首先从一个源域中获得标记文本数据,然后对目标域自动训练文本分类器从而实现跨域的文本分类-automatically train a precise text classifier for a target domain by using labeled text data from a related source domain.
机器学习与数据挖掘方法和应用
- 本书分为5个部分,共18章,较为全面地介绍了机器学习的基本概念,并讨论了数据挖掘和知识发现中的有关问题及多策略学习方法,具体地阐述了机器学习与数据挖掘在工程设计,文本、图像和音乐,网页分析、计算机病毒和计算机控制,医疗诊断、生物医疗信号分析和水质分析中的生物信号处理等方面的应用情况。本书收集众多不同领域中数据挖掘的实际案例,以此来说明数据挖掘的具体解决方法,以期为广大读者提供一个更为广阔的数据挖掘(The book is divided into 5 parts, 18 chapters, a
utf8''Traffic-sign-recognition
- 项目基于Tensorflow进行实现。 #### 文件说明: --- * input_data.py: 图片的输入 * traffic_sign_cnn.py: 用cnn进行训练分类 * testDemo.py: 用于测试已经训练出来的模型,输入单个图片输出结果,并分类到文件夹 #### 数据集说明: --- * 这里是列表文本使用的是比利时的交通标志数据集,可以网上自己找,里面有62个分类。 #### 网络说明: --- *
wikipedia_info
- wikipedia跨模态(文本图像)数据集,可用于图像标注、跨媒体检索等领域。共十类,已标注。文本特征是10维LDA特征,图像特征是128维SIFT特征(Wikipedia datasets for cross-media retrieval, image annotation etc.)
MNIST_data
- MNIST数据集是一个手写体数据集,这个数据集由四部分组成,分别是一个训练图片集,一个训练标签集,一个测试图片集,一个测试标签集;我们可以看出这个其实并不是普通的文本文件或是图片文件,而是一个压缩文件,下载并解压出来,我们看到的是二进制文件。其中包含60000张手写体识别数字图片。(MNIST data set is a handwritten data set, which consists of four parts: a training picture set, a training l
垃圾短信分类
- 基于文本内容的垃圾短信识别,对数据进行了数据清洗,分词等,进行 了模型训练及评价(Based on the text content of spam short message recognition, data cleaning, segmentation, model training and evaluation are carried out)
Python机器学习基础教程(完整电子版)
- 本书是机器学习入门书,以Python语言介绍。主要内容包括:机器学习的基本概念及其应用;实践中最常用的机器学习算法以及这些算法的优缺点;在机器学习中待处理数据的呈现方式的重要性,以及应重点关注数据的哪些方面;模型评估和调参的高级方法,重点讲解交叉验证和网格搜索;管道的概念;如何将前面各章的方法应用到文本数据上,还介绍了一些文本特有的处理方法。(This book is an introduction to machine learning, introduced in Python langua