搜索资源列表
ems
- 建模优化与评价的理论基础学习,用于统计分析和数据挖掘-Based learning theory and modeling optimization and uation for statistical analysis and data mining
three_gram_train
- 直接从文本文档中统计建立三阶语言模型的MATLAB程序-Text document directly MATLAB programs set up third-order statistical language model
data_mining
- 这是一个R的程序 文本挖掘的作业,用来统计新闻类别再进行分类 -This is an R program text mining operations for Statistical News category then classified
Lmethod
- L-method in R statistical language. Implementation of the L-method algorithm for finding the best number of clusters in hierarchical clustering. Algorithm is described here: Salvador, S. and Chan, P., 2004. Determining the number of clusters/seg
R-for-Beginners
- R语言是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具,提供相关学习资料-R Language is a free GNU system belong, free, open source software, it is an excellent tool for statistical computing and statistical mapping to provide relevant learning materials
Top-10-Algorithms-in-Data-Mining
- 在2006年9月召开的ICDM会议上,邀请了ACM KDD创新大奖(InnovationAward)和 Top 10 Algorithms in Data Mining IEEEICDM研究贡献奖(Research Contributions Award)的获奖者们来参与数据挖掘10大算 法的选举,每人提名10种他认为最重要的算法-Classification,Statistical Learning,Top 10 Algorithms in Data Mining,material
programme
- 将彩色图转化成灰度图,在此基础上统计连通区域,根据一定的统计特性,设置一定的准则,检测出人脸。-The color map is converted to grayscale, communicating regional statistics on this basis, according to certain statistical properties, set certain criteria, detects a person' s face.
BNT_SLP.tar
- Learning methods for Bayesian Networks and statistical tools
k_nn
- kNN的思想:计算待分类的数据点与训练集所有样本点,取距离最近的k个样本;统计这k个样本的类别数量;根据多数表决方案,取数量最多的那一类作为待测样本的类别。距离度量可采用Euclidean distance,Manhattan distance和cosine。-kNN The idea is simple: the training set and calculated data points to be classified all sample points taken the neare
House_price
- 主要是对二手房房价的因变量房价和其相关的因变量之间的关系进行简单的描述统计分析(Mainly for the second-hand house price dependent variable housing prices and its related variables of the relationship between the simple descr iption of statistical analysis)
重抽样与自助法
- 当数据抽样于非正态分布时,如未知或混合分布、样本量过小、存在离群点、基于理论分布设计合适的统计检验过于复杂且数学上难以处理等情况,这时基于随机化和重抽样的统计方法可派上用场。(When the sampling data in non normal distribution, such as the unknown or mixed distribution, the sample size is too small, there are outliers, based on the theor
主成分和因子分析
- 主成分分析是多元统计分析中用来分析数据的一种方法,它是用一种较少数量的特征对样本进行描述以达到降低特征空间维数的方法(Principal component analysis is a method of data used in multivariate statistical analysis, it is describing the samples with characteristics of a small number of methods to reduce the dimens
Multivariate analysis
- 里面包括了一些常见的多元统计分析程序,适合简单快捷的数据探索和挖掘分析(It includes some common multivariate statistical analysis programs, suitable for simple and fast data exploration and mining analysis.)
聚类
- 相似性划分,Q型聚类,是理想的多变量统计技术,主要有分层聚类法和迭代聚类法。 聚类分析也称群分析、点群分析,是研究分类的一种多元统计方法。(Similarity classification and Q clustering are ideal multivariate statistical techniques, including hierarchical clustering and iterative clustering. Cluster analysis, also known a
统计分析与SPSS的应用-薛薇
- 《统计分析与spss的应用第五版》深入浅出地讲解统计方法,基于应用案例阐述数据分析的一般思路和SPSS操作实践,使读者知其然更知其所以然,是本书一直坚持的风格。本书的特色在于:注重方法核心原理的讲解,突出以统计原理明晰为前提的SPSS实操。基于典型统计分析案例,循序渐进地引导读者利用SPSS实现数据的组织、整理、描述和建模分析。旨在帮助读者领会统计分析方法精髓,掌握SPSS软件操作,拥有利用SPSS解决实际数据分析问题的能力。(Statistical analysis and the appli
TianCheng-master_chusai_qingyu
- 2018年甜橙金融杯大数据建模大赛初赛方案:通过追踪时间、设备、ip和经纬度等属性的变化来建模判断UID是否为黑产链 ## 代码说明: - gen_stat_feat.py 统计特征 - gen_w2v_feat.py word2vec特征 - lgb_train.py lgb训练模型 两份特征建模加权8:2比例融合即可0.792+,单独统计特征加UID列建模即可0.795。(The preliminary scheme of the 2018 Sweet
