资源列表
字符流编码识别
- 读取字节流,识别字节流使用汉字编码,并提供转换方法。
相似度计算
- 中文相似度计算
java实现汉字转拼音
- 该包内有一个完整的汉字转拼音的程序,用java实现的。如果想修改成其他的语言也是非常的容易。
反射变换
- 四参数仿射变换
stopWord.是关于中文文本切词的资料
- 是关于中文文本切词的资料,排除了部分无意义的词,Chinese text on the segmentation of information, rule out the possibility of some meaningless words
Free ICTCLAS 中科院的分词软件ICTCLAS
- 中科院的分词软件ICTCLAS,自己已经把他用到程序里了感觉效果很好,分享给大家-Chinese Academy of Sciences of the sub-word software ICTCLAS, he has used his program works well in a sense, we share
lucene.rar
- java中lucene的源代码,用于文本分类的一个很好的工具,是由一个著名的语言研究者编写的,lucene code for java
MKFON.为特定文本文件中的汉字生成小汉字库
- 为特定文本文件中的汉字生成小汉字库。目前,GBK取字模程序段有问题,请高手指正。,Generates a small hz lib for Chinese characters in a given text file. At present, GBK font data getting is problematic, please correct me master.
pymmseg.用python写的分词程序
- 用python写的分词程序,实现的是最大匹配方法,简单易用,Using python to write the sub-term process of implementation is the largest matching method, easy-to-use
CJKAnalyzer.分词系统(JAVA开发
- 一个很好用的分词系统(JAVA开发),词表可以扩展。,A good word to use the sub-system (JAVA development), the term sheet can be extended.
SSD1289_16BIT_GUI SSD1289 codes ive wrote
- SSD1289 codes ive wrote, v obshti linii pisha toq bul0-6it, za da drupna drug bul