搜索资源列表
mlct_public
- 这是一个基于Java的分词、N-gram统计、分段 、分句等功能的程序,支持多种语言-This is a Java-based segmentation, N-gram statistics, the sub-clause of the function procedures, multilingual support
xdgf
- 字符处理这是一个基于Java的分词、N-gram统计、分段 、分句等功能的程序,支持多种语-characters to deal with this is a Java-based segmentation, N-gram to statistics, subparagraph Clauses function procedures, multiple language support
collTextJ
- 编写的一些程序心得--JAVA版的-prepared by the experience some of the procedures -- the version of Java
stem_java
- 这是英文提取词根的原程序,该程序使用java编写写。-This is the root of the English original extraction process, which was prepared using java.
mysql-connector-java-5.0.8.tar
- mysql jdbc驱动程序 mysql jdbc驱动程序 mysql jdbc驱动程序
txtedit
- 本软件设计一个面向大众用户的文本输入器,拥有英文输入,基本的文本编辑,软件可以支持鼠标的全面操作,使用户能够一个类似WINDOWS的环境进行软件的操作,能够流畅的输入英文字符、数字、各类在英文中常见的符号,同时可以使用鼠标进行文字的选取操作。 本软件是使用TURBO C2.0编写的拥有独立界面的EXE文件,拥有仿WINDOWS98的界面,和DOS时代的WPS文本编辑器有非常的相似性。并且,本系统符合当今的软件使用习惯,并且完全支持鼠标的操作,所有的编辑工作除了文字输入以外都可以使用鼠标,并且
segment
- segment,一个简单的中文分词程序,命令行如下: java -jar segmenter.jar [-b|-g|-8|-s|-t] inputfile.txt -b Big5, -g GB2312, -8 UTF-8, -s simp. chars, -t trad. chars Segmented text will be saved to inputfile.txt.seg
java实现汉字转拼音
- 该包内有一个完整的汉字转拼音的程序,用java实现的。如果想修改成其他的语言也是非常的容易。
icu4c-4_4_1-src
- ICU是多国语言处理最权威的跨平台跨语言开发包,涉及多语种处理的方方面面。也是Unicode组织官方推荐的开发包。Java底层的多语言处理就是采用ICU4j。因为Java内核已经集成进去了,Java程序员可以在这方面少花许多脑筋。 一句话,如果用C++处理文本编码问题,ICU4c是不二之选。-ICU was originally developed by the Taligent company. The Taligent team later became the Unicode grou
spider
- 针对音乐论坛的爬虫程序 给出地址匹配特征,精确爬取用户需要的网页-Music forum for reptiles given address matches the characteristics of the procedure, precise climb pages users need to check
Lucene.Net.Analysis.Cn
- Lucene是什么? Lucene是Apache组织的一个用JAVA实现全文搜索引擎的开源项目。后来有人将Lucene移植到。Net语言。 Lucene是一个信息检索的函数库(Library),利用它你可以为你的应用加上索引和搜索的功能。 Lucene的使用者不需要深入了解有关全文检索的知识,仅仅学会使用库中的一个类,你就为你的应用实现全文检索的功能。 不过千万别以为Lucene是一个象google那样的搜索引擎,Lucene甚至不是一个应用程序,它仅仅
imdict-chinese-analyzer
- imdict-chinese-analyzer 是 imdict智能词典 的智能中文分词模块,算法基于隐马尔科夫模型(Hidden Markov Model, HMM),是中国科学院计算技术研究所的ictclas中文分词程序的重新实现(基于Java),可以直接为lucene搜索引擎提供简体中文分词支持。-imdict-chinese-analyzer is a smart imdict Chinese Dictionary smart module segmentation algorithm
Test Class By SVM
- 支持向量机实现的文本分类程序,过程如下,首先使用分词工具分词,这里使用的是计算所的分词工具,从而保证分词是最优秀的,接下来使用国际效率最高的文本IFIDF向量生成工具生成文本相量,最后使用台湾林智恒的效率最高的SVM实现软件包libsvm实现训练和分类,可以这么说,该文本分类是同类中效率最高最准确的-text classfication source code use 3 technology.words sementation,vector gerneration,and libsvm too
IKAnalyzer3.1.1_userguide
- java分词程序,能够精确分词,包含词库等-java word program, word accurately, including the thesaurus, etc.
mtspv_ga
- 这是一个helloword程序,用java-this page is about helloword
ghpucuz
- 非常需要的可以下载看看,适合初学者学习,好的算法和程序(Very good algorithm and program, suitable for beginners to learn, need to download to see.)
hyujfuz
- 本系统用于所有的Web应用程序,如网站管理后台,网站会员中心,CMS,CRM,OA。(This system is used for all Web applications, such as website management backstage, website member center, CMS, CRM, OA.)
大文本文件按行分割成无数小文件
- 实现了一个Java程序,能够将大文本文件按行均匀切割成指定数目的小文件(最后一个小文件可能小点) 1、文本文件大小可以10G或以上(可自行生成随机文本) 2、可能会出现内存搁不下的情况,考虑用BufferedReader