搜索资源列表
nmz2012
- namazu. 虽然是日语的,也适用于文件中单词索引后全文检索.-namazu. Although Japanese, but also to document the word is indexed by the search.
ictclas_Source_Code
- 计算所汉语词法分析系统ICTCLAS介绍 词是最小的能够独立活动的有意义的语言成分。 但汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。为此,我们中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97
ICTCLASCaller
- ICTCLAS的JNI调用接口文件: Title:ICTCLAS Caller * <p>Descr iption:do chinese word segmentation.don t change the pakage and CLASS name, orelse you can t use it. * 请不要改变包名、类名以及native的方法名,否则调用将失效。 * 由于ICTCLAS本身存在很多鲁棒性问题,调用segSentence时,strin
pspydict0[1].3src
- PSP YDICT ver0.3 改进的功能 1。在《牛津现代英汉双解词典》中,正确显示音标。 (对YDICT ver0.2版本的《牛津现代英汉双解词典》的词库,作了部分修正。) 2。在单词右侧标示出不同难度,CET4,CET6,TOEFL,GRE,方便记忆。 CET4及以下难度,绿色标记 CET6, 浅蓝色标记 TOEFL, 黄色标记 GRE, 紫色标记 3。可以标记已查过的单词,翻阅已查单词。类似标签功能。 在当前单词的解释最后一页,按一次“X”
SplitWord_Java
- java制作的中文分词DLL文件,是根据中科院中文分词系统C++改写的-produced by the Chinese word DLL files, under the Chinese Academy of Sciences is the Chinese word rewrite the C system
SQLET_split
- 另外一个中文分词程序,采用的是可显示的字典,可供大家分析-another Chinese word segmentation procedures, the show is the dictionary for our analysis
word-findANDcount
- 这是一个原创的文章信息自动标引和分类小程序。可以用于文本分析。功能还在不断完善中:)-This is an original article automatic indexing and classification of small programs. Text analysis can be used. Capabilities are also constantly perfected :)
MySeg
- 最短路径法分词程序。将中文句子经过原子切分后生成一个有向无环图,然后使用Dijkstra算法求出由起点到终点的最短路径以实现中文分词。-shortest path method participle procedures. Chinese Sentence will be read after splitting atoms generated a directed acyclic graph. then use the Dijkstra algorithm derived from the s
5271615762
- 中文分词技术 从别的网上摘的 感觉还不错 请大家-Chinese word technology from other online pick feeling quite well please try
TestCorpusyuliaoguanli
- 1. 这是一个简单的语料库管理系统 2. 可以添加和删除语料文件,统计语料中的字数 3. 可以查找语料中的汉字串以及重叠形式 4. 语料文件存放在corpus目录下,查询结果保存在跟语料库相同目录下 5. corpus目录下有4个文本文件(其中test1, test2是两个小文件)供测试用 6. 只能处理文本文件,GB内码-1. This is a simple Corpus management system 2. They can add and delete corpu
获得Word中的表
- 获得Word中的表-was the Word Table
word
- 实现中文分词,词汇表记录在WORD.TXT文件中。待分词文档为article.txt。
Word
- 读取我word文件中的表格中的字段并产生数据表
chinese-word-segment.rar
- 一个的文本分割程序,采用了改变的最大长度切分结合统计分词方法。,this is a project about chines-word segment, it propose a method conmbining the max-seg and the statistic method.
Chinese-automatic-word-segmention
- 汉语自动分词和词性标注__源代码 这是原创,不带复制的 汉语自动分词和词性标注__源代码-Chinese automatic word segmentation and POS tagging __ source code This is the original, without copying Chinese automatic word segmentation and POS tagging __ source code
POSTagger_Src
- 包含了词条及其词性标记,频度信息的词典 练语料的格式要求: 每个词以 / 分隔, / 后是该词的词性标记。词性标记后至少要有一个空格。一个句子的所有词必须在同一行中。击“开始词性标注”选取文本文件(一次可以选择多个)进行标注处理-Includes a term and its part of speech marks, the frequency of information and training Corpus dictionary format requirements: Each w
Lucene.Net.Analysis.Cn
- Lucene是什么? Lucene是Apache组织的一个用JAVA实现全文搜索引擎的开源项目。后来有人将Lucene移植到。Net语言。 Lucene是一个信息检索的函数库(Library),利用它你可以为你的应用加上索引和搜索的功能。 Lucene的使用者不需要深入了解有关全文检索的知识,仅仅学会使用库中的一个类,你就为你的应用实现全文检索的功能。 不过千万别以为Lucene是一个象google那样的搜索引擎,Lucene甚至不是一个应用程序,它仅仅
WordCounter
- 封装一个类CText, 并编写一个软件,它可以完成对任意一个文本文件的字符统计工作, 可以统计的信息有:中文字符数、英文单词数、行数、字符个数(不计空格)、空格数。 同时上述的字符统计信息,要求能写到一个Report.txt文件中,并且能显示出来。但是不要求界面,只要能以命令行的形式输入及显示即可,另外统计功能也可参考Word中 的“字数统计工具”。 序遵循题目的要求,采用Visual Studio 2008编译环境编写,使用C++语言来完成。其中主要功能封装在CText类当中,并利
Automatic-Chinese-word-segmentation
- 中文信息处理自动分词 支持6种分词方法 中文信息处理 自动分词-Chinese information processing automatic word supports six kinds of sub-word Chinese information processing automatic segmentation
matching-Chinese-word-by-HMM-and-MM
- 该程序为在MFC下开发的正向和反向两种中文分词系统。-The program was developed in MFC under both positive and negative Chinese word segmentation system.