搜索资源列表
Delphi实现的简单中文分词v1.1
- Delphi实现的简单中文分词,Delphi实现的简单中文分词-Delphi simple Chinese word Delphi simple Chinese word
SogouW.20061127
- 互联网词库来自于对SOGOU搜索引擎所索引到的中文互联网语料的统计分析,统计所进行的时间是2006年10月,涉及到的互联网语料规模在1亿页面以上。统计出的词条数约为15万条高频词,除标出这部分词条的词频信息之外,还标出了常用的词性信息。 语料库统计的意义:反映了互联网中文语言环境中的词频、词性情况。 应用案例:中文词性标注、词频分析等。 词性分类: N 名词 V 动词 ADJ 形容词 ADV 副词 CLAS 量词 ECHO 拟声词
clucene_src_for_chinese
- 汉化CLucene今天,把CLucene的程序改了一下,可以支持汉字了。1.在vc 6编译 2.还不支持分词,但支持汉字,要索引的文本词与词之间用空格隔开。3.只是匆匆改了一下,见demo/IndexFiles.cpp,有问题可以与我联系。有空时改完善些。 -finished CLucene today, CLucene procedures changed a bit in support of the Chinese characters. 1. In vc 6 2 comp
lucene-1.4.3
- java分词技术,只实现英文分词,但是该分词算法很经典(来源于apache)-java-term technology, achieving only English Word, but the Word algorithm classic (from apache)
yssfor
- 1、真正的搜索引擎: 2、 网页蜘蛛灵活高效。 3、可控的正文提取。 4、可控的中文分词及新词学习。 5、无人值守。 6、BS架构,虚拟主机支持。 7、强大功能,简单使用。 8、个性化。 9、增强网站软实力-1, the real search engine: 2, Web Spider flexible and efficient. 3, the body of controllable extraction. 4, controlled the Chinese
j_13461_YH_Keywords_mining
- 欢迎使用渝海SEO关键词挖掘工具,本工具运行环境需求:PHP。 主要功能: 1、本工具适用于网站SEO时关键词深度挖掘,用一个关键词做相关热词挖掘,辅助筛选组合合适的关键词; 比如输入“电子商务”,工具会反馈百度、Google各自检索此关键词的收录量; 同时工具会提供相关热词索引,您可以继续点这些热词做分析。 周而复始的操作,就可以挖掘、组合出您想要的关键词。 2、DIV+CSS模板方便修改; 3、免费、开源程序。-Welcome to Yu Hai SEO K
JTextPro-1.0.tar
- JTextPro: A Java-based Text Processing tool that includes sentence boundary detection (using maximum entropy classifier), word tokenization (following Penn conventions), part-of-speech tagging (using CRFTagger), and phrase chunking (using CRFChunker
DictSeg
- Lucene的一个不错的分词组件,效果还不错,现在已经是1.4版本了-Lucene' s a good word components, the results were good, and is now 1.4 version of the
SphinxV0.9.8.1source
- SphinxV0.9.8.1source.zip VC++ 基于Lucene扩展的支持中文分词的开源搜索引擎 中文用户-Sphinx V0.9.8.1 source.zip VC++ extensions to support Lucene-based Chinese word segmentation in Chinese open source search engine users
SharpICTCLAS
- ICTCLAS分词的总体流程包括:1)初步分词;2)词性标注;3)人名、地名识别;4)重新分词;5)重新词性标注这五步。就第一步分词而言,又细分成:1)原子切分;2)找出原子之间所有可能的组词方案;3)N-最短路径中文词语粗分三步。 在所有内容中,词典库的读取是最基本的功能。ICTCLAS中词典存放在Data目录中,常用的词典包括coreDict.dct(词典库)、BigramDict.dct(词与词间的关联库)、nr.dct(人名库)、ns.dct(地名库)、tr.dct(翻译人名库
1.RAR
- 搜索引擎一词在国内外因特网领域被广泛使用,然而他的含义却不尽相同。在美国搜索引擎通常指的是基于因特网的搜索引擎,他们通过网络机器人程序收集上千万到几亿个网页,并且每一个词都被搜索引擎索引,也就是我们说的全文检索。著名的因特网搜索引擎包括First Search、Google、HotBot等-Internet search engine is used in the field is widely used abroad, but his meaning is different. Of the
1
- 中文分词在中文信息处理中是最最基础的,无论机器翻译亦或信息检索还是其他相关应用,如果涉及中文,都离不开中文分词,因此中文分词具有极高的地位。中文分词入门最简单应该是最大匹配法了-Chinese word segmentation in Chinese information processing is the most basic, whether in machine translation Yihuo information retrieval, or other related appli
forictclas
- 1.在vs2008下,解压缩即可运行 2.该代码为中科院的中文分词系统ictclas源码,本人修改部分bug后上传 3.运行后输入 中文字符串就可以-1. In vs2008, the extract to run 2. The code word for the Chinese Academy of Sciences of the sub-system ictclas source, I modified some bug and upload 3. Run and enter the
video
- 做为独立主机的用户有开发基础的程序员,按照以下步骤操作: 做为独立主机的用户,您可以直接让托管商为您打的服务器系统和配置。所需软件提供如下:win2008 操作系统IIS、mysql 5.1.5.8[或最新版]、framework3.5 。 安装只需要4步。首先将 1、建立视频索引库:在大空间的盘符下建立:视频搜索/index 【索引库】如:F:/ 视频搜索/index 2、安装分词服务系统fenciserver3.1 双击: 安装分词服务器.bat 安装即可,然后点击:fenc