搜索资源 - 处理程序 - 搜珍网

CDN加速镜像 | 设为首页 | 加入收藏夹

热门搜索： 源码 Android 整站插件识别 p2p OpenCV 网络编程游戏源码算法更多...

登陆 | 会员注册

当前位置：

Internet/网络编程

搜索资源 - 处理程序

下载资源主分类

源码下载

Web源码

开发工具

文档下载

其它资源

搜索资源列表

IndexFiles

0下载：
基于Lucene的网页生成工具,对于有网页爬行器从网络上下载下来的网页库，本软件可以对他们进行网页索引生成，生成网页索引是搜索引擎设计中核心的部分之一。也称网页预处理子系统。本程序用的是基于lucene而设计的。
所属分类：搜索引擎
- 发布日期：2008-10-13
- 文件大小：3340051
- 提供者：纯哲

BaiduMusicBox

0下载：
本程序将完成搜索baidu,的结果进行处理,,来完成音乐的搜索与播放的功能
所属分类：搜索引擎
- 发布日期：2008-10-13
- 文件大小：45426
- 提供者：祝德红

PDFBox-0.6.7a

0下载：
采用java编写的处理PDF文档的程序，可从PDF文档中抽取txt文本，可与lucene搜索引擎相结合。-adopting the java programs compiled to dispose the PDF document, taking out the txt text from the PDF document, and combining with the lucene searcher.
所属分类：搜索引擎
- 发布日期：2008-10-13
- 文件大小：9649132
- 提供者：孔敬

query_click_distribution

0下载：
一个处理搜索引擎中的用户搜索词相关的url点击数据的程序，用来分析query是informational还是navigational。-A deal with search engine users search for words related to the procedure url click data to analyze query is informational or navigational.
所属分类：Search Engine
- 发布日期：2017-03-29
- 文件大小：56125
- 提供者：莫璧源

Crawler_src_code

0下载：
网页爬虫(也被称做蚂蚁或者蜘蛛)是一个自动抓取万维网中网页数据的程序.网页爬虫一般都是用于抓取大量的网页,为日后搜索引擎处理服务的.抓取的网页由一些专门的程序来建立索引(如:Lucene,DotLucene),加快搜索的速度.爬虫也可以作为链接检查器或者HTML代码校验器来提供一些服务.比较新的一种用法是用来检查E-mail地址,用来防止Trackback spam.-A web crawler (also known as a web spider or ant) is a program,
所属分类：Search Engine
- 发布日期：2017-03-22
- 文件大小：55299
- 提供者：lisi

ICTCLAS2010CSharpDemo

0下载：
中文分词源程序，　中文词法分析是中文信息处理的基础与关键。中国科学院计算技术研究所在多年研究工作积累的基础上，研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)，主要功能包括中文分词；词性标注；命名实体识别；新词识别；同时支持用户词典。我们先后精心打造五年，内核升级6次，目前已经升级到了ICTCLAS3.0。ICTCLAS3.0分词速度单机996KB/s，分词精度98.45
所属分类：Search Engine
- 发布日期：2017-03-29
- 文件大小：93050
- 提供者：Liuying

spider_engine

0下载：
分析网页代码，提取url进行散列处理，提交客户端程序进行排重处理，然后存入客户机数据库，随后根据数据库中的url列表遍历整个网络。-Analysis of web code, extract the hashed url, submit re-schedule the client program to deal with, and then stored in the client database, and then the url list in the database through
所属分类：Search Engine
- 发布日期：2017-05-14
- 文件大小：3885044
- 提供者：白蔚

RMM

0下载：
这个是RMM算法，支持正向、逆向最大匹配，是自然语言处理的重要算法之一，只要替代程序中的词库即可。本词库取自1988年人民日报语料材料，算法对中文分词精确度达到90 以上-This is RMM algorithm supports forward, reverse maximum matching, natural language processing algorithm, as long as the alternative procedures thesaurus can. The th
所属分类：Search Engine
- 发布日期：2017-11-09
- 文件大小：251403
- 提供者：he

WPCrawler

0下载：
网络爬虫，也叫网络蜘蛛，有的项目也把它称作“walker”。维基百科所给的定义是“一种系统地扫描互联网，以获取索引为目的的网络程序”。网络上有很多关于网络爬虫的开源项目，其中比较有名的是Heritrix和Apache Nutch。有时需要在网上搜集信息，如果需要搜集的是获取方法单一而人工搜集费时费力的信息，比如统计一个网站每个月发了多少篇文章、用了哪些标签，为自然语言处理项目搜集语料，或者为模式识别项目搜集图片等等，就需要爬虫程序来完成这样的任务。而且搜索引擎必不可少的组件之一也
所属分类：Search Engine
- 发布日期：2017-05-09
- 文件大小：1863846
- 提供者：Francis

用Python写网络爬虫

2下载：
本书讲解了如何使用P川lOil来编写网络爬虫程序，内容包括网络爬虫简介，从页面中抓取数据的三种方法，提取缓存中的数据，使用多个线程和进程来进行并发抓取，如何抓取动态页面中的内容，与表单进行交互，处理页面中的验证码问题，以及使用 Scarpy和Portia 来进行数据抓取，并在最后使用本书介绍的数据抓取技术对几个真实的网站进行了抓取，旨在帮助读者活学活用书中介绍的技术。本书适合有一定Python 编程经验，而且对爬虫技术感兴趣的读者阅读。(This book ex
所属分类：搜索引擎
- 发布日期：2018-01-09
- 文件大小：14773248
- 提供者：prvllue

搜珍网 www.dssz.com

本网站为编程资源及源代码搜集、介绍的搜索网站，版权归原作者所有！　　粤ICP备11031372号

1999-2046 搜珍网 All Rights Reserved.