搜索资源列表
theory_of_search_engine
- 本书比较系统地介绍了互联网搜索引擎的工作原理、实现技术及其系统构建 方案。全书分三篇共13章内容,从基本工作原理概述开始,到一个小型简单搜索 引擎实现的具体细节,进而详细讨论了大规模分布式搜索引擎系统的设计要点及 其关键技术;最后面向主题和个性化的Web信息服务,阐述了中文网页自动分类 等技术及其应用。本书层次分明,由浅入深;既有深入的理论分析,也有大量的 实验数据,具有学习和实用双重意义。
SearchCrawler
- 网络爬虫的实现 能够比较好的爬行网页 能对网络链接简单分析
SearchEngineer
- 本书比较系统地介绍了互联网搜索引擎的工作原理、实现技术及其系统构建方案。全书分三篇共13章内容,从基本工作原理概述开始,到一个小型简单搜索引擎实现的具体细节,进而详细讨论了大规模分布式搜索引擎系统的设计要点及其关键技术;最后面向主题和个性化的Web信息服务,阐述了中文网页自动分类等技术及其应用。本书层次分明,由浅入深;既有深入的理论分析,也有大量的实验数据,具有学习和实用双重意义。
SearchEnginePrincipleTechnologyandSystems
- 本书比较系统地介绍了互联网搜索引擎的工作原理、实现技术及其系统构建方案。全书分三篇共13章内容,从基本工作原理概述开始,到一个小型简单搜索引擎实现的具体细节,进而详细讨论了大规模分布式搜索引擎系统的设计要点及其关键技术;最后面向主题和个性化的Web信息服务,阐述了中文网页自动分类等技术及其应用。本书层次分明,由浅入深;既有深入的理论分析,也有大量的实验数据,具有学习和实用双重意义。
Searcher
- j2ee实现的一个简单的搜索引擎,可选择所用搜索引擎,常见的网页搜索引擎
CoolSo
- 主要功能:网络越来越普及了,网络上的信息也越来越多,当你想了解一样东西时,你肯定会上搜索引擎网 站。这时候你就会重复的键入一个个\"KeyWord\",虽然Ctrl+c,ctrl+v会加快你的速度:)但仍显得很罗嗦, CoolSo就这样产生了,当你在浏览网页时,遇到想要了解的关键字时,你只要将其选中,松开鼠标的时候, CoolSo就会自动弹出来,这时你只要点一下“搜索”按扭,CoolSo就会在指定站点对你选中的关键字进行搜 索。你也可以改变默认用于搜索的站点,目前支持的搜索站点如下 百度 G
Crawler
- 该源码是用python写的一个简单的网络爬虫,用来爬取百度百科上面的人物的网页,并能够提取出网页中的人物的照片-The source code is written in a simple python web crawler, Baidu Encyclopedia is used to crawl the page above figures, and be able to extract the characters in the picture page
LxmYhfWjm_v1.0
- 本书比较系统地介绍了互联网搜索引擎的工作原理、实现技术及其系统构建方案。全书分三篇共13章内容,从基本工作原理概述开始,到一个小型简单搜索引擎实现的具体细节,进而详细讨论了大规模分布式搜索引擎系统的设计要点及其关键技术;最后面向主题和个性化的Web 信息服务,阐述了中文网页自动分类等技术及其应用。本书层次分明,由浅入深;既有深入的理论分析,也有大量的实验数据,具有学习和实用双重意义。 本书可作为高等院校计算机科学与技术、信息管理与信息系统、电子商务等专业的研究生或高年级本科生的教学参考书和技术资
yssfor
- 1、真正的搜索引擎: 2、 网页蜘蛛灵活高效。 3、可控的正文提取。 4、可控的中文分词及新词学习。 5、无人值守。 6、BS架构,虚拟主机支持。 7、强大功能,简单使用。 8、个性化。 9、增强网站软实力-1, the real search engine: 2, Web Spider flexible and efficient. 3, the body of controllable extraction. 4, controlled the Chinese
5so1
- 一个综合6大搜索引擎的代码,简单实用,即使不开个站放本地自己用用都是非常方便的,输一次关键词可同时得到6大搜索引擎的搜索结果,网页\图片\MP3等都可使用-A comprehensive six major search engine code, simple and practical, if not to open a place for local stations they use are very convenient to use, and lose a keywords can s
larbin-2.6.3
- larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人Sébastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。 Larbin只是一个爬虫,也就是说larbin只抓取网页,至于如何parse的事情则由用户自己完成。另外,如何存储到数据库以及建立索引的事情 larbin也不提供。 latbin最初的设计也是依据设计简单但是高度可配置性的原则,因此我们可以看到,一个简单的larbin的爬虫可以每天获取500万的网
bamboo.v.1
- 该程序从网页的特征出发,利用简单的规则方法,却能够达到较好的效果。-The characteristics of the program starting from a web page, using simple rules of method, they can achieve better results.
riyu
- 对日项目必用日语。该源码是用python写的一个简单的网络爬虫,用来爬取百度百科上面的人物的网页,并能够提取出网页中的人物的照片-good must bookgood must bookgood must bookgood must book
NetSpiderDemo
- 简单描述: 本程序是一个网络爬虫的演示程序。 程序主要涉及到:网页下载,URL解析,数据库读写。 网页下载使用Winhttp组件;数据库使用Sqlite。 使用方法: 1. 在“搜索网页”Tab页,输入关键字搜索,程序会把含关键字的网页信息,存入子目录下的Info.db。 2. 在“显示网页”Tab页,输入关键字显示,程序会把含关键字的网页信息,显示在界面上。 交流及指正,请联系QQ:270156812-This is a net
spider
- 一个简单的网络爬虫,可以设置一些网站作为首选链接,爬取网页上的文字内容。-A simple Web crawler, you can set some websites as the preferred link, crawling text on the page.
GetWeb
- 以下是一个Java爬虫程序,它能从指定主页开始,按照指定的深度抓取该站点域名下的网页并维护简单索引。-The following is a Java reptiles, it can start from the specified Home to crawl pages under the domain name of the site in accordance with the specified depth and maintain a simple index.
spider1
- 本程序是网络爬虫的简单版本,实现了获取网页的链接功能,-The program access to web connectivity
searchengine
- 使用Lucence开发的一个简单离线搜索引擎,能在本地的网页库中进行索引建立并检索,提供网页地址的返回。-Use Lucence developed a simple off-line search engine, in a local library' s website for indexing and retrieval, provides web addresses returned.
price
- 简单的网页爬虫部分代码,爬取网页价格信息。-Simple web crawler part of the code, web crawling price information.
baiduBat
- 利用Python实现网站蜘蛛爬虫获取整个网页的功能,这只是5个简单的百度帖吧的测试案例,都可以用,爬虫其他的网站也很容易实现,比较适合新手了解和对搜索感兴趣的学习和了解。-search engine using python to search through the target internet pages