搜索资源列表
multiseek
- 网络搜索引擎源代码.可以用在元数据网站的搜索方面.基本的模块都已经具备.比如多线程下载的机制已经完成.-Network searching engine code,which can be used in the searching mission of meta-data sites,now has been provided with basic modules,such as the accomplishment of multi-thread downloading mechanism.
教育资源搜索1.10
- 新易教育资源搜索器是一款运行于“客户端”搜索工具。 使用新易教育资源搜索器你可以在网络上进行有关教育资讯的多重站台的搜索,不到几秒钟的功夫,所有的搜寻结果就源源不断地出现在你的面前。 新易教育资源搜索器可以搜索的类别包括教育新闻、行政管理、教学资源、留学资讯四大类别共240多个小类别。 新易教育资源搜索器的通用搜索能够找到几乎所有互联网上的信息,他把国内外著名的搜索引擎数据库结合起来,只要互联网上某一搜索引擎中有的数据,该多功能搜索系统都能将他搜出来。 -new educati
spider(java)
- 网页抓取器又叫网络机器人(Robot)、网络爬行者、网络蜘蛛。网络机器人(Web Robot),也称网络蜘蛛(Spider),漫游者(Wanderer)和爬虫(Crawler),是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。他们能自动漫游与Web站点,在Web上按某种策略自动进行远程数据的检索和获取,并产生本地索引,产生本地数据库,提供查询接口,共搜索引擎调用。-web crawling robots - known network (Robot), Web crawling,
lz_spidetytryryr
- 这个系统是属于自动化的搜索引擎,它可以从一个网址列表开始,自动寻找这些网址的下一级网页。可以让中小网站也有有自己特色的搜索引擎。 适合与于对某一指定领域里的网站进行搜索,比如仅搜索医学网站。 使用sql server 2000做数据库。 网络蜘蛛根据用户设定的入口网址自动收集网页数据 强大完备的后台管理 充分挖掘.net性能,百万数据瞬间搜索 完美的前台web页cc面媲美专业搜索 中文分词接口-The system is an automated search
New-Mexico
- 网络安全测试数据集,墨西哥大学提供,比较有用的东西-network security test data sets, the University of Mexico, the more useful things
wininet-spider
- 网络爬虫,完美演示了多线程和深度设置抓取网页数据。-crawl through internet to get web data. the win32 api supports applications that are pre-emptively multithreaded. this is a very useful and powerful feature of win32 in writing mfc internet spiders. the spider project is a
TwitterData-csharp
- 爬社交网络数据程序, 用C#编写,比较基本,适用于初学者学习交流。-It is used to crawl data from online social networks. Realized basic functions such as making API connection, request data, etc.
Kask08
- 本系统,采用网络中已经成熟、稳定地技术ASP+Access/SQL开发而成,是最早最优秀的问答系统,拥有广大的用户群 通过它,您可以很方便地管理自己网站。功能特点如下: 1、本系统采用经典ASP+ACC/SQL编写,适合绝大多数网站使用 2、采用DIV+CSS设计,减少页面体积,提高搜索引擎的友好程度 3、符合W3C国际标准,兼容所有浏览器 4、采用Ajax流设计,提高系统系能 5、一键式安装,更加方便使用 6、大数据代码优化,性能提高,运行更稳
GooglePageRankQuery
- 查询Google PageRank 破解全过程 1. 装个 google工具条 开启pagerank 2. 找个网络 sniffer 软件, 运行浏览器随便打开个网站, 3. sniffer将记录 google工具条发给 google的数据包 分析可得,传输协议是 http, 数据包内除了 有访问网站的地址, 关键还有个 ch参数 , ch参数根据网站地址不同 发生变化(看来关键是 ch怎么计算出来的!) 4.分析google工具条,得到计算 ch的汇编代码,然后翻
LxmYhfWjm_v1.0
- 本书比较系统地介绍了互联网搜索引擎的工作原理、实现技术及其系统构建方案。全书分三篇共13章内容,从基本工作原理概述开始,到一个小型简单搜索引擎实现的具体细节,进而详细讨论了大规模分布式搜索引擎系统的设计要点及其关键技术;最后面向主题和个性化的Web 信息服务,阐述了中文网页自动分类等技术及其应用。本书层次分明,由浅入深;既有深入的理论分析,也有大量的实验数据,具有学习和实用双重意义。 本书可作为高等院校计算机科学与技术、信息管理与信息系统、电子商务等专业的研究生或高年级本科生的教学参考书和技术资
fetchmatrix
- 自动抓取programmabelweb上的Mashup矩阵数据,分析Web2.0混搭应用之间的关系网络与发展趋势,找到最有价值的Web APP平台。-Automatically crawl Mashup Matrix programmabelweb on data analysis of the application of Web2.0 mash the relationship between the network and development trends, to find the m
ss
- 网页抓取器又叫网络机器人(Robot)、网络爬行者、网络蜘蛛。网络机器人(Web Robot),也称网络蜘蛛(Spider),漫游者(Wanderer)和爬虫(Crawler),是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。他们能自动漫游与Web站点,在Web上按某种策略自动进行远程数据的检索和获取,并产生本地索引,产生本地数据库,提供查询接口,共搜索引擎调用。-asp
larbin-2.6.3
- larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人Sébastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。 Larbin只是一个爬虫,也就是说larbin只抓取网页,至于如何parse的事情则由用户自己完成。另外,如何存储到数据库以及建立索引的事情 larbin也不提供。 latbin最初的设计也是依据设计简单但是高度可配置性的原则,因此我们可以看到,一个简单的larbin的爬虫可以每天获取500万的网
ProgrammingPCollectivePIntelligence
- 本书以机器学习与计算统计为主题背景,专门讲述如何挖掘和分析Web上的数据和资源,如何分析用户体验、市场营销、个人品味等诸多信息,并得出有用的结论,通过复杂的算法来从Web网站获取、收集并分析用户的数据和反馈信息,以便创造新的用户价值和商业价值。全书内容翔实,包括协作过滤技术(实现关联产品推荐功能)、集群数据分析(在大规模数据集中发掘相似的数据子集)、搜索引擎核心技术(爬虫、索引、查询引擎、PageRank算法等)、搜索海量信息并进行分析统计得出结论的优化算法、贝叶斯过滤技术(垃圾邮件过滤、文本过
MetaSeeker-4.11.2
- 主要应用领域: • 垂直搜索(Vertical Search):也称为专业搜索,高速、海量和精确抓取是定题网络爬虫DataScraper的强项,每天24小时每周7天无人值守自主调度的周期性批量采集,加上断点续传和软件看门狗(Watch Dog),确保您高枕无忧 • 移动互联网:手机搜索、手机混搭(mashup)、移动社交网络、移动电子商务都离不开结构化的数据内容,DataScraper实时高效地 采集内容,输出富含语义元数据的XML格式的抓取结果文件,确保自动化
JavaNetSpider
- Java网络爬虫(蜘蛛)源码 本程序利用java技术通过IP/TCP技术去捕捉网络数据。-Java web crawler (spiders) the source code The program use Java technology through the IP/TCP technology to capture network data.
Net-Spider
- 实现网络爬虫子系统,从网络抓取数据,通过c++实现-scrape internet
用Python写网络爬虫
- 本书讲解了如何使用P川lOil来编写网络爬虫程序, 内容包括网络爬虫简 介, 从页面中抓取数据的三种方法, 提取缓存中的数据, 使用多个线程和进 程来进行并发抓取, 如何抓取动态页面中的内容, 与表单进行交互, 处理页 面中的验证码问题, 以及使用 Scarpy和Portia 来进行数据抓取, 并在最后使 用本书介绍的数据抓取技术对几个真实的网站进行了抓取, 旨在帮助读者活 学活用书中介绍的技术。 本书适合有一定Python 编程经验, 而且对爬虫技术感兴趣的读者阅读。(This book ex
禾丰网页数据抓取工具V1.0 绿色版
- 禾丰网页数据抓取工具V1.0 绿色版 网络爬虫(Wellhope web data scraping tool V1.0 green version)