搜索资源列表
SubjectSpider_ByKelvenJU
- 1、锁定某个主题抓取; 2、能够产生日志文本文件,格式为:时间戳(timestamp)、URL; 3、抓取某一URL时最多允许建立2个连接(注意:本地作网页解析的线程数则不限) 4、遵守文明蜘蛛规则:必须分析robots.txt文件和meta tag有无限制;一个线程抓完一个网页后要sleep 2秒钟; 5、能对HTML网页进行解析,提取出链接URL,能判别提取的URL是否已处理过,不重复解析已crawl过的网页; 6、能够对spider/crawler程序的一些基本参数进行
nicewords_2.0.0128_for_3790_4659.tar.dezend_cc_php
- Nicewords-Dzend版 Nicewords是由工作在顶级门户网站的几名资深高级工程师利用爬虫技术(蜘蛛机器人,spider)、分词技术和网页萃取技术,结合白帽SEO(规避了一切风险的搜索引擎优化),利用URL重写技术、缓存技术,使用PHP语言开发的一套能根据设置的关键词自动抓取互联网上的相关信息、自动更新的WEB智能建站系统。利用NiceWords智能建站系统,只需要在配置页面上设置几个关键词,NiceWords就能全自动的生成一套能自动更新的网站了。 您要做的仅仅是设置几个关键词
Other web content grab
- 我们可以通过这个源码从其他网页上面抓取有用的信息
zhua
- asp环境下抓取网页信息的例子,可以研究一下-asp pages to crawl under the example of the information, you can look at
kuaso
- 仿百度搜索引擎软件蜘蛛组件包括三大功能模块:链接采集、网页分析、无效网页扫描; 自动识别GB2312、BIG5、UTF-8、Unicode等网页编码; 文件类型证察防止非文本类型文件采集; 蜘蛛可以采集ASP、PHP、JSP等动态数据网页和HTML、SHTML、XHTML等静态网页; 支持续采功能,如果因系统、网络等故障问题终止采集,系统将在下次启动采集时提示您是否“继续采集”或“结束任务”; 采集任务管理功能可以设置多个采集任务安排计划工作,每一个采集任务将会
krabber_development_document
- Krabber项目是支持Ajax动态内容抓取的网页信息抽取程序。这是Krabber的开发文档。-Krabber project is to support Ajax dynamic content capture Web information extraction process. This is Krabber development documentation.
LoginWeb
- 从网页上抓取自己需要的信息,住区一个台湾网站上的股票信息!-Web page crawled from the information they need, settlements, a Taiwanese stock information on the site!
wikidownload
- 抓取网页中各个公司信息,包括名称,logo,位置,等-Crawls pages of each company information, including name, logo, location, etc.
HeritrixSpd
- 本源码是用java编写的,运用hertrix工具实时抓取ku6动态网页的信息。希望更多的爬虫爱好者和我一起来学习。-The source code is written in Java hertrix tool, using real-time grasping he plays tennis dynamic web pages of information. Hope more crawler enthusiasts and I together to learn.
jsoup
- html解析工具,使用css子选择器的语法解析元素,比古老的HtmlParser好用很多。在最新版本中,不支持设置Cookie等头信息来访问url,这样一些需要设置Cookie的网页就无法抓取了。为方便使用,我稍微修改了源码。 -html analytical tools, the use of css selector parsing sub-elements, easy to use than many of the old HtmlParser. In the latest vers
tool_v2.0
- 1、JS加密/解密(将代码以js形式进行加密或解密。)2、UTF-8编码转换工具(UTF-8编码转换。)3、Unicode编码转换工具(Unicode编码转换。)4、友情链接(通过本工具可以批量查询指定网站的友情链接在百度的收录、百度快照、PR以及对方是否链接本站,可以识破骗链接。)5 、META信息检测(通过本工具可以快速检测网页的META标签,分析标题、关键词、描述等是否有利于搜索引擎收录。)6、MD5加密工具(对字符串进行MD5加密。)7 、身份证号码值查询(查询身份证所在地、性别及出生日
metastudio_Linux_gcc_gecko1.8_zh
- MetaSeeker工具包V3是GooSeeker团队自主开发的网页抓取/数据抽取/信息提取软件,经历了垂直搜索、SNS等多个互联网浪潮的实战检验,已经发展到V3版本,并且分成企业版和在线版,对于不愿支付昂贵的企业版费用的用户可以免费下载使用在线版。 MetaSeeker工具包V3版本包括如下软件工具: 1,MetaStudio,网页数据结构定义工具,通过图形界面免编程定义网站数据抓取规则 2,DataScraper,数据抽取工具,能够连续大批量抓取网页内容,不是普通的网络爬虫,而是适应力-Me
z5tool
- z5tool站长工具,整站页面使用DIV+CSS样式布局,兼容大部分浏览器,所以可直接使用,便于搜索引擎索引。 z5tool站长工具包含搜索引擎收录情况查询,IP/服务器物理定位查询,域名WHOIS信息查询,搜索引擎反向链接情况查询,ALEXA详细排名查询,谷歌PR和SOGOU RANK查询,关键词排名查询,页面关键词密度查询,搜索引擎模拟抓取页面,网页META信息检测,HTML/JS代码 互转工具,ESCAPE加密/解密工具,GB2312/BIG5互转工具,网页代码 JS/VB 加密工具,
HTMLParser
- 利用HTMLParser实现网页信息的抓取-Using HTMLParser crawl web information
JavaBrowser
- 用Java写的一个在浏览器中自动输入信息的程序,可以给需要查询大量用户信息带来便捷。同时有从网页上抓取特定信息导入到excel中的功能-Written in Java a program that automatically input information in the browser, can bring convenient to need to query a large number of user information.At the same time a web crawls