搜索资源列表
webSpider
- GOOGLE查询分析注入系统 一,通过关键字检索把提取前10个网站的网址 二,通过提取的网站地址做为搜索关键字搜索该网站地址的所以查询结果 三,实现GOOGLE的自动分页排查所有结果直到末页; 四,根据查询后的结果对每一个结果链接做为索引进入网站分析当前页与当前页所有的站内链接页进行分析检测是否有留言板、论坛或其它有注入特征的页面如有发现则将可疑网站及表单信息记录到数据库中,在此环节中加入了多线程,用户在搜索时初始线程数,每个线程针对一个网站的索引页面,如有线程完成了单个网站
CSharpcrawler
- 网络爬虫实现源代码 c++语言开发 可以设置线程数和爬行目标网址-Web crawler source code c++ language development can set the number of threads and crawling destination URL
spider2006
- 可配置:线程数、线程等待时间,连接超时时间,可爬取文件类型和优先级、下载目录等。 状态栏显示统计信息:排入队列URL数,已下载文件数,已下载总字节数,CPU使用率和可用内存等。 有偏好的爬虫:可针对爬取的资源类型设置不同的优先级。 健壮性:十几项URL正规化策略以排除冗余下载、爬虫陷阱避免策略的使用等、多种策略以解析相对路径等。 较好的性能:基于正则表达式的页面解析、适度加锁、维持HTTP连接等。 -C# spider.
NWebCrawler
- 网络爬虫, * 可配置:线程数、线程等待时间,连接超时时间,可爬取文件类型和优先级、下载目录等。 * 状态栏显示统计信息:排入队列URL数,已下载文件数,已下载总字节数,CPU使用率和可用内存等。 * 有偏好的爬虫:可针对爬取的资源类型设置不同的优先级。 * 健壮性:十几项URL正规化策略以排除冗余下载、爬虫陷阱避免策略的使用等、多种策略以解析相对路径等。 * 较好的性能:基于正则表达式的页面解析、适度加锁、维持HTTP连接等。-Web crawler