搜索资源列表
Threadsource
- 用C#编写多线程搜索引擎。可实现不用的数据库服务器与文件服务器。-prepared multithreaded search engine. May not realize the database server and file server.
FlickrCrawler
- 用C#自行开发的Flickr爬虫代码,实现了一个HttpRequestHelper类来处理网络请求,调用Flickr的API库来搜索指定内容或者作者的照片,并将返回结果存储到excel文件中。-Flickr reptiles code developed in C#, a HttpRequestHelper class to handle network requests, call the Flickr API library to search for specific content or
K-Means
- 一个很好的C均值聚类算法!通过运行此文件可以很好的进行数据的分类。-K-means
totsearch
- 淘特站内搜索引擎(C#版)基于Lucene.Net核心,通过高效的中文分词算法将数据库中内容进行分析、索引并保存至硬盘中。前台搜索时,通过读取索引文件查询,避免了传统数据库查询在高并发及海量数据下的性能问题。因前台搜索不在连接数据库,为不希望数据库放到前台的特殊用户群体提供了数据快速查询解决方案-Amoy Special Search Engine (C# Edition) Based on Lucene.Net core, through the effective Chinese word
spider2006
- 可配置:线程数、线程等待时间,连接超时时间,可爬取文件类型和优先级、下载目录等。 状态栏显示统计信息:排入队列URL数,已下载文件数,已下载总字节数,CPU使用率和可用内存等。 有偏好的爬虫:可针对爬取的资源类型设置不同的优先级。 健壮性:十几项URL正规化策略以排除冗余下载、爬虫陷阱避免策略的使用等、多种策略以解析相对路径等。 较好的性能:基于正则表达式的页面解析、适度加锁、维持HTTP连接等。 -C# spider.