搜索资源列表
luke-src-0.7
- Lucene is an Open Source, mature and high-performance Java search engine. It is highly flexible, and scalable from hundreds to millions of documents. Luke is a handy development and diagnostic tool, which accesses already existing Lucene indexes
crawler
- 一个针对分主题的网页分析和下载系统,能主动下载信息详细页-Automatically analyze and download classified web pages
query_click_distribution
- 一个处理搜索引擎中的用户搜索词相关的url点击数据的程序,用来分析query是informational还是navigational。-A deal with search engine users search for words related to the procedure url click data to analyze query is informational or navigational.
Search_Search_Engine_Overview
- 关于搜索引擎的一份优秀报告,包括搜索引擎的架构剖析,目前的应用以及所需解决的问题,文章来源于微软亚洲研究院-On a good search engine, including search engines analyze the structure, the current application and the necessary issues, the article comes from Microsoft Research Asia
Wiley.SEO.Search.Engine.Optimization.Bible
- SEO(Search Engine Optimization),汉译为搜索引擎优化,为近年来较为流行的网络营销方式,主要目的是增加特定关键字的曝光率以增加网站的能见度,进而增加销售的机会。分为站外SEO和站内SEO两种.SEO的主要工作是通过了解各类搜索引擎如何抓取互联网页面、如何进行索引以及如何确定其对某一特定关键词的搜索结果排名等技术,来对网页进行相关的优化,使其提高搜索引擎排名,从而提高网站访问量,最终提升网站的销售能力或宣传能力的技术。-One of the grievous mista
totsearch
- 淘特站内搜索引擎(C#版)基于Lucene.Net核心,通过高效的中文分词算法将数据库中内容进行分析、索引并保存至硬盘中。前台搜索时,通过读取索引文件查询,避免了传统数据库查询在高并发及海量数据下的性能问题。因前台搜索不在连接数据库,为不希望数据库放到前台的特殊用户群体提供了数据快速查询解决方案-Amoy Special Search Engine (C# Edition) Based on Lucene.Net core, through the effective Chinese word
ProgrammingPCollectivePIntelligence
- 本书以机器学习与计算统计为主题背景,专门讲述如何挖掘和分析Web上的数据和资源,如何分析用户体验、市场营销、个人品味等诸多信息,并得出有用的结论,通过复杂的算法来从Web网站获取、收集并分析用户的数据和反馈信息,以便创造新的用户价值和商业价值。全书内容翔实,包括协作过滤技术(实现关联产品推荐功能)、集群数据分析(在大规模数据集中发掘相似的数据子集)、搜索引擎核心技术(爬虫、索引、查询引擎、PageRank算法等)、搜索海量信息并进行分析统计得出结论的优化算法、贝叶斯过滤技术(垃圾邮件过滤、文本过
MSSQL_rizhifenxi
- 一个IIS日志分析程序,能分析各种恶意扫描、访问量、蜘蛛爬虫量、后台访问量等站长关心数据,并成成图表,是站长不可多得的好工具-An IIS log analysis program that can analyze malicious scanning, traffic, spiders amount of background traffic and other owners care about the data and into into the charts, is a good too
C-source-code-spider-web
- 不断去取得网络上的页面,然后分析出网页上出现的邮件地址保存下来。象个蜘蛛一样,从网络上一个网页爬向另一个网页,不停止地搜索邮件地址。 -Continue to get on the network page, and then analyze the e-mail address appear on the page saved. Like a spider, climbed from the network on a web page to another page, do not stop
