搜索资源列表
New-Mexico
- 网络安全测试数据集,墨西哥大学提供,比较有用的东西-network security test data sets, the University of Mexico, the more useful things
firtex-1.0.3_RC_src
- 中文开源搜索引擎firtex-1.0.3_RC版 架构、接口做了重大改进 修正了一些BUG 增加了对gz压缩的TREC格式的支持 增加了对北大天网数据集的支持 增加了同时检索内存中索引数据的支持 支持实时在线索引和检索 实现了在线索引更新的几个策略 ...
ProgrammingPCollectivePIntelligence
- 本书以机器学习与计算统计为主题背景,专门讲述如何挖掘和分析Web上的数据和资源,如何分析用户体验、市场营销、个人品味等诸多信息,并得出有用的结论,通过复杂的算法来从Web网站获取、收集并分析用户的数据和反馈信息,以便创造新的用户价值和商业价值。全书内容翔实,包括协作过滤技术(实现关联产品推荐功能)、集群数据分析(在大规模数据集中发掘相似的数据子集)、搜索引擎核心技术(爬虫、索引、查询引擎、PageRank算法等)、搜索海量信息并进行分析统计得出结论的优化算法、贝叶斯过滤技术(垃圾邮件过滤、文本过
MetaSeeker-4.11.2
- 主要应用领域: • 垂直搜索(Vertical Search):也称为专业搜索,高速、海量和精确抓取是定题网络爬虫DataScraper的强项,每天24小时每周7天无人值守自主调度的周期性批量采集,加上断点续传和软件看门狗(Watch Dog),确保您高枕无忧 • 移动互联网:手机搜索、手机混搭(mashup)、移动社交网络、移动电子商务都离不开结构化的数据内容,DataScraper实时高效地 采集内容,输出富含语义元数据的XML格式的抓取结果文件,确保自动化
nutch-analysis
- 开源搜索引擎nutch的爬虫部分分析。包括Nutch数据集的基本组成和流程。-Open source search engine nutch reptiles part analysis. Nutch data set includes the basic components and processes.
IR_system
- 构建了一个信息检索系统,包括数据集和PERL代码。-Create an IR system.