一、搜索引擎中网络蜘蛛搜索策略比较研究(论文文献综述)
刘鸣[1](2016)在《面向电子商务的垂直搜索引擎的研究和实现》文中认为伴随着电子商务的发展,电子商务网络系统的通用搜索引擎已经无法满足对今天搜索的要求,电子商务网络对搜索引擎要求更高了。需要针对用户需求的商品供应信息,同时要针对现有搜索引擎检索的过于宽广以及不能针对特定用户需求等问题,面向电子商务的垂直搜索引擎逐渐发展并应用。电子商务在互联网领域扮演着举足轻重的角色,越来越多的用户和企业投身在电子商务当中。以此,通用的搜索引擎并无法对当今电子商务提供相对较好的信息查询搜索服务。面向电子商务的垂直搜索引擎正在逐步取得用户的喜爱,大大增加了用户进行购物的需求。尽管垂直搜索引擎已经进入各行各业当中,但是面向电子商务的搜索引擎仍然存在着不足。在此,本文对面向电子商务的垂直搜索引擎展开了深入研究和分析。本文主要围绕面向电子商务的垂直搜索引擎的设计和实现技术展开研究工作。本文研究了通用搜索引擎与垂直搜索引擎的设计架构、工作原理并进行比较其异同,介绍学习了相关关键技术,包括了开源网络蜘蛛、中文分词、主题相关度、排序算法及Lucene等知识,并重点研究了垂直搜索引擎的个性化推荐算法。在此基础上,围绕垂直搜索引擎的需求,提出了利用矩阵填充的算法进行个性化推荐的方法,利用天猫数据对算法进行了比较分析,研究其可行性。解决电子商务搜索引擎无法准确推荐的问题。在此基础上,围绕电子商务搜索引擎的系统结构,设计实现了基于Heritrix+Lucene的面向电子商务的垂直搜索引擎的系统。对面向电子商务的垂直搜索引擎的发展具有十分现实的作用。
李耀华,杨海燕[2](2013)在《论网络爬虫搜索策略》文中研究说明以何种策略来访问web资源是搜索引擎研究的热点之一。通过比较通用搜索引擎和专业搜索引擎的搜索策略,针对"最好策略"的几种策略方案进行了优缺点的分析,总结了关于提高网络爬虫搜索效率的关键,旨在使人们对爬虫的搜索算法有一个全面大概的了解。
刘相琴[3](2013)在《大豆主题垂直搜索引擎关键技术的研究与设计》文中认为随着互联网技术的快速发展,网络信息资源呈现出爆炸性增长态势,如何快速找到满足用户需求的信息成为越来越重要的问题。目前,搜索引擎已成为互联网最重要的应用之一,传统的通用搜索引擎为所有用户提供统一接口,但随着信息量的持续增长,其已不能满足特定领域用户对信息准确性、实时性和深度等多方面的个性化需求,因而,专门用来查询某一学科领域或主题的搜索引擎即“垂直搜索引擎”应运而生,并得到快速的发展和广泛的应用。本课题来源于星火计划项目,立足于粮食主产区农业现实状况,针对农业信息化中普遍存在的信息资源共享程度低的问题,尤其是大豆产业信息化建设,为从事大豆生产加工、科研及流通工作的人员提供共享数据资源。本文采用垂直搜索技术对互联网上农业领域中的大豆相关信息进行采集、过滤,为以“中国大豆网”为标志的门户网站构建大豆信息库,同时,设计了面向大豆主题的垂直搜索引擎构架,对其关键技术开展研究,并实现了原型系统。本文的主要研究内容如下:(1)首先,明确本文研究目的和意义,分析垂直搜索引擎以及其在农业领域中应用的研究现状和动态;其次,对通用搜索引擎和垂直搜索引擎的发展、结构、原理以及各自的优劣进行分析、比较,并基于大豆主题,对主题搜索引擎的系统结构进行设计。(2)网页信息采集的核心是网络蜘蛛,其自动地在互联网上按照一定的搜索策略进行搜索爬行,并将搜集的信息存储到本地。主题网络蜘蛛与通用网络蜘蛛最大的区别是,前者是有选择地抓取主题相关的页面,而后者则是“见网页就抓”。本文对主题网络蜘蛛的结构、原理、搜索策略以及主题相关度分析算法进行深入研究和分析,考虑链接锚文本和网页标题对相关度的影响以及链接陷阱问题,对已有的链接分析算法进行改进。(3)索引可以提高检索效率,本文索引能够有效提高管理与审核模块加载数据的速度。索引对象是经过中文分词处理的网页文档,中文分词就是将连续的字序列拆分成词序列的过程。本文对已有的分词算法和倒排索引技术以及开源Lucene索引框架的索引过程和搜索过程进行研究,由于Lucene自带的中文分词不够精确,因此,采用基于IKAnalyzer分词的Lucene索引框架。(4)基于上述研究,按照软件工程学的理论对面向大豆主题的垂直搜索引擎原型系统进行实现,主要是对该系统中的网页信息采集、索引和管理与审核模块进行实现,最终为大豆门户网站提供大豆相关数据。综上所述,本文以国内主要大豆网站为初始抓取的目标网站(如中国农产品交易网、中国粮油信息网、黑龙江省农业信息网、天下粮仓等),基于Java技术对面向大豆主题的垂直搜索引擎原型系统进行实现,为大豆门户网站提供数据支撑,同时,为面向大豆主题信息的查询提供了理论基础,本文的研究也可作为其他农业主题搜索引擎的参考。
徐勇[4](2013)在《高校就业信息平台的垂直搜索引擎实现》文中提出目前,人们主要通过搜索引擎在网络中获取自己需要的信息,随着网络中信息量的迅猛增长,人们对搜索引擎技术的依赖性越来越大。但是,通用搜索引擎大而全的搜索效果已经不能满足在某些专业领域的高精度检索要求。在检索限定在一个专业领域的深度检索的时候,通用搜索引擎的准确性和全面性就很难让用户满意。因此,使用垂直搜索引擎,进行某一领域专业而深入的查询,给用户返回准确性高和相关度高的结果就变得极为重要。本文利用Lucene和Heritrix技术,结合本、专科学生就业招聘信息现况,采集网上的招聘信息,分析需求背景,设计和实现了高校毕业生就业招聘信息平台中的搜索引擎。主要工作如下:(1)需求分析:以我校最近十年的就业招聘信息及网络中发布的招聘信息结合学生的实际需求为研究对象进行需求分析,初步划分本系统的功能架构和设计框架。(2)详细分析了Lucene提供的索引功能和检索功能,并在此基础上建立了基于高校招聘信息的垂直搜索引擎的索引器以及检索器。(3)建立根据网络热度及用户已输入词相关的专业关联词库,采用预测主题的高效算法,提高搜索的准确度。(4)本系统建立在Windows XP系统上,采用Tomcat和JSP作为开发工具,数据库使用SQL Server。在本校网站的试用验证了本系统的实用性,本系统基本实现了预定目标。
连雁平,章甲午[5](2012)在《网络蜘蛛模拟系统分析与设计》文中认为网络蜘蛛是搜索引擎的基础和底层技术,已成为搜索引擎重点研究和发展的方向。本文在网络蜘蛛的基本结构和工作原理基础上,分析网络蜘蛛的相关算法,结合多线程、HTTP访问、页面处理等理论,采用.NET平台下的C#语言分析与设计了基于WinForm的网络蜘蛛模拟系统。
李浩,蒋苹[6](2012)在《网络蜘蛛的研究与实现》文中研究指明本文从搜索引擎的应用出发,探讨了网络蜘蛛在搜索引擎中的作用和地位,提出了网络蜘蛛的功能和设计要求。在对网络蜘蛛系统结构和工作原理所做分析的基础上,研究了线程调度、页面爬取等策略和方法。然后选取了几种常见的网络蜘蛛算法进行比较,并综合应用试验法和归纳法研究它们的性能。
张婷[7](2011)在《分布式网络搜索引擎的研究与实现》文中提出由于搜索引擎经济的兴起带动了整个互联网经济的复苏,搜索引擎经济也从另一方面向世人展示了互联网仍潜藏着为人所不知的惊天商机,业界开始将更多的目光放在各搜索引擎的性能和流量等方面的关注上。伴随着信息时代而来的信息爆炸,互联网上的信息每天以指数级的速度增长,各行业以及互联网个人用户纷纷借助于搜索引擎技术来处理数据,小到本地文件的搜寻,大至互联网数据的检索。本文针对不同搜索方案的需求,提出了一种易扩展的分布式搜索引擎的构架,并重点对其进行了设计和实现。论文在详细阐述网络搜索引擎的相关理论和技术的基础上,有针对性地对关键技术进行分析讨论,以实现一个可分布式采集和查询,可以为某一行业以及相关软件系统提供网络数据索引和检索的功能系统为目的。论文主要工作如下:介绍了目前搜索引擎的研究现状、存在的问题以及发展趋势;阐述了搜索引擎的工作原理以及各部分的主要功能;系统介绍了搜索引擎内核实现的原理和相关实现方法。为了能高效、便捷地满足用户的信息需求,弥补传统个性化技术的不足,提出基于语义的自适应网页推荐模式,采用语义本体和用户查询倾向机制构建自适应的语义用户模型,并采用语义质心聚类技术来提高推荐的准确率。实验结果表明,与其它推荐方法相比该算法具有更高的推荐准确率和召回率。在插件机制的基础上,设计实现了一个可扩展,并且可以进行分布式查询的搜索引擎体系结构。每一台索引机器负责特定域名信息的采集和索引,对于存储在不同机器上的网页数据可以进行并行检索。重点阐述了搜索系统框架的实现,在分析系统各模块之间关系的基础上,介绍了各模块的实现原理。总体上,本文论述了基于插件机制的可分布式查询和采集的完整的搜索引擎的设计方法,并且改进了语义网页推荐模式。经验证,所实现的搜索引擎的架构体系具有良好的实用性。
王明国,胡敬仓[8](2011)在《主题搜索引擎中网络蜘蛛搜索策略的研究》文中指出主题网络蜘蛛的搜索策略是主题搜索引擎的核心部分,是近年来主题搜索引擎研究中的热点问题之一。深入研究了主题网络蜘蛛的关键技术,阐述了多线程网络蜘蛛的实现过程,并对传统的VSM算法和PageRank算法进行了改进,提高了主题网络蜘蛛采集信息的有效性和准确性。
吕晓昶[9](2011)在《面向交易信息的垂直搜索引擎搜索机制研究与实现》文中研究表明垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的一种新的搜索引擎服务模式,它通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,极具行业色彩。本论文研究通用搜索引擎和垂直搜索引擎的原理和关键技术的异同,并特别侧重于垂直搜索引擎的专业网络爬虫和网页结构化信息抽取技术的研究。Lucene与Heritrix是完全由java开发,并且开源的软件,它们分别提供了一个网络蜘蛛的框架和全文检索系统的框架,可以方便快速的帮助我们进行一个全文检索系统的搭建。因此,通过Lucene与Heritrix构建一个全文检索系统的实施方案,无疑为企业的中小型全文检索服务提供了一个自我快速定制检索系统的捷径。本文利用Lucene与Heritrix设计实现了一个面向交易信息的垂直搜索引擎系统,在信息采集时主要从固定网站获取电脑网络方面的交易信息。本文在设计实现时,对于垂直搜索引擎的网络爬虫技术的信息采集模块设计中,对Heritrix的功能扩展,提出了另一种更为简单的系统功能扩展模式:通过继承Extractor及FrontierScheduler模块,对其功能进行完善,满足对网页抓取的可控性。
尉建兴[10](2011)在《基于Lucene搜索引擎的研究与应用》文中研究指明搜索引擎是信息检索必备的工具,也是一门非常适用的技术,虽然各大搜索引擎在不断地完善和发展自己的技术,但是仍然满足不了用户的需求,随着用户的数量和互联网的信息量不断增加,对搜索引擎提出了更高的要求,如何从海量信息中快速地、准确地获取有价值的信息,成为各大搜索引擎研究的主题。本文应用Lucene检索工具包实现了搜索引擎的索引、检索过程,并与PageRank算法相结合,改善了页面排序算法;针对Nutch系统中WebCrawler的不足,在网路蜘蛛的爬取策略、去重技术和更新技术方面做了改进;分词算法采用基于最大匹配算法和概率相结合的分词算法;利用K-means的聚类算法实现了web文本聚类,提高了检索结果的相关性;综合利用各种技术,实现一个完整的搜索引擎系统。本文所做工作如下:第一、实现了基于Lucene全文索引和检索的过程,并设计了最大匹配算法和概率相结合的分词算法。第二、利用Nutch系统中的Web Crawler的基本模型,选取了PageRank算法作为网络蜘蛛的爬取策略,使用基于URL和内容的去重算法去除重复页面,用Quartz作业调度系统实现了定时调用网络爬虫,完成了对本地页面批量更新,进一步提高了信息的实时性。第三、针对PageRank和Lucene排序算法的不足,改进了PageRank算法和Lucene自身排序算法,综合利用两种算法实现页面排序,使排序结果更加合理;实现了web文本聚类,采用K-means聚类算法对检索结果聚类,提高检索结果的相关性。
二、搜索引擎中网络蜘蛛搜索策略比较研究(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、搜索引擎中网络蜘蛛搜索策略比较研究(论文提纲范文)
(1)面向电子商务的垂直搜索引擎的研究和实现(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究的背景与意义 |
1.2 搜索引擎的分类 |
1.3 国内外发展现状 |
1.4 本章小结 |
第2章 搜索引擎的工作原理 |
2.1 通用搜索引擎 |
2.1.1 通用搜索引擎的概念 |
2.1.2 通用搜索引擎的工作原理 |
2.1.3 通用搜索引擎的局限性 |
2.2 垂直搜索引擎 |
2.2.1 垂直搜索引擎概念 |
2.2.2 垂直搜索引擎的特点 |
2.3 垂直搜索引擎与通用搜索引擎的比较 |
2.4 本章小结 |
第3章 垂直搜索引擎关键技术的研究 |
3.1 垂直网络蜘蛛技术 |
3.1.1 网络蜘蛛的基本原理 |
3.1.2 网络蜘蛛的抓取策略 |
3.1.3 Robots协议 |
3.1.4 开源的网络蜘蛛 |
3.2 中文分词 |
3.3 主题相关度分析 |
3.3.1 布尔模型 |
3.3.2 向量模型 |
3.3.3 概率模型 |
3.4 网页排名 |
3.4.1 词频统计法 |
3.4.2 基于链接的分析法 |
3.4.3 改进的链接分析法 |
3.5 检索与索引技术 |
3.5.1 Lucene概述 |
3.5.2 Lucene的系统结构 |
3.5.3 Lucene的索引机制 |
3.5.4 Lucene的倒排索引 |
3.5.5 Lucene的检索机制 |
3.5.6 Lucene的优点 |
3.6 本章小结 |
第4章 电子商务垂直搜索引擎的个性化推荐 |
4.1 研究的目的 |
4.2 研究的方案 |
4.3 矩阵填充 |
4.3.1 矩阵填充的概念 |
4.3.2 矩阵填充的应用 |
4.4 相关算法的研究 |
4.4.1 奇异值阈值(SVT)算法 |
4.4.2 加速近端梯度算法(accelerated proximal gradient,APG) |
4.4.3 非精确增广拉格朗日乘子法(IALM) |
4.5 结果分析 |
4.6 本章小结 |
第5章 面向电子商务的垂直搜索引擎的模块设计与实现 |
5.1 系统环境 |
5.2 总体框架设计 |
5.3 网络蜘蛛的结构设计与实现 |
5.3.1 网络蜘蛛总体流程 |
5.3.2 网络蜘蛛的实现 |
5.4 网页预处理 |
5.5 主题索引模块 |
5.6 用户接口及页面设计 |
5.7 本章小结 |
第6章 总结和展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
攻读学位期间发表的学术论文 |
致谢 |
(2)论网络爬虫搜索策略(论文提纲范文)
一、网络爬虫基本工作原理 |
(一) 网络爬虫的基本结构。 |
(二) 网络爬虫的工作流程。 |
(三) 网络爬虫的搜索策略。 |
二、遍历搜索策略 |
(一) 宽度优先策略。 |
(二) 深度优先策略。 |
三、最好优先策略 |
(一) 基于内容评价的搜索策略。 |
(二) 基于链接结构评价的搜索策略。 |
1. PageRank (网页级别) 算法。 |
2. Hits算法。 |
(三) 基于巩固学习的搜索策略。 |
(3)大豆主题垂直搜索引擎关键技术的研究与设计(论文提纲范文)
摘要 |
Abstract |
1 引言 |
1.1 课题背景 |
1.2 课题研究目的和意义 |
1.3 垂直搜索引擎国内外研究现状 |
1.3.1 垂直搜索引擎研究现状 |
1.3.2 垂直搜索在农业领域中的研究动态 |
1.4 本文主要研究内容和组织结构 |
2 主题搜索引擎系统结构设计 |
2.1 搜索引擎发展 |
2.1.1 搜索引擎分类 |
2.1.2 搜索引擎技术发展史 |
2.2 通用搜索引擎 |
2.2.1 通用搜索引擎体系结构 |
2.2.2 通用搜索引擎的局限性 |
2.3 垂直搜索引擎 |
2.3.1 垂直搜索引擎体系结构 |
2.3.2 垂直搜索引擎的优势 |
2.4 系统结构设计 |
2.4.1 主题搜索引擎的系统结构设计 |
2.4.2 系统关键技术 |
2.5 本章小结 |
3 网页信息采集关键技术 |
3.1 网络蜘蛛概述 |
3.1.1 网络蜘蛛结构 |
3.1.2 机器人协议 |
3.1.3 开源网络蜘蛛 |
3.2 主题网络蜘蛛模型 |
3.2.1 主题网络蜘蛛的原理 |
3.2.2 主题网络蜘蛛结构及工作流程 |
3.3 网络蜘蛛搜索策略 |
3.4 主题相关度分析算法 |
3.4.1 基于内容的分析算法 |
3.4.2 基于链接的分析算法 |
3.5 改进的链接分析算法 |
3.6 本章小结 |
4 索引相关技术 |
4.1 中文分词技术 |
4.1.1 基于字符串匹配的分词方法 |
4.1.2 基于统计的分词方法 |
4.1.3 基于理解的分词方法 |
4.2 索引技术 |
4.2.1 倒排索引 |
4.2.2 索引构建方法 |
4.3 Lucene 框架结构介绍 |
4.4 基于 IKAnalyzer 分词的 Lucene 索引 |
4.5 本章小结 |
5 大豆主题垂直搜索引擎的实现 |
5.1 可行性研究及需求分析 |
5.1.1 可行性研究 |
5.1.2 需求分析 |
5.2 数据库设计 |
5.3 信息采集模块的设计与实现 |
5.3.1 大豆主题网络蜘蛛结构设计 |
5.3.2 URL 管理器实现 |
5.3.3 网页下载器实现 |
5.3.4 网页解析实现 |
5.3.5 大豆主题相关度分析 |
5.4 大豆主题索引实现 |
5.5 管理与审核模块 |
5.5.1 功能描述 |
5.5.2 管理与审核模块实现 |
5.6 本章小结 |
6 总结与展望 |
6.1 全文总结 |
6.2 研究展望 |
致谢 |
参考文献 |
攻读硕士学位期间发表的学术论文 |
(4)高校就业信息平台的垂直搜索引擎实现(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题研究背景 |
1.2 研究目的及意义 |
1.3 国内外研究现状 |
1.4 主要研究内容 |
1.5 本文论文结构 |
第2章 搜索引擎相关技术 |
2.1 通用搜索引擎 |
2.1.1 搜索引擎的概念 |
2.1.2 搜索引擎的发展历史 |
2.1.3 搜索引擎的分类 |
2.2 通用搜索引擎工作原理 |
2.3 网页信息采集 |
2.3.1 网络爬虫 |
2.4 信息处理 |
2.4.1 索引器工作过程 |
2.4.2 索引器的数据结构 |
2.4.3 倒排文件索引结构 |
2.5 查询服务 |
2.5.1 检索功能概述 |
2.5.2 检索工作过程 |
第3章 垂直搜索引擎的关键技术 |
3.1 垂直搜索引擎不同于通用搜索引擎之处 |
3.2 爬虫技术 |
3.2.1 垂直搜索引擎爬行算法 |
3.2.2 主题描述 |
3.3 网页处理技术 |
3.3.1 分析网页 |
3.3.2 结构化信息抽取系统的结构 |
第4章 高校就业信息平台总体设计 |
4.1 需求分析 |
4.2 垂直搜索引擎体系结构 |
4.3 系统开发环境与运行环境 |
4.4 系统的逻辑功能模块设计 |
第5章 高校就业信息平台详细设计与实现 |
5.1 招聘信息采集模块的实现 |
5.1.1 元搜索算法 |
5.1.2 搜索过程的实现 |
5.1.3 网页爬行的控制模块实现 |
5.2 页面分析与招聘信息的自动抽取 |
5.3 信息索引模块的实现 |
5.3.1 系统索引的建立 |
5.3.2 索引的优化 |
5.4 信息查询模块的实现 |
5.4.1 搜索的实现 |
第6章 总结与展望 |
6.1 研究总结 |
6.2 不足与展望 |
参考文献 |
致谢 |
(5)网络蜘蛛模拟系统分析与设计(论文提纲范文)
引言 |
1 网络蜘蛛基本结构和工作原理 |
2 网络蜘蛛相关算法 |
2.1 Page Rank算法 |
2.2 HITS算法 |
3 网络蜘蛛模拟系统分析设计 |
4 总结 |
(6)网络蜘蛛的研究与实现(论文提纲范文)
1. 前言 |
2. 网络蜘蛛的工作原理和设计要求 |
2.1 网络蜘蛛的工作原理 |
2.2 网络蜘蛛的设计要求 |
3. 网络蜘蛛算法研究与比较 |
3.1 广度优先与深度优先算法 |
3.2 贪婪策略和非贪婪策略 |
3.2.1 贪婪搜索策略 |
3.2.2 贪婪搜索策略 |
4. 网络蜘蛛的程序实现 |
5. 结束语 |
(7)分布式网络搜索引擎的研究与实现(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 课题提出的背景 |
1.1.1 搜索引擎的概念及类型 |
1.1.2 现阶段中文搜索引擎存在的主要问题 |
1.2 国内外研究现状 |
1.2.1 搜索引擎的国外研究现状 |
1.2.2 搜索引擎的国内研究现状 |
1.3 本文结构 |
第二章 搜索引擎数据抓取技术研究 |
2.1 HTTP 协议 |
2.1.1 请求消息 |
2.1.2 响应消息 |
2.1.3 网页爬行过程中的正则规则 |
2.2 数据获取 |
2.2.1 网络蜘蛛功能需求 |
2.2.2 网络蜘蛛实现原理 |
2.2.3 网络蜘蛛系统结构 |
2.2.4 网页采集程序设计和实现 |
2.3 本章小结 |
第三章 搜索引擎信息处理技术研究 |
3.1 文档分析与中文分词 |
3.1.1 文档分析预处理 |
3.1.2 中文分词技术 |
3.2 信息索引 |
3.2.1 网页索引功能需求 |
3.2.2 网页索引实现原理 |
3.2.3 索引过程的设计与实现 |
3.3 检索查询与结果排序 |
3.3.1 检索查询基本流程 |
3.3.2 结果排序工作过程 |
3.3.3 结果排序方法 |
3.5 本章小结 |
第四章 分布式搜索引擎关键技术研究 |
4.1 分布式搜索引擎 |
4.1.1 分布式搜索引擎介绍 |
4.1.2 分布式搜索引擎原理 |
4.2 信息抓取 |
4.2.1 对基于超链接信息搜索策略的改进 |
4.2.2 DNS 转化实现策略 |
4.2.3 分布式抓取算法 |
4.3 基于语义质心的推荐算法 |
4.3.1 构造语义连通图 |
4.3.2 基于语义质心的网页推荐算法 |
4.3.3 实验分析 |
4.4 基于插件的体系结构 |
4.5 本章小结 |
第五章 分布式搜索引擎系统的实现与测试 |
5.1 信息采集模块 |
5.2 信息处理模块 |
5.3 数据检索模块 |
5.3.1 数据检索模块的改进 |
5.3.2 数据检索算法的实现 |
5.4 系统性能测试 |
5.4.1 系统测试环境 |
5.4.2 系统测试用例 |
5.4.3 测试结果分析 |
5.5 本章小结 |
第六章 总结和展望 |
6.1 对现有工作的总结 |
6.2 进一步研究的地方 |
参考文献 |
作者简历、攻读硕士学位期间完成的主要工作 |
一、个人简历 |
二、攻读硕士学位期间发表的学术论文 |
三、攻读硕士学位期间科研成果 |
致谢 |
(8)主题搜索引擎中网络蜘蛛搜索策略的研究(论文提纲范文)
1 引 言 |
2 主题搜索引擎中网络蜘蛛的结构 |
3 主题搜索引擎中关键技术研究 |
3.1 并行网络蜘蛛的设计 |
3.2 页面相关度算法 |
3.3 链接相关度算法 |
4 结 束 语 |
(9)面向交易信息的垂直搜索引擎搜索机制研究与实现(论文提纲范文)
摘要 |
ABSTRACT |
创新点摘要 |
第一章 绪论 |
1.1 课题研究内容 |
1.2 课题背景 |
1.3 选题目的与意义 |
第二章 搜索引擎原理及技术介绍 |
2.1 通用搜索引擎概述 |
2.1.1 搜索引擎的原理 |
2.1.2 搜索引擎的分类 |
2.2 搜索引擎的关键技术 |
2.2.1. Spider 技术 |
2.2.2 中文分词技术 |
2.2.3 页面扫描技术 |
2.3 垂直搜索引擎 |
2.3.1 垂直搜索引擎的定义 |
2.3.2 垂直搜索引擎的优势 |
2.3.3 垂直搜索引擎的发展 |
第三章 垂直搜索引擎的关键技术 |
3.1 权威网页和中心网页 |
3.2 专业网络爬虫技术 |
3.2.1 专业网络蜘蛛的工作原理及关键技术概述 |
3.2.2 主题判别 |
3.2.3 网页搜索策略 |
3.3 网页的结构化信息抽取技术 |
3.3.1 信息抽取技术概述 |
3.3.2 信息抽取技术的评价标准 |
3.3.3 Web 页面信息抽取技术概述 |
3.3.4 Web 信息抽取关键技术 |
3.3.5 Web 信息抽取方法 |
3.4 Heritrix 分析与研究 |
3.4.1 Heritrix 简述 |
3.4.2 Heritrix 的架构及组件 |
3.5 Lucene 分析与研究 |
3.5.1 Lucene 简述 |
3.5.2 Lucene 的特点 |
第四章 面向交易信息的垂直搜索引擎设计与实现 |
4.1 系统功能需求分析 |
4.1.1 系统功能需求分析 |
4.1.2 系统功能 |
4.2 系统总体设计 |
4.3 信息采集模块设计与实现 |
4.3.1 定向网页抓取性能分析 |
4.3.2 定向网页抓取机制设计 |
4.3.3 信息采集模块设计与实现 |
4.4 数据库模块设计与实现 |
4.5 系统检索模块设计与实现 |
4.5.1 Lucene 检索机制 |
4.5.2 检索模块设计与实现 |
4.5.3 排序机制 |
4.6 测试结果 |
结论 |
参考文献 |
致谢 |
硕士专业学位授予信息表 |
论文摘要 |
(10)基于Lucene搜索引擎的研究与应用(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 选题背景及意义 |
1.2 国内外研究现状 |
1.3 本文主要工作 |
1.4 论文组织 |
第二章 Web搜索引擎技术概述 |
2.1 Web搜索引擎类型简介 |
2.2 Web搜索引擎的体系结构 |
2.3 Web搜索引擎的工作原理 |
2.4 Web搜索引擎的发展方向 |
2.5 本章小结 |
第三章 基于Lucene的索引结构和页面排序 |
3.1 倒排索引技术 |
3.1.1 全文索引技术 |
3.1.2 倒排索引原理 |
3.2 全文检索工具包Lucene |
3.2.1 Lucene简介 |
3.2.2 Lucene的系统结构 |
3.2.3 Lucene的索引结构分析 |
3.2.4 Lucene的优点与不足 |
3.3 Lucene排序算法的研究与改进 |
3.3.1 原排序算法 |
3.3.2 改进的Lucene页面排序算法 |
3.4 本章小结 |
第四章 搜索引擎关键技术实现 |
4.1 网络蜘蛛基本模型 |
4.1.1 网络蜘蛛简介 |
4.1.2 网络蜘蛛爬取策略 |
4.1.3 网页去重检查技术 |
4.1.4 网页更新技术 |
4.2 中文分词算法设计 |
4.2.1 中文分词体系 |
4.2.2 中文分词方法 |
4.2.3 最大匹配算法与概率相结合的分词算法 |
4.2.4 分词算法评价 |
4.3 Web文本聚类技术在检索结果中的应用 |
4.3.1 K-means聚类算法 |
4.3.2 文本聚类算法步骤 |
4.3.3 使用K-means算法对搜索结果进行聚类 |
4.3.4 K-means聚类算法评价 |
4.4 本章小结 |
第五章 基于Lucene搜索引擎系统的实现 |
5.1 搜索引擎总体结构 |
5.2 搜索引擎系统的实现 |
5.2.1 索引系统的实现 |
5.2.2 检索系统的实现 |
5.2.3 用户接口 |
5.3 本章小结 |
第六章 总结与展望 |
参考文献 |
致谢 |
攻读学位期间发表的学术论文目录 |
四、搜索引擎中网络蜘蛛搜索策略比较研究(论文参考文献)
- [1]面向电子商务的垂直搜索引擎的研究和实现[D]. 刘鸣. 云南师范大学, 2016(02)
- [2]论网络爬虫搜索策略[J]. 李耀华,杨海燕. 山西广播电视大学学报, 2013(02)
- [3]大豆主题垂直搜索引擎关键技术的研究与设计[D]. 刘相琴. 东北农业大学, 2013(10)
- [4]高校就业信息平台的垂直搜索引擎实现[D]. 徐勇. 河北大学, 2013(02)
- [5]网络蜘蛛模拟系统分析与设计[J]. 连雁平,章甲午. 安阳工学院学报, 2012(06)
- [6]网络蜘蛛的研究与实现[J]. 李浩,蒋苹. 科技信息, 2012(26)
- [7]分布式网络搜索引擎的研究与实现[D]. 张婷. 解放军信息工程大学, 2011(07)
- [8]主题搜索引擎中网络蜘蛛搜索策略的研究[J]. 王明国,胡敬仓. 微处理机, 2011(04)
- [9]面向交易信息的垂直搜索引擎搜索机制研究与实现[D]. 吕晓昶. 东北石油大学, 2011(04)
- [10]基于Lucene搜索引擎的研究与应用[D]. 尉建兴. 太原理工大学, 2011(08)
标签:搜索引擎论文; lucene论文; 垂直搜索论文; 搜索引擎基本工作原理论文; 搜索引擎原理论文;