一、分布式Web Crawler的研究:结构、算法和策略(论文文献综述)
孟慧君[1](2019)在《基于Bloom Filter算法的URL去重算法研究及其应用》文中提出随着互联网技术的快速发展,各种各样的网络信息也呈指数级增长,海量而复杂的网络信息给人们提供更多可用数据的同时,有效的信息检索难度也越来越大。在这种情况下,我们就需要一个信息检索工具来进行有效信息的检索,那就是搜索引擎。网络爬虫作为搜索引擎中的核心技术,为用户的信息检索提供了很大便利。本文的主要研究内容就是关于网络爬虫相关技术。网络爬虫系统根据初始种子URL,获取网页中的下层链接并放入待爬取URL列表,逐层进行直至到达系统设置最大层级或者到达最终所需信息所在页面,然后对该页面进行解析,最终获取到页面中用户所需信息。在爬虫获取网页数据过程中,各个层级中获取到的URL链接可能存在大量的重复,比如根据图书分类页爬取某个网站图书的信息时,同一本图书很可能会有多个分类标签,当对不同标签下的图书进行爬取时,就可能出现多次爬取到同一本图书的情况,这就导致了在执行过程中系统需要重复获取和解析相同页面,从而造成了时间以及存储空间的很大浪费。另外我们熟悉的单线程模式的数据处理方式在在进行URL处理时比较耗时,导致系统执行效率较低。针对上述问题,本文从提高爬虫系统检索效率和准确率的角度出发主要做了以下工作:1.对影响爬虫效率的因素进行研究,考虑到爬虫系统中主要的工作量在于获取和解析网页,当URL重复时,多次解析同一个页面就造成了CPU资源的浪费,降低了爬虫系统效率且浪费了系统的存储空间。为了解决这一问题,本文对比多种URL去重策略,然后对更加适合于URL去重的布隆过滤算法(Bloom Filter)进行深入的研究并对其存在的误判率较高的缺点进行改进,提出多特征值Hash拆分映射布隆过滤算法,并从理论和实验两方面论证改进型算法的有效性。2.为了提高爬虫系统运行效率,在使用上述改进型布隆过滤器算法对存在重复的URL链接进行去重的过程中,提出采用并行动态任务分配的策略实现URL消重。该并行方法不同于常见的通过消息队列实现URL互斥读取并进行处理的并行方式。该并行策略是将URL数据集进行分块并为每一个数据块分配一个线程来实现多个数据块的并行去重操作,这样就避免了多线程对同一URL数据集互斥读数时额外的消耗数据读取和消重的等待时间的问题。接着在对数据进行分块后,为每一个数据块增加一个监控线程用来检测数据块中URL剩余量,以便于及时的为已经处理完的数据块调取数据,实现线程间的动态数据量调整,进一步提高并行效率。3.最后针对项目需求,设计并实现了针对某网站图书信息的网络爬虫系统,在获取到图书详情页URL后,将本文提出的改进型布隆过滤器算法和并行动态任务分配策略应用在该系统中来进行URL的去重操作。通过实验证实,本文提出的改进型布隆过滤器算法在达到了较好的URL去重效果的同时,也降低了URL去重的误判率,提高了数据去重中的误判率。本文提出的URL消重算法在执行过程中采用并行动态任务调整的处理方法,有效提高了CPU的利用率,加快了URL消重速度,同时也提高了系统执行效率。
韩瑞昕[2](2019)在《面向分布式的通用网络爬虫系统关键技术研究与实现》文中提出随着互联网的飞速发展,网络上的数据呈指数增长。用户获取信息的一个重要途径就是通过搜索引擎,搜索引擎通过抓取全网数据来为用户提供搜索。中小型的数据抓取需求使用单机爬虫即可满足,然而在遇到大型的数据抓取需求时,为了提高整体网络爬虫系统的性能,需要借助分布式技术,通过有效的分工和多台机器之间的协作来提高抓取效率。现有的分布式网络爬虫框架在扩展性和可用性上不够完善,本文提出的面向分布式的通用网络爬虫系统采用当前较为成熟的分布式技术,使得爬虫系统在数据抓取的各方面都有优异的表现。本文的主要工作如下:1)给出了一种基于历史数据的时效性种子页面调度算法。调度模块是网络爬虫系统的核心模块,调度算法的质量直接影响到整个系统的成本和效率。针对种子页面调度不灵活的问题,提出了基于历史数据的时效性调度算法。同时,利用回归预测算法计算模型后,应用在调度模块中,使得算法在成本、命中率、延时上都获得了比较好的效果。2)给出了一种URL归一化去重的挖掘算法。URL去重是影响网络爬虫性能的另一重要因素,去重可以为系统节约大量的存储空间,并且提高后续使用数据时的检索效率。本文通过对去重模块提出挖掘规则来改善URL归一化的效果,减少页面的重复率。同时,对镜像站和无效参数方面的挖掘进行实现,达到了极高的准确率和良好的召回率。3)在上述工作的基础上,设计并实现了分布式通用网络爬虫系统,并确定了分布式系统的物理架构、逻辑架构和数据格式信息。首先,采用Kubernetes来对模块进行管理,用Kafka和Thrift作为模块间的管道,借助日志系统和时序数据库对系统进行可用性监控;然后,对各个模块做了详细的设计,并且应用了调度算法和去重的技术来改造部分模块;最后,经过性能测试后,本文分析了该系统的优缺点,对该系统的实验结果进行了评估。
汪兵[3](2019)在《基于Scrapy框架的分布式爬虫系统设计与实现》文中研究指明如今互联网迅速发展,互联网数据量爆炸式增长,数据形式和内容丰富多样。人们已经认识到海量数据背后巨大的商业价值和研究意义,同时海量的数据也给用户获取和挖掘信息带来一定的挑战,因此如何快速、有效地做数据采集以及从海量数据中抽取有效信息是一个迫切需要解决的问题。网络爬虫获取数据方便快捷,能够帮助我们高效的获取大规模数据,但面向中小型网站的网络爬虫系统往往具有一定的局限,例如单机性能抓取速率的太慢,稳定性有待提高,未能实现分布式抓取来提高速度;另一方面大多数成熟的爬虫程序都是尚未开放,需要付费才能够使用,因此对于爬虫系统深度定制的研究具有很重要的意义。基于上述问题,本文针对海量网页信息的获取及管理的问题,设计并实现一种基于Scrapy框架的轻量级分布式爬虫系统。本文在Scrapy框架基础上结合Redis和Elasticsearch搜索工作来对海量的网页信息进行存储和管理,克服了单机爬虫对数据管理的局限性。本文所做的工作主要有以下几点:(1)针对传统的内存去重策略,实现了基于Redis的布隆过滤器去重方法,将URL字符串表示成二进制向量,降低了字符串数据的空间占用率并且提高去除重复数据的效率,同时在多节点的情况下仍可以保证良好的去重效果。(2)针对异步加载的动态页面采用了模拟浏览器的加载方式,保证在多数情况下能够完整加载动态网页并获取网页的内容。(3)对Scrapy的框架的调度器,数据管道以及下载器等组件进行定制开发,使系统在分布式环境下完成数据地抓取和存储任务。(4)对抓取数据进行统计和分析。本文首先结合Elasticsearch将爬虫获取到的数据进行实时搜索,其次根据主题词统计结果生成词云分布图进行展示,最后提出数据质量优劣的评价指标并使用层次分析法确定评价准则的权重进行计算,得出数据评价结果。
杜凤媛[4](2019)在《自定义分布式网络爬虫的设计与实现》文中指出随着互联网的飞速发展,大数据已经渗透到每个行业和业务功能领域,其价值也越来越显着。提取出有意义有价值的数据尤为重要。因此用于互联网信息采集的网络爬虫面临着巨大的机遇和挑战。目前国内外一些大型搜索引擎只给用户提供不可定制的搜索服务,单机网络爬虫又难当重任,已有的分布式网络爬虫虽然功能强、效率高,但普通用户难以理解和使用。本文设计并实现了一套基于分布式的自定义采集网络爬虫系统。能够精准批量识别各种网页元素并自动生成提取规则,支持不同网页结构的复杂网站采集,满足多种采集应用场景,高效爬取数据。用户利用系统,按照自身需求,可视化编辑爬虫任务脚本,自动完成对爬虫数据的采集。本文的主要工作如下:(1)通过对嵌入式Qt框架的研究,开发嵌入式浏览器并使其具有记录用户网页操作、获取元素定位信息、智能识别网页相似元素等功能,实现自定义爬虫系统的终端图形界面。方便用户可视化编辑爬虫任务,最终生成用户自定义的爬虫任务脚本。(2)借鉴当前scrapy-redis的分布式架构的思想,以redis作为存储任务的队列,实现基于主从式分布式架构的爬虫系统。针对各物理从节点的异构性导致所承载虚拟节点数不同的问题,提出一种自适应调整虚拟节点的算法。物理从节点可实时根据自身负载调整虚拟节点数,保证从节点自身最佳负载;针对中心节点中任务调度问题,提出一种受限负载均衡算法。主节点为并行任务选取负载较小的虚拟节点(集)的同时尽量保证节点集被分配在同一个物理节点上。方便对任务的管理,确保系统中各爬虫节点负载均衡。(3)采用python+selenium技术,设计并实现自定义爬虫。该爬虫通过对爬虫任务脚本进行解析,驱动浏览器按照脚本中的指令,完成对网页的操作,实现自定义采集。同时,为防止爬虫受到站点反爬虫策略的影响,设计并实现动态ip代理池。通过多站抓取、定时异步验证ip有效性、实时监控代理池中ip的数量与质量,为系统提供高质量的ip。
耿峰[5](2018)在《基于Storm的分布式网络爬虫的研究与实现》文中指出随着大数据时代的到来,数据扮演着越来越重要的角色,如何快速、准确地获取到大量的数据成为当务之急。面对海量数据,单机网络爬虫有CPU、IO、带宽等多重限制,抓取数据性能比较低,其已经不能适应大数据时代的数据抓取工作,分布式网络爬虫便应运而生。分布式网络爬虫可以理解为集群爬虫,如果有抓取任务,多台机器同时运行,可以更快更高效的完成任务。本课题结合当下流行的起点中文网,设计并实现了一种基于Storm的分布式网络爬虫,并将其部署在Docker平台上,结合Storm与Docker的多种特性,提升了网络爬虫的抓取性能、可移植性以及扩展性等等。本文基于Storm流式处理框架、Redis高速缓存数据库、Docker容器平台以及网络爬虫的相关知识,设计出基于Storm的分布式网络爬虫,其具有以下特点:首先,将网络爬虫与Storm流式处理框架相结合,使爬虫任务并行化,从而提高网络爬虫的抓取性能;其次,将抓取到的URL存储到Redis高速缓存数据库中,实现对URL的高速存取,提高URL读写速度;然后将抓取到的数据存储到MySQL集群中,并且引入MyCat数据库中间件与MySQL相结合,实现数据库的读写分离、水平拆分;最终将该分布式爬虫系统部署到Docker容器平台上,保持了爬虫系统在跨环境时的一致性以及高可移植性等等。本次实验环境的搭建将使用六台虚拟机搭建Docker容器集群,其中使用四台虚拟机搭建Storm容器集群,在其余两台虚拟机上分别搭建Redis容器集群和MySQL容器集群,并通过设置Storm容器集群中的不同的工作主机数量以及不同的Worker进程数量,分别进行数据抓取测试。从测试结果分析得出,本文设计的分布式网络爬虫的各功能模块运行良好,能够以较高的准确率对数据进行抓取,而且相比单机网络爬虫,其数据抓取效率明显提高,灵活性和扩展性也大大增强。
孙若男[6](2018)在《具有QoS保证的分布式Web服务选择关键技术研究》文中提出随着网络技术、服务计算技术的发展和普及,越来越多可用的Web服务出现在了 Internet上,在这样一个有着大规模服务的开放式服务网络中,Web服务可能广泛分布在不同的物理空间,从属于不同的商业组织,如何有效的管理这些分布式服务,高效的查询访问这些分布式服务,灵活的组合调用这些分布式服务就成了亟待解决的问题。QoS(Quality of Service)是指Web服务的非功能属性,如可用性、可靠性、响应时间、信誉度等等,它直接决定着用户对于服务的体验。用户发起服务请求时,除了硬性的功能属性的需求外,通常对非功能属性也会有一定要求。目前,基于QoS的服务选择方法大都是集中式算法,即为在一个了解全局服务信息的中心节点上进行单一服务或服务组合优选,但这类集中式方法不再适用于当前广泛存在的分布式服务架构。通过对当前服务选择研究现状和分布式服务架构发展趋势的分析,本文针对分布式服务架构、分布式单一服务选择、分布式组合服务选择和Web服务排序这四个问题展开研究,具体工作内容如下:1.提出了一个具有主动监测机制的分布式对等多UDDI架构虽然目前已经有了一些针对分布式服务架构的研究,但多是采用混合分布式结构,即为在整个系统架构中存在一个轻量级的中心节点,不直接对Web服务提供注册功能,只是负责维护各分布式注册节点的信息。虽然这种架构通过减轻中心节点压力提高了系统的健壮性,但是单点失效问题仍无法避开。随着Web服务应用规模的不断扩张,传统SOA架构中的集中式服务注册中心UDDI终将成为系统发展的瓶颈。针对于此,第3章提出了一种具有主动监测机制的分布式多UDDI架构,以对等网络方式组织各个分布式服务注册节点构成Web服务覆盖网络,以实现分布式服务发布注册、查询选择与组合调用等功能。并针对此分布式架构建立了一种主动监测机制,既可以有效的实时监测分布式服务节点的运行状态,也可以提高Web服务的信息的实时有效性。2.提出了一种考虑全局服务质量的分布式服务选择算法目前针对服务选择算法的研究大多假设Web服务是集中注册的,即所有的服务属性信息和执行日志均存储在一个中心节点上,关注点也多是基于全局信息的算法效能改进。但在真实服务计算环境中,一个功能需求可能存在大量符合约束条件的Web服务,而这些服务更是广泛分布在互联网上多个不同的服务注册节点上。这些物理上分散存放的服务通过网络互连,如果直接使用集中式服务选择算法则需要在网络中传输全部符合功能性约束条件的服务信息,这将导致难以接受的通信开销和查询延迟。本文基于skyline查询算法,在分布式服务空间上进行跨节点查询,以相对较小的网络通信消耗来对Web服务进行分布式全局选优。同时引入Top-k思想缩减skyline服务集,找到更具代表性的服务。该服务选择方法可以实现渐进式输出,同时还可根据用户的主观偏好进行灵活动态调整。3.提出了一个具有QoS保证的分布式服务组合选择方法分布式服务架构中不再具有集中式的全局QoS注册中心,服务转由各分布式服务节点进行注册维护,在这些分布在不同物理空间不同网络的服务上显然不可以直接使用现有的服务组合方法选择出适合的结果。本文中提出了一种基于执行规划的动态分布式服务组合选择算法用以解决分布式架构下的跨节点的服务组合选择问题。通过将服务组合按其拓扑结构特点拆分为若干具有关联性的基本结构,过程中边执行边规划,依据QoS约束,使用前序任务执行结果来规约后继任务执行流程选择,实现跨分布式节点选择出适合的服务组合用以提供调用。虽然本算法研究的出发点是针对分布式架构下服务节点间协作完成服务组合选择过程,但对于全集中式的服务架构本文方法也同样适用。最后使用在模拟分布式服务架构环境下进行的一系列实验验证了本文算法的效果。4.提出了一种考虑QoS属性指标均衡性约束的Web服务排序方法在Web服务选择过程中,服务排序是不可或缺的一个环节。排序是将一组Web服务根据某种规则排成一个有序序列。服务排序既可以在服务选择初期对服务集进行初始化筛选以提高选择效率,又可以产生服务选择结果后在此基础上进一步选优。本文的服务排序方法将基于QoS属性的服务排序转化为多指标决策问题进行描述,首先提出了一种主客观组合权重计算方法,然后针对服务QoS属性中的多维指标构建出QoS指标期望函数;在此基础上,计算每个服务的QoS值与均衡性期望的距离及服务的效用值,以此为基础进行排序输出。在实验部分使用了一个实例来表述排序过程,并通过真实数据上的多重迭代实验证明了本方法的有效性和灵活性。
卢杨[7](2016)在《一种基于P2P技术的分布式微博爬虫系统》文中提出在互联网技术飞速发展的今天,微博已经成为一种传播公共信息的重要媒体。通过微博近乎实时的信息传播渠道,相关部门可以利用微博来监测舆情,针对突发事件快速做出应对。因此高效、准确地获取微博数据以供研究分析至关重要。传统网页爬虫技术无法获得完整的微博信息,而微博API平台有一定的功能制约,对连接次数也有限制,无法获取海量的微博数据资源。针对以上问题,本文设计一种基于Chord协议的分布式网络爬虫模型Chord-Crawler,并通过一定的修改操作,将模型实际应用到分布式微博爬虫系统中,系统能够高效、准确、连续的获取海量微博数据。爬虫程序通过模拟登录技术结合传统的网络爬虫程序实现了完整的微博数据爬取,并使用位图法对数据进行去重处理。系统在Chord协议的基础上,利用一致性哈希函数配合微博用户的省份位置信息作为任务分配的策略,通过不断更新节点的省份-节点匹配表,减少任务的转发消耗。系统通过本文提出的动态插入均衡算法平衡网络中各节点的负载,提高系统的整体效率。最后本文通过模拟实验证明了动态插入均衡算法能够高效地完成均衡负载的功能,并通过与其他三种结构的比较体现了本文提出的分布式微博爬虫系统的性能优势,证明本系统的良好性能可以为微博数据分析提供数据支持。
杜亚军[8](2013)在《多Agent主题爬虫协作策略的研究与分析》文中提出在多个Web主题爬虫并行爬行中,如何避免重复访问网页并高效地获取与主题相关网页,成为搜索引擎主题爬行的热点研究内容之一。为完成系统爬行任务充分发挥每个爬虫自身能力,文章立足于每个爬虫相对独立爬行、共同协作、彼此竞争的思想,将爬虫的历史爬行网页作为背景知识,分析这些网页文本内容,提取网页中"概念"和概念间的语义关系,探讨不同爬虫背景知识之间的语义相似性,提出基于分层概念背景图的爬虫之间理解方法、协作和竞争策略。该策略包括4个方面的内容:主题爬虫背景知识的分层概念背景图的表示模型、基于分层概念背景图的爬虫语义理解方法、在语义理解模型下同组多个网络爬虫之间协作与竞争机制及实现、在语义理解模型下异组多个爬虫之间协作与竞争机制及实现。
许笑[9](2011)在《分布式Web信息采集关键技术研究》文中研究指明近20年来,为了应对Web上信息量的不断增长以及信息更新频度的不断提高,Web信息采集系统不断扩大自身规模,其系统结构也从单机到多机,从集中式到分布式逐步演进。至今,分布式系统结构已经成为构建Web信息采集系统的首选方案,而由分布式系统结构所引申出的Web划分问题、任务调度问题和节点协同问题已经成为构建分布式Web信息采集系统的关键技术问题。对这些关键技术问题的深入分析与研究对于提高搜索引擎系统的性能乃至整个Web的可访问性具有重要意义。本文在总结前人工作的基础上,针对分布式Web信息采集系统的若干关键技术问题进行了深入研究。首先,现有的分布式Web信息采集系统乃至分布式搜索引擎系统都缺乏对系统构建中的最根本要素--系统成本的量化评估,为此,本文提出了一个较为完善的包括分布式Web信息采集系统在内的分布式搜索引擎的成本模型,并利用该成本模型对若干种构建搜索引擎系统的设计方案从系统成本、系统规模和查询响应时间等角度进行了详尽的理论分析。我们发现,由广域网分布式采集系统和多机群索引系统组成的半广域网搜索引擎系统相对于其他搜索引擎系统具有相对较低的成本,同时能够较好的兼顾对用户的服务质量。之后,针对在分布式环境下如何能够有效降低网页下载时间这一问题,本文对面向网络距离的Web划分算法进行了研究,给出了适用于分布式采集系统的网络距离的度量标准;基于网络距离和网络坐标系统,我们提出了一种新的Web划分算法,并通过实验验证了其在提高系统吞吐量方面的优越性。针对广域网分布式Web信息采集系统,本文分别在任务调度和节点协同方面提出了若干优化方法:针对Web划分方法在动态调度中的不足,提出了基于任务转发的动态负载均衡算法,避免了采集节点的忙闲不均现象,进一步提高了全系统的吞吐量;针对广域网分布式Web信息采集系统中节点间通信量负载较重的问题,提出通过对Web主机之间链接关系建立坐标模型的方法,实现面向链接关系的Web划分,从而降低了采集节点间通信量中比重最大的链接交换的通信量。最后,为了兼顾分布式Web信息采集中的健壮性、效率和成本,本文提出了一种基于内容寻址网络的广域网分布式Web信息采集系统,该系统能够利用网络上分布在各处的独立的计算资源,组建一个能够完成Web信息采集功能的覆盖网络,从而为这三个问题提供了有效的解决方案:一方面,内容寻址网络这种P2P协议的采用,使得系统可以随着Web一起扩展和壮大;另一方面,Web划分大幅缩短Web信息采集时间,提高了系统的吞吐量及信息更新频率;同时,根据我们提出的成本模型分析,该系统还能够降低系统成本。
吴永辉[10](2010)在《面向专业领域的网络信息采集及主题检测技术研究与应用》文中认为随着互联网应用成为生活中不可缺少的工具,网络用户在查找相关信息时不得不面对各种主题混杂的海量网页信息。快速变化的信息需求使传统搜索引擎越来越难以满足用户更加专业和个性化的需求,用户已经不仅仅满足于相关信息的检索,越来越多的网络用户需要更加专业和个性化的信息服务来获取当前网络上发生的事件和领域信息相关的热点。本文将自然语言处理方法和数据挖掘方法相结合,研究了面向专业领域信息采集的自适应增量更新模型以及领域信息主题检测和新闻推荐的问题,使用自然语言处理技术对领域信息进行精细划分,向网络用户提供专业和个性化的知识服务。及时而完备的信息采集是提供专业领域知识服务的前提。在信息采集技术方面,有关通用网络爬虫采集器部分已经有比较完善的研究,但是对于大规模专业领域信息的增量、自适应采集问题依然没有较好的解决方案。领域信息的增量自适应采集是提供在线领域知识服务的基础。本文针对这一问题提出了领域信息采集的自适应增量更新的模型,有效的提高了在线知识服务系信息采集的效率和质量。面向专业领域的主题检测和热点推荐是知识服务的重要组成部分。在传统主题检测的相关研究中,基于文本聚类算法已经给出了基本的解决方案。但传统的基于文档特征共现的特征提取方法,无法满足专业领域在线主题检测的要求。对于领域信息在线主题检测和新闻推荐系统,网页文本的维度过大是增加系统开销的主要原因。本文提出了一种基于容错粗糙集的特征提取和在线主题检测方法。对于在线主题检测问题,采用以特征词为单位的聚类方法,提出了以半结构化文档中主题性较强区域出现的特征词和名词性词为基础,以容错粗糙集扩展为辅的特征选择和压缩方法,缓解了由于文档数目增加带来的系统开销。实验表明,本文的特征提取和主题聚类方法,可以有效的降低特征空间维数,加快在线主题检测速度,降低聚类结果中不同主题类别之间的覆盖度,提高在线主题检测的准确率。同时,对基于Single-Pass聚类方法的新事件检测问题进行了改进,使用增量TF-IDF模型和时间线分析方法,提出了一种基于时间线分析的Single-Pass在线新事件检测方法。为了进一步提高专业领域主题检测的准确率,本文研究了主题模型在网络主题检测问题中的应用,提出了一种面向专业领域的自适应主题检测方法。对领域信息使用浅层语义分析的方法,提取领域信息基于主题的共现特征。对概率假设不同的几个具有代表性的主题模型进行了比较研究,对比了常见主题模型在主题检测问题中的应用效果。针对传统的基于文档共现特征对语义描述不足的问题,提出了基于主题模型的主题共现特征提取和文档距离描述方法。文本经过主题模型的主题分解过程被映射到潜在语义空间,根据潜在语义结构可以抽取文档的“主题共现”特征。文档潜在的主题结构也可以在语义空间中得到更好的描述。相关实验表明,主题模型可以更有效的抽取文档的主题共现特征,提高领域信息主题检测的准确率,缓解网页规模增加带来的系统性能下降问题。真实网络环境中存在的主题数目是未知且不断变化的。面向专业领域的主题新闻推荐系统,需要自适应的检测出增量更新的网页信息中存在的主题。本文结合LDA主题模型和仿射传播算法提出了一种自适应网络主题检测和基于主题的新闻推荐算法。实验表明,本文提出的自适应主题检测和主题新闻推荐算法,可以根据增量更新网页集的变化,自适应发现接近于真实主题结构的领域信息主题,抓住领域信息的热点,有效的进行基于主题的新闻推荐。
二、分布式Web Crawler的研究:结构、算法和策略(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、分布式Web Crawler的研究:结构、算法和策略(论文提纲范文)
(1)基于Bloom Filter算法的URL去重算法研究及其应用(论文提纲范文)
摘要 |
ABSTRACT |
1 绪论 |
1.1 选题背景与意义 |
1.1.1 选题背景 |
1.1.2 选题的意义 |
1.2 本文研究内容 |
1.3 论文的结构框架 |
1.4 本章小结 |
2 爬虫相关技术与基础理论 |
2.1 网络爬虫 |
2.1.1 爬虫基本原理 |
2.1.2 爬虫流程分析 |
2.2 URL去重简介 |
2.3 常见URL去重算法 |
2.4 页面搜索算法 |
2.4.1 爬虫广度优先搜索 |
2.4.2 爬虫深度优先搜索 |
2.4.3 爬虫最佳优先搜索 |
2.5 网页解析 |
2.6 相关工具软件 |
2.6.1 HTML技术 |
2.6.2 HttpClient技术 |
2.6.3 Log4j技术 |
2.7 本章小结 |
3 基于Bloom Filter算法的URL去重算法研究 |
3.1 Bloom Filter算法 |
3.1.1 Bloom Filter介绍 |
3.1.2 算法误判率分析 |
3.2 Bloom Filter算法改进 |
3.2.1 Bloom Filter算法改进思路 |
3.2.2 算法误判率分析 |
3.3 实验验证 |
3.3.1 实验数据获取 |
3.3.2 流程设计 |
3.3.3 实验验证 |
3.3.4 结果分析 |
3.4 并行动态任务分配策略 |
3.5 本章小结 |
4 改进型URL去重算法的应用 |
4.1 需求分析和总体设计 |
4.1.1 系统目标和需求 |
4.1.2 系统整体流程 |
4.2 系统环境 |
4.3 系统模块实现 |
4.3.1 系统模块结构 |
4.3.2 URL管理器 |
4.3.3 数据爬取模块 |
4.3.4 URL去重模块 |
4.3.5 中断处理 |
4.3.6 数据存储模块 |
4.4 系统执行结果 |
4.5 本章小结 |
5 总结与展望 |
参考文献 |
致谢 |
攻读学位期间发表的论文及参加项目 |
(2)面向分布式的通用网络爬虫系统关键技术研究与实现(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题的研究背景 |
1.1.1 通用网络爬虫 |
1.1.2 时效性种子页面调度 |
1.1.3 URL归一化去重 |
1.2 国内外研究现状 |
1.3 本文的主要研究内容 |
1.4 本文的组织结构 |
第2章 分布式网络爬虫相关技术介绍 |
2.1 网络爬虫介绍 |
2.1.1 网络爬虫分类 |
2.1.2 主流爬虫框架分析 |
2.2 分布式相关框架 |
2.2.1 Docker轻量级容器 |
2.2.2 Kubernetes容器集群管理 |
2.2.3 Hadoop分布式体系 |
2.2.4 Kafka分布式消息队列 |
2.2.5 HBase分布式列存储数据库 |
2.3 系统相关框架及技术 |
2.3.1 Protobuf编码格式 |
2.3.2 OpenTSDB时序数据库 |
2.3.3 Grafana图表可视化 |
2.3.4 Thrift远程调用服务 |
2.3.5 ElasticSearch分布式搜索引擎 |
2.4 网页调度相关算法 |
2.4.1 轮询调度算法 |
2.4.2 一致性哈希算法 |
2.4.3 网页更新变化规律 |
2.4.4 基于历史预测的相关算法 |
2.5 URL去重技术相关算法 |
2.5.1 URL去重介绍 |
2.5.2 基于Bloom Filter的去重算法 |
2.5.3 基于内容相似度的去重算法 |
2.5.4 基于URL归一化的去重算法 |
2.6 本章小结 |
第3章 时效性种子页面的调度算法研究 |
3.1 传统调度算法的不足 |
3.2 基于时效性的调度算法原理 |
3.3 历史数据建模 |
3.4 优化调度模块 |
3.5 实验结果及分析 |
3.5.1 评价方法 |
3.5.2 实验结果 |
3.6 本章小结 |
第4章 URL归一化去重算法研究 |
4.1 归一化算法介绍 |
4.1.1 归一化规则挖掘通用流程 |
4.1.2 页面特征及签名数据 |
4.2 归一化算法具体实现 |
4.2.1 通用归一化处理算法 |
4.2.2 http与 https转换挖掘算法 |
4.2.3 镜像站挖掘算法 |
4.2.4 无效参数挖掘算法 |
4.3 性能评价及分析 |
4.4 本章小结 |
第5章 面向分布式的通用网络爬虫系统设计与实现 |
5.1 系统要求 |
5.2 框架整体设计 |
5.2.1 系统架构 |
5.2.2 流程架构 |
5.3 数据存储结构设计 |
5.4 系统模块设计及实现 |
5.4.1 链接选择模块 |
5.4.2 调度模块 |
5.4.3 抓取模块与下载模块 |
5.4.4 页面分析模块 |
5.4.5 存储模块 |
5.4.6 其他模块 |
5.5 系统评估和分析 |
5.5.1 系统环境 |
5.5.2 功能测试 |
5.5.3 性能测试 |
5.6 本章小结 |
结论 |
参考文献 |
攻读硕士学位期间获得的科研成果 |
致谢 |
(3)基于Scrapy框架的分布式爬虫系统设计与实现(论文提纲范文)
致谢 |
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景 |
1.2 网络爬虫研究概述 |
1.3 分布式爬虫的研究 |
1.4 本文的目标与组织结构 |
第二章 爬虫相关理论和技术 |
2.1 网站解析技术 |
2.1.1 URL去重技术 |
2.1.2 网页解析技术 |
2.1.3 网络爬虫中存在的问题 |
2.2 Scrapy框架相关介绍 |
2.2.1 Scrapy框架基本原理 |
2.2.2 Scrapy框架数据流 |
2.3 网页存储技术 |
2.3.1 MySQL数据库 |
2.3.2 Redis数据库 |
2.3.3 Elasticsearch搜索引擎 |
2.4 分布式爬虫系统的理论基础 |
2.4.1 分布式系统理论 |
2.4.2 分布式爬虫的系统结构 |
2.4.3 Scrapy-Redis的基本原理 |
第三章 爬虫系统的设计 |
3.1 爬虫系统的设计目标 |
3.2 分布式爬虫系统的整体设计 |
3.3 解析配置模块的设计 |
3.3.1 网页结构分析 |
3.3.2 网页解析原理 |
3.3.3 模板化解析工具 |
3.3.4 解析处理流程实例 |
3.4 URL去重设计 |
3.5 模拟登录模块的设计 |
3.5.1 网站Cookie和 Session机制 |
3.5.2 模拟登录的实现流程 |
3.6 数据存储模块设计 |
3.6.1 Redis数据库的设计 |
3.6.2 MySQL数据库的设计 |
3.6.3 异步存储设计 |
3.7 扩展模块设计 |
第四章 爬虫系统具体功能实现 |
4.1 动态加载模块的具体实现 |
4.2 布隆过滤器的实现 |
4.3 模拟登录模块实现 |
4.4 爬虫系统主体功能的实现 |
4.4.1 爬虫的实现过程 |
4.4.2 分布式爬虫的具体实现 |
4.5 防止爬虫被封的措施 |
4.5.1 动态IP的实现 |
4.5.2 爬虫自动限速组件的实现 |
4.5.3 用户代理的设置 |
4.6 数据存储模块的实现 |
4.6.1 Redis集群的搭建 |
4.6.2 MyMQL环境搭建 |
4.6.3 Scrapy-Redis的数据存储 |
第五章 系统测试及数据展示 |
5.1 系统运行环境 |
5.2 去重模块单元测试 |
5.3 数据验证 |
5.4 数据结果展示与分析 |
第六章 总结与展望 |
6.1 工作总结 |
6.2 未来展望 |
参考文献 |
攻读硕士学位期间的学术活动及成果情况 |
(4)自定义分布式网络爬虫的设计与实现(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.3 主要研究工作 |
1.4 论文组织结构 |
第二章 相关理论与技术基础 |
2.1 网络爬虫 |
2.1.1 基本原理 |
2.1.2 网络爬虫的分类 |
2.2 Selenium技术 |
2.2.1 WebDriver工作原理 |
2.2.2 WebDriver功能 |
2.3 分布式关键技术 |
2.3.1 分布式系统结构 |
2.3.2 任务调度策略 |
2.4 Kafka消息系统 |
2.4.1 Kafka基本结构 |
2.4.2 Kafka特点 |
2.5 本章小结 |
第三章 分布式网络爬虫系统设计 |
3.1 系统需求分析与设计目标 |
3.2 系统总体设计 |
3.2.1 系统总体设计结构 |
3.2.2 系统运行机制 |
3.3 数据库设计 |
3.4 本章小结 |
第四章 系统详细设计与实现 |
4.1 客户端详细设计 |
4.1.1 任务编辑界面 |
4.1.2 任务管理界面 |
4.2 服务端详细设计 |
4.2.1 Web Server模块 |
4.2.2 请求解析模块 |
4.2.3 调度器 |
4.3 采集端详细设计 |
4.3.1 爬虫管理器 |
4.3.2 任务分配器 |
4.3.3 数据采集器 |
4.3.4 动态ip代理池 |
4.4 本章小结 |
第五章 系统测试与展示 |
5.1 系统运行环境 |
5.2 系统功能测试 |
5.3 性能测试 |
5.3.1 爬虫管理器模块测试 |
5.3.2 爬虫采集速度测试 |
5.4 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 后续工作展望 |
致谢 |
参考文献 |
攻读硕士学位期间取得的成果 |
(5)基于Storm的分布式网络爬虫的研究与实现(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 课题背景及意义 |
1.2 国内外研究现状 |
1.3 论文的研究内容及结构 |
1.3.1 论文的研究内容 |
1.3.2 论文结构 |
1.4 本章小结 |
第2章 相关技术研究 |
2.1 网络爬虫基本原理 |
2.1.1 网络爬虫体系结构 |
2.1.2 网络爬虫抓取策略 |
2.2 Storm流式处理框架 |
2.2.1 Storm的基本组成 |
2.3 数据库介绍 |
2.3.1 Redis高速缓存数据库 |
2.3.2 MyCat数据库中间件 |
2.4 Docker |
2.4.1 Docker在开发和运维中的优势 |
2.4.2 Docker与虚拟机的比较 |
2.5 本章小结 |
第3章 分布式网络爬虫系统设计 |
3.1 设计目标 |
3.2 功能需求分析 |
3.2.1 URL队列库功能分析 |
3.2.2 URL链接优化功能分析 |
3.2.3 网页抓取功能分析 |
3.2.4 网页解析功能分析 |
3.2.5 数据存储功能分析 |
3.3 性能需求分析 |
3.4 本章小结 |
第4章 系统设计与实现 |
4.1 数据库设计 |
4.1.1 Redis集群 |
4.1.2 MySQL集群 |
4.1.3 数据库设计 |
4.1.3.1 Redis数据库设计 |
4.1.3.2 MySQL数据库设计 |
4.2 分布式网络爬虫系统具体架构设计 |
4.2.1 Storm集群 |
4.2.2 分布式网络爬虫结构设计 |
4.2.2.1 注入种子URL |
4.2.2.2 URL队列库模块 |
4.2.2.3 URL链接优化模块 |
4.2.2.4 网页抓取模块 |
4.2.2.5 网页解析模块 |
4.2.2.6 数据存储模块 |
4.3 本章小结 |
第5章 系统测试 |
5.1 系统环境搭建 |
5.1.1 创建覆盖网络 |
5.1.2 Storm集群环境搭建 |
5.1.3 Redis集群搭建 |
5.1.4 MySQL集群搭建 |
5.2 系统测试 |
5.2.1 系统功能测试 |
5.2.2 系统性能测试 |
5.2.3 测试结果分析 |
5.3 本章小结 |
第6章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
个人简历、申请学位期间的研究成果及发表的学术论文 |
致谢 |
(6)具有QoS保证的分布式Web服务选择关键技术研究(论文提纲范文)
摘要 |
Abstract |
第1章 引言 |
1.1 研究背景 |
1.2 研究内容 |
1.3 论文组织结构 |
第2章 论文相关研究及技术 |
2.1 Web服务概述 |
2.1.1 Web服务技术体系 |
2.1.2 Web服务体系结构 |
2.2 Web服务注册中心 |
2.2.1 集中式服务注册中心 |
2.2.2 分布式服务注册中心 |
2.3 Web服务选择 |
2.3.1 单一服务选择 |
2.3.2 服务组合选择 |
2.3.3 分布式服务选择 |
2.4 Web服务排序 |
2.5 本章小结 |
第3章 分布式对等注册中心架构下的主动监测机制 |
3.1 引言 |
3.2 分布式对等多UDDI架构 |
3.3 分布式主动监测机制原理 |
3.4 分布式主动监测机制下相关操作 |
3.4.1 服务节点的加入退出 |
3.4.2 Web服务的发布更新 |
3.5 仿真实验 |
3.5.1 评价指标 |
3.5.2 实验分析 |
3.6 本章小结 |
第4章 基于有利反馈机制的分布式服务选择算法 |
4.1 引言 |
4.2 分布式skyline服务 |
4.2.1 基本定义 |
4.2.2 skyline代表服务 |
4.3 FDRS算法 |
4.3.1 算法详述 |
4.3.2 有利反馈机制 |
4.4 实验分析 |
4.4.1 实验环境 |
4.4.2 结果分析 |
4.5 本章小结 |
第5章 基于动态执行规划的分布式服务组合选择算法 |
5.1 引言 |
5.2 分布式Web服务环境 |
5.3 服务组合QoS模型 |
5.3.1 改进QoS模型 |
5.3.2 基本结构QoS模型 |
5.3.3 复杂结构QoS模型 |
5.4 分布式服务组合选择算法 |
5.4.1 基本结构选择算法 |
5.4.2 复杂结构选择算法 |
5.4.3 算法实时性 |
5.5 实验与讨论 |
5.5.1 评价方法 |
5.5.2 结果及分析 |
5.6 本章小结 |
第6章 考虑QoS指标均衡性约束的Web服务排序方法 |
6.1 引言 |
6.2 问题描述 |
6.3 组合赋权法计算QoS权重 |
6.3.1 数据无量纲化 |
6.3.2 主客观组合权重计算 |
6.4 考虑QoS指标均衡性约束的服务排序 |
6.4.1 QoS加权规格化评价矩阵 |
6.4.2 构造QoS属性指标期望函数 |
6.4.3 计算服务ws_i与指标期望的偏差 |
6.4.4 计算服务效用值 |
6.4.5 确定每个服务排序值 |
6.5 实验分析 |
6.6 本章小结 |
第7章 结束语 |
7.1 论文总结 |
7.2 进一步工作 |
参考文献 |
致谢 |
攻读博士学位期间的主要成果 |
论文发表情况 |
科研情况 |
(7)一种基于P2P技术的分布式微博爬虫系统(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景 |
1.2 国内外研究现状 |
1.2.1 面向树结构的分布式爬虫研究现状 |
1.2.2 面向图结构的分布式爬虫研究现状 |
1.2.3 微博爬虫研究现状 |
1.3 本文主要工作 |
1.4 本文结构安排 |
第二章 网络爬虫及其相关技术 |
2.1 网络爬虫 |
2.1.1 爬虫基本原理 |
2.1.2 爬虫爬行策略 |
2.2 页面信息获取技术 |
2.2.1 HTTPClient |
2.2.2 HTMLParser |
2.2.3 正则表达式 |
2.3 Socket通信 |
2.4 P2P网络概述 |
2.4.1 P2P网络概念 |
2.4.2 P2P网络特点 |
2.5 本章小结 |
第三章 面向图结构的网络爬虫 |
3.1 拓扑结构选择 |
3.1.1 集中式网络 |
3.1.2 非结构化网络 |
3.1.3 结构化网络 |
3.1.4 混合式网络 |
3.1.5 结构对比 |
3.2 协议选择 |
3.2.1 DHT协议 |
3.2.2 Chord协议 |
3.3 Chord-Crawler分布式网络爬虫模型 |
3.3.1 爬虫模块设计 |
3.3.2 任务调度算法 |
3.3.3 系统架构设计 |
3.3.4 查询算法 |
3.3.5 节点加入/退出算法 |
3.3.6 模型特点 |
3.4 本章小结 |
第四章 动态插入均衡算法 |
4.1 负载平衡概述 |
4.1.1 负载平衡的目的 |
4.1.2 负载均衡算法分类 |
4.2 动态插入均衡算法 |
4.2.1 参数定义 |
4.2.2 算法流程 |
4.3 性能测试 |
4.3.1 实验环境介绍 |
4.3.2 参数设置 |
4.3.3 实验结果 |
4.4 本章小结 |
第五章 Chord-Crawler分布式微博爬虫系统 |
5.1 基于模拟登录的微博爬虫 |
5.1.1 模拟登录算法 |
5.1.2 微博页面分析 |
5.1.3 用户去重策略 |
5.1.4 数据存储策略 |
5.1.5 微博爬虫设计 |
5.2 任务划分 |
5.3 节点协同 |
5.4 系统架构 |
5.5 节点加入/退出算法 |
5.6 系统性能测试 |
5.6.1 实验环境介绍 |
5.6.2 集群规模测试 |
5.6.3 去重分析 |
5.6.4 性能对比 |
5.7 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
附录1 攻读硕士学位期间撰写的论文 |
附录2 攻读硕士学位期间申请的专利 |
附录3 攻读硕士学位期间参加的科研项目 |
致谢 |
(8)多Agent主题爬虫协作策略的研究与分析(论文提纲范文)
0 背景 |
1 研究现状分析 |
2 多Agent爬虫协作模型的研究内容 |
2.1 主题爬虫背景知识的分层概念背景图表示模型 |
2.2 基于分层概念背景图的爬虫语义理解方法 |
2.3 在语义理解模型下同组多个爬虫之间协作与竞争机制及实现 |
2.4 在语义理解模型下异组多个爬虫之间协作与竞争机制及实现 |
3 多Agent爬虫协作模型的研究方法 |
3.1 Agent网络爬虫的背景知识的分层概念背景图表示模型研究 |
3.2 基于分层概念背景图的爬虫语义理解方法研究 |
3.3 在理解模型下同组多个爬虫之间协作与竞争机制及实现研究 |
3.4 在理解模型下异组多个爬虫之间协作与竞争机制的实现研究 |
(9)分布式Web信息采集关键技术研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 课题背景及研究的目的和意义 |
1.2 研究现状分析 |
1.2.1 概述 |
1.2.2 Web 划分 |
1.2.3 任务调度 |
1.2.4 节点协同 |
1.2.5 评价模型 |
1.2.6 研究现状总结 |
1.3 本文的主要研究内容 |
第2章 分布式搜索引擎成本模型研究 |
2.1 引言 |
2.2 相关工作 |
2.3 本章主要内容 |
2.4 分布式搜索引擎系统建模与分析 |
2.5 分布式搜索引擎系统的成本模型 |
2.6 多机采集系统的比较 |
2.6.1 单机群采集系统与多机群采集系统成本比较 |
2.6.2 多机群采集系统与广域网采集系统成本比较 |
2.6.3 广域网采集系统所需采集节点规模分析 |
2.6.4 多机采集系统比较结果 |
2.7 多机索引系统的比较 |
2.7.1 单机群索引系统与多机群索引系统成本比较 |
2.7.2 广域网索引系统所需索引节点规模分析 |
2.7.3 多机群索引系统与广域网索引系统比较 |
2.7.4 多机索引系统比较结果 |
2.8 半广域网搜索引擎系统 |
2.9 本章小结 |
第3章 基于网络距离的分布式 Web 划分算法 |
3.1 引言 |
3.2 相关工作 |
3.3 本章主要内容 |
3.4 Web 信息采集系统中的网络距离 |
3.4.1 网络距离的定义 |
3.4.2 网络距离的测量 |
3.4.3 网络距离稳定性实验 |
3.4.4 RTT 与下载速率间关系实验 |
3.4.5 网络坐标系统介绍 |
3.4.6 网络距离小结 |
3.5 基于网络坐标和内容寻址网络的分布式Web 划分算法 |
3.5.1 从物理主机到覆盖网资源的三层映射机制 |
3.5.2 网络坐标空间与CAN 空间的边界问题 |
3.5.3 在线实验验证 |
3.5.4 Web 划分算法小结 |
3.6 本章小结 |
第4章 基于负载转发和Web 主机切分的负载均衡算法 |
4.1 引言 |
4.2 相关工作 |
4.3 本章主要工作 |
4.4 基于NC-CAN 中任务转发的插入时负载均衡算法 |
4.4.1 负载均衡重要性的理论分析 |
4.4.2 负载均衡算法LBI |
4.4.3 在线实验验证 |
4.4.4 负载均衡小结 |
4.5 基于主干路径的Web 主机切分算法 |
4.5.1 Web 主机切分的相关定义 |
4.5.2 网页在Web 主机上的分布统计 |
4.5.3 Web 主机切分算法 |
4.5.4 离线实验验证 |
4.5.5 Web 主机切分小结 |
4.6 采集系统动态性模拟 |
4.6.1 模拟设置 |
4.6.2 模拟结果 |
4.6.3 实验总结 |
4.7 本章小结 |
第5章 低协同开销的Web 划分算法 |
5.1 引言 |
5.2 相关工作 |
5.3 本章主要工作 |
5.4 基于链接距离的低协同开销Web 划分算法 |
5.4.1 链接坐标的定义 |
5.4.2 链接坐标的生成方法 |
5.4.3 采集节点的链接坐标 |
5.5 分布式双目标Web 划分算法 |
5.5.1 多空间法 |
5.5.2 多维度法 |
5.6 实验与评价 |
5.6.1 实验设置 |
5.6.2 面向链接坐标的Web 划分实验 |
5.6.3 双目标Web 划分实验 |
5.6.4 实验总结 |
5.7 本章小结 |
第6章 一种广域网分布式Web 信息采集系统架构设计 |
6.1 引言 |
6.2 相关工作 |
6.3 本章主要工作 |
6.4 系统架构 |
6.5 模块结构及工作原理 |
6.5.1 节点间协同协议 |
6.5.2 频道 |
6.5.3 管理节点 |
6.5.4 采集节点 |
6.5.5 网络坐标系统 |
6.5.6 接收及存储系统 |
6.6 本文提出算法在系统中的实现 |
6.6.1 基于网络距离的Web 划分算法 |
6.6.2 负载均衡算法 |
6.6.3 低协同开销的Web 划分算法 |
6.7 本章小结 |
结论 |
参考文献 |
攻读博士学位期间发表的论文及其它成果 |
致谢 |
个人简历 |
(10)面向专业领域的网络信息采集及主题检测技术研究与应用(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题背景及意义 |
1.2 国内外研究现状 |
1.2.1 信息采集技术研究现状 |
1.2.2 文本聚类算法研究现状 |
1.2.3 主题模型研究现状 |
1.2.4 主题检测发展过程 |
1.3 本文研究内容 |
1.4 内容与结构安排 |
第2章 领域信息采集 |
2.1 引言 |
2.2 已有增量更新策略存在的问题 |
2.2.1 网页选择算法 |
2.2.2 网站选择算法 |
2.3 领域信息增量自适应更新策略 |
2.3.1 模型建立及优化 |
2.3.2 种子站点选择方法 |
2.3.3 自适应增量更新策略 |
2.4 实验结果与分析 |
2.4.1 自适应增量更新策略有效性 |
2.4.2 领域信息分布式采集 |
2.5 本章小结 |
第3章 网络主题检测方法 |
3.1 引言 |
3.2 面向专业领域的在线主题检测方法 |
3.2.1 主题特征提取和特征空间降维 |
3.2.2 特征词距离度量 |
3.2.3 基于NTD 距离的聚类过程 |
3.2.4 实验及结果分析 |
3.3 在线新事件检测方法 |
3.3.1 增量TF-IDF 模型 |
3.3.2 特征词权重 |
3.3.3 基于时间线分析的新事件检测方法 |
3.3.4 实验结果和分析 |
3.4 基于混合概率模型主题聚类方法 |
3.4.1 一种简单的混合主题模型 |
3.4.2 基于主题采样的EM 近似迭代方法 |
3.4.3 实验结果 |
3.5 本章小结 |
第4章 领域信息自适应主题检测及新闻推荐方法 |
4.1 引言 |
4.2 主题模型简介 |
4.2.1 模型的假设 |
4.2.2 LDA 模型 |
4.3 主题模型的选择 |
4.3.1 主题模型选择方法 |
4.3.2 基于主题模型的主题距离 |
4.3.3 实验结果 |
4.3.4 结果分析 |
4.4 自适应主题检测和新闻推荐算法 |
4.4.1 自适应主题检测算法 |
4.4.2 实验结果 |
4.4.3 自适应主题新闻推荐 |
4.5 本章小结 |
第5章 领域信息采集及主题检测技术应用 |
5.1 引言 |
5.2 非阻塞结构的单机爬虫 |
5.2.1 Inar 体系结构 |
5.2.2 网页抓取实验 |
5.2.3 实验结果分析 |
5.3 分布式信息采集技术的应用 |
5.3.1 分布式并行爬虫结构设计 |
5.3.2 负载均衡机制 |
5.3.3 分布式并行采集实验 |
5.4 金融信息主题检测和新闻推荐系统 |
5.4.1 系统信息采集和处理情况 |
5.4.2 金融新闻推荐系统运行情况 |
5.5 本章小结 |
结论 |
参考文献 |
攻读博士学位期间发表的学术论文及其它成果 |
致谢 |
个人简历 |
四、分布式Web Crawler的研究:结构、算法和策略(论文参考文献)
- [1]基于Bloom Filter算法的URL去重算法研究及其应用[D]. 孟慧君. 河南大学, 2019(01)
- [2]面向分布式的通用网络爬虫系统关键技术研究与实现[D]. 韩瑞昕. 北京工业大学, 2019(04)
- [3]基于Scrapy框架的分布式爬虫系统设计与实现[D]. 汪兵. 合肥工业大学, 2019(01)
- [4]自定义分布式网络爬虫的设计与实现[D]. 杜凤媛. 电子科技大学, 2019(01)
- [5]基于Storm的分布式网络爬虫的研究与实现[D]. 耿峰. 桂林理工大学, 2018(05)
- [6]具有QoS保证的分布式Web服务选择关键技术研究[D]. 孙若男. 东北大学, 2018(01)
- [7]一种基于P2P技术的分布式微博爬虫系统[D]. 卢杨. 南京邮电大学, 2016(02)
- [8]多Agent主题爬虫协作策略的研究与分析[J]. 杜亚军. 西华大学学报(自然科学版), 2013(01)
- [9]分布式Web信息采集关键技术研究[D]. 许笑. 哈尔滨工业大学, 2011(04)
- [10]面向专业领域的网络信息采集及主题检测技术研究与应用[D]. 吴永辉. 哈尔滨工业大学, 2010(08)
标签:分布式算法论文; 分布式架构论文; 分布式技术论文; 搜索引擎技术论文; python爬虫论文;