一、基于Web数据挖掘的综述(论文文献综述)
程宇航[1](2021)在《交通行业安全生产事故数据时空特征挖掘分析》文中指出随着交通行业覆盖领域不断扩展,安全生产事故内容日益复杂,而交通行业安全生产事故数据多以文本的形式存储,价值量高但价值密度低,单靠传统运动式、人工式的监管方式,很难实现风险的预见和防范。如何通过信息化技术有效的管理文本类的交通行业安全生产事故数据,对交通行业安全生产事故进行科学的分析,成为目前研究领域内的热点问题。针对以上问题,本文设计并实现了一种基于词向量的文本数据处理方法,通过关键词分类及知识抽取技术,将非结构化的文本数据处理成具有多种关键属性的结构化数据,并通过多种可视化分析方法挖掘北京市交通行业安全生产事故的特征,对比其优缺点,继而深入分析其致因因素并提出合理建议。在以上研究工作的基础上将分析成果落地形成交通行业安全生产大数据平台原型系统,为北京市交通行业安全生产相关管理部门提供信息支持和科学指导。本文主要研究内容有:(1)设计一种基于自然语言处理技术的事故文本关键词分类方法,构建一套交通行业相关业务数据自动化处理流程,实现快速化、规范化、流程化的交通行业安全生产事故数据预处理。(2)构建ORACLE关系型数据库和Neo4j图数据库,形成为上层系统应用以及可视化分析提供数据服务的基础数据库,有利于相关业务数据的规范化管理和知识的持久化存储。(3)通过构建传统热力图及关键词共现图谱,利用可视化分析的方法挖掘交通行业安全生产事故时空特征,并评估对比其间的优势与劣势。基于专家知识的基础上结合致因主题总结方法对事故主要驱动因素进行提炼总结,综合以上结果分析并提出合理建议,为北京市交通行业安全生产相关管理部门提供信息支持和科学指导。(4)基于WebGIS相关技术,设计并实现了交通行业安全态势监控系统应用的开发,包括安全态势、安全监管、风险预警、应急管理、统计分析、数据维护等功能,为北京市交通行业日常管理和事故的应急处置提供科学的决策支持。
陈秋瑾[2](2021)在《基于微服务架构与知识图谱技术构建无人机知识库系统》文中进行了进一步梳理近年来,随着无人机技术的飞速发展以及逐年上涨的市场需求,无人机在各领域得到广泛应用且发挥着重要作用。随着“互联网+”时代的到来以及大数据技术的迅速发展,互联网中信息数据呈现指数增长趋势,如何在信息爆炸的时代获取所需的有效信息成为亟待解决的问题。本文采用B/S服务器模式,以分布式微服务架构为基础,基于分布式及增量式爬虫技术获取互联网中与无人机等应用领域相关的海量数据,采用自然语言处理、知识图谱、机器学习等算法从海量的非结构化文本数据中提取挖掘隐含及潜在价值知识,并利用Echarts组件及知识图谱等算法进行可视化分析,最后形成定制化的无人机知识库。主要研究内容如下:(1)知识获取及存储技术。系统以Scrapy为爬虫框架,采用分布式结合增量式爬虫技术从互联网中高效地获取无人机行业相关的海量数据;采用Redis高速缓存数据库存储爬取的URL网址,结合My SQL关系型数据库稳定地存储最终得到的结构化数据。(2)系统构建流程及架构设计。利用云计算技术的大数据管理平台,基于分布式服务器与大数据技术搭建系统,采用自底向上为主、自顶向下为辅的方式构建知识库;由于系统爬取任务量的增加及分布式服务器的需求,系统的架构也由最初的SMM单体式架构优化升级为Spring Cloud分布式微服务架构,以提高系统的扩展性及移植性。(3)数据提取及知识抽取技术。采用类机器学习机制半自动化地提取非结构化文本数据,通过构建自定义的规则库训练样本数据,提取出标签以匹配提取出的结构化数据;并利用自然语言处理等算法从获取的文本数据中提取关键句并生成文章的摘要信息;通过知识图谱等算法实现对获取的文本数据的知识抽取,最终抽取出结构化的知识元加入进知识库中,以实现知识库的知识发现与知识挖掘功能。(4)知识表示及数据可视化分析。采用知识树形式进行知识表示,并采用Echarts技术、知识图谱等可视化技术对获取及处理后的数据进行数据可视化分析,并以各类统计图表、关键字云图、机构同现及作者同现图等形式展现,直观清晰地展示无人机等行业领域的研究现状与发展趋势。
王阮[3](2021)在《数字人文视域下口述历史档案资源知识发现研究》文中研究说明近年来,数字人文在中国学界方兴未艾。数字人文对知识生产方式的改变,好比在学术圈这个相对平静的湖水中投进一颗石子,泛起的涟漪会波及整个学术领域[1]。2017年,中共中央办公厅、国务院办公厅印发的《国家“十三五”时期文化发展改革规划纲要》指出:文化遗产保护工程需加快文物藏品数字化保藏,推进数字故宫、数字敦煌、数字丝绸之路和中国人民抗日战争数字博物馆建设[2]。在数字化浪潮中,人文活动在数字技术赋能下跨界融合,借助数字技术耕读人文知识,变革传统的人文研究范式,并赋予人文研究以新的活力。数字人文正在引领中国社会文化空间的数字化转型,身处数字环境的人们对历史档案文化的知识需求也愈加强烈。《全国档案事业发展“十三五”规划纲要》在有效推进档案资源体系建设过程中鼓励开展口述历史档案、国家记忆和城市(乡村)记忆工程、非物质文化遗产建档等工作。口述历史档案作为历史文化传承的重要载体与纽带,以记录时代变革、填补记录空缺、保护人类文化遗产等价值和功能受到国内外学者的高度关注。我国悠久的历史文化世代相传,随着时间的洗淘,诸多珍贵的文化遗产已经失传或濒临灭亡。1992年,联合国教科文组织启动世界记忆工程项目,旨在通过国际合作与应用数字技术抢救世界范围内正在逐渐老化、损毁、消失的文献记录。有关口述历史档案的研究最早可追溯至美国哥伦比亚大学口述历史研究室的建立。虽然从启动时间看,我国研究起点较美国晚了近30年,无论理论基础还是实践进展都缺少资源深度开发和知识挖掘,尚处于起步成长阶段。但作为中华文化的守护者和传承者,我国拥有相当丰富且数量庞大的人文资源亟待挖掘。在数字人文的大背景下,如何借助数字人文技术方法检索、利用浩瀚繁杂的口述历史档案资源,将其蕴含的丰富内部事实、数据和知识展现出来,实现口述历史档案资源知识发现具有迫切性和必要性。同时,如何对口述历史档案资源进行深度知识组织、知识关联、知识聚合与知识发现,为用户提供知识服务,也将成为当下及未来档案资源开发利用的研究重点。基于此,本文以口述历史档案资源为研究对象,通过对口述历史档案、知识发现的追本溯源,综合运用文献分析、专家访谈、实证研究等方法,结合口述历史档案资源特征与属性,架构数字人文视域下口述历史档案资源知识发现框架,探究数字人文视域下口述历史档案资源知识发现核心内容,构建口述历史档案资源本体与知识图谱并进行实例可视化展示,深入揭示口述历史档案资源知识元,将其蕴含的人、地、时、事等复杂内容关系予以揭示,辅助和支撑人文学者进行研究,为口述历史档案资源实践应用提供可操作性指导,实现口述历史档案资源多维知识发现。具体来说,核心内容包含4个部分。第3章数字人文视域下口述历史档案资源知识发现逻辑框架本章首先对口述历史档案资源知识发现需求进行分析,对口述历史档案资源知识发现目标进行概述,梳理口述历史档案资源知识发现流程及体系结构。然后,解析口述历史档案资源知识发现构成要素、功能要素、构成要素及功能要素关系,架构数字人文视域下口述历史档案资源知识发现框架。最后,对框架主要模块作用进行解构,包含知识组织的描述与揭示作用,知识关联的存储与链接作用,知识发现的多维挖掘作用。第4章口述历史档案资源本体构建口述历史档案资源纷繁浩杂,如何将零散杂乱的口述历史档案资源组织起来,就需要借助本体来实现。鉴于目前本领域尚未发现可复用的口述历史档案资源本体,故而需要自建本体,这也是本领域的创新之处所在。本章作为第五章的铺垫,通过构建口述历史档案资源本体呈现口述历史档案领域知识认可的概念及概念间的相互关系,从知识组织维度实现口述历史档案资源知识表示,并利用Protégé工具辅以实例可视化展示,验证了本文构建的口述历史档案资源本体具有良好的可操作性与实用性,为第五章口述历史档案资源知识图谱构建提供组织结构基础。第5章口述历史档案资源知识图谱构建本体只是从组织层面实现口述历史档案资源描述与揭示,而知识图谱是基于关联层面实现口述历史档案资源深度聚合。本章首先提出口述历史档案资源知识图谱框架设计构想,包含模式层和数据层,模式层既可以从口述历史档案资源本体解析、本体与图数据库的映射规则以及关系界定入手;也可以直接从口述历史档案资源数据源抽取所需要素。数据层包含信息抽取和知识融合两部分。然后介绍知识图谱存储和绘制工具。最后,基于第四章口述历史档案资源本体结构,引入实验数据源,采用目前主流的Neo4j图数据库构建口述历史档案资源知识图谱进行实例可视化展示,从知识关联维度实现口述历史档案资源深层聚合,构筑口述历史档案资源知识网系,实现知识关联,为第六章口述历史档案资源多维知识发现奠定关系主线。第6章口述历史档案资源多维知识发现本章在第五章口述历史档案资源知识图谱实例展示的基础上,基于知识图谱洞悉口述历史档案资源深层关系,从多维视角深入挖掘口述历史档案资源潜藏的丰富内部事实。具体包含:基于项目整体概况的知识发现、基于事件主题关系的知识发现、基于社会网络关系的知识发现以及基于时空网络关系的知识发现。既可以细致展现出口述历史档案资源间人、地、时、事之间的知识关联,又可以探求涉及同一主题或具有相关关系的多个口述历史档案资源之间的隐性关系,方便领域学者进行后续研究,以佐证本研究具有现实指导意义。综上所述,本研究在数字人文大背景下,将以本体和知识图谱为代表的数字人文技术方法“引介”口述历史档案研究,实现了口述历史档案资源领域本体和知识图谱构建新突破,同时借助实例可视化展示,将人、地、时、事等内容特征及其相互关系予以细粒度描述,从事件、时空以及社会网络关系等层面实现口述历史档案资源深层挖掘与多维知识发现,不仅丰富了多元学科理论与研究方法,而且还推进了口述历史档案资源实践创新。在“技术驱动+知识发现”的催化反应下,为口述历史档案资源深度开发提供了借鉴与可行指导,同时也对口述历史档案资源知识发现及可视化具体实施提供了可操作性框架参考,切实推动了口述历史档案资源知识组织、知识关联、知识发现与知识服务。
程子轩[4](2021)在《面向用户知识需求的微信公众平台知识资源聚合及服务研究》文中指出移动互联网时代,微信公众平台已成为人们交流、休闲、学习、生活的一部分,随着以传播知识为主的微信公众号涌现,微信公众平台也逐渐成为人们获取知识的重要途径。一些综合性或专业领域微信公众号发布各类科普知识和前沿资讯,一些学术类微信公众号专业发布学术领域内相关的学术知识,部分高校学报和高校图书馆微信公众号还专门开设“学术播报”、“学术快讯”等专栏,用于发布学术讲座及学术前沿知识。各类机构或个人通过微信公众平台发布大量科普型知识、专业发展前沿资讯、专业学术知识以及学术专题等,能够满足不同专业和认知层面的用户知识内容的需求。然而,微信公众平台知识内容以用户生成为主,其庞大纷杂的微信公众平台账号主体导致了平台信息和知识质量的参差不齐、出现信息过载和迷航现象,对海量知识资源缺乏科学高效的组织和管理。当前,随着大数据、人工智能等技术的发展,简单提供知识资源内容已经无法满足微信公众平台用户知识服务需求。智能时代,用户对知识质量和知识服务模式提出了更高的要求,促使微信公众平台知识组织和服务转型。如何在海量纷杂的信息中筛选出真正需要和感兴趣的知识资源内容不仅是广大微信用户面临的困扰,更是微信公众平台需要关注并急需解决的问题。鉴于此,本文将知识聚合理论与方法引入到微信公众平台知识资源组织及服务研究中,提出了面向用户知识需求的微信公众平台知识聚合及服务体系框架。首先,构建了微信公众平台用户画像并对用户知识需求进行了分析,从知识单元和句子层面分别提出了基于标签聚类和基于摘要生成的微信知识资源聚合方法,并基于不同知识资源聚合方法设计了微信公众平台知识推荐服务和知识集成服务两种知识服务模式。最后提出了提升微信公众平台知识聚合及服务能力的对策建议。本文主要开展了以下方面的研究:(1)面向用户知识需求的微信公众平台知识聚合及服务体系框架构建。通过辨析知识聚合服务与用户知识需求之间的关系,明确了微信公众平台面向用户需求开展知识聚合的必要性和可行性。阐述了微信公众平台知识聚合概念、目标与原则以及聚合服务要素,认为微信公众平台知识聚合是为了满足用户个性化知识需求,通过计量分析、数理统计、数据挖掘、人工智能等方法分析挖掘知识单元的内在联系,将微信公众平台复杂多样化、数量庞大、无序碎片的领域知识资源重新组织和序化,形成结构完善的知识体系,为后续微信公众平台知识聚合服务提供资源保障。通过分析面向用户需求的微信公众平台知识聚合服务组成要素、动因及过程,提出了面向用户需求的微信公众平台知识聚合服务体系架构,将其划分为数据资源层、用户需求挖掘层、知识资源聚合层、服务提供层4个主要模块。(2)微信公众平台用户画像构建与需求分析。基于VALS2模型从宏观层面对微信公众平台使用者构建群体用户画像,将用户划分为初期引入参与型、成长型和成熟型用户3类,并绘制各类用户特征的标签词云。分析不同类型的用户知识需求形成的过程,并建立微信公众平台用户知识需求层次模型。综合用户画像和用户知识需求层次构建了微信公众平台用户知识服务需求模型,凸显微信公众平台知识服务现状与用户知识需求的巨大差距。(3)基于标签聚类的微信公众平台知识聚合方法。提出融合Word2vec模型和TextRank算法的微信公众平台知识资源标签抽取方法,将关键词作为标签表达文本知识资源内容的主题思想及关键内容。提出基于改进BIRCH聚类算法的微信公众平台文本标签聚类方法,在原算法执行过程中融合K-means算法初选聚类中心,并综合考虑用户需求因素。最后以微信公众平台发布的“认知计算”领域文章为例进行实证研究,研究发现本文提出的基于改进Birch算法的聚类结果主题分布较为合理,各个类之间的区分度较为明显,类簇大小的差距较小,其效果要优于基于K-means算法、基于Spectral Clustering算法和基于Birch算法的聚合效果。(4)基于摘要生成的微信公众平台知识聚合方法。提出基于改进TextRank算法的微信公众平台知识摘要生成方法,分别设计了单文本摘要生成和单领域多文本的知识摘要生成方法。在单文本摘要生成方面,通过综合考虑用户需求、句子位置、标题相似度等因素提高摘要生成效果。在单领域多文本摘要生成方面,采用Doc2vec模型进行文本向量化,对文档集中的句子进行主题细分,并运用MMR算法进行句子冗余处理,提高生成结果的准确性。以微信公众平台发布的“认知计算”领域文章为例进行实证研究,研究发现运用本文方法生成的文本摘要能够较好的匹配用户需求,能够实现面向用户需求的个性化抽取和生成,准确率明显优于其他算法。且本文算法生成的摘要,具有较好的语意连贯性,便于读者的理解和进一步掌握文章主旨大意。(5)基于知识聚合的微信公众平台创新知识服务模式。以微信公众平台知识聚合及服务体系框架为基础,针对不同层面的知识聚合,构建了基于知识标签聚类的微信公众平台知识推荐服务和基于摘要生成的微信公众平台知识集成服务两种服务模式。分别阐述了两种知识服务的概念、知识服务要素和知识服务过程。(6)微信公众平台知识聚合及服务能力提升对策。分别从用户知识需求外化表达及挖掘、新技术应用和融合改进和微信公众平台创新服务理念及加强运营管理三个方面提出提升微信公众平台知识聚合及服务能力的对策建议。本文从理论层面将知识聚合理论和方法引入到微信公众平台,解决其知识组织和服务问题,扩展了知识聚合相关研究的领域和视角。同时,本文对微信公众号发布的知识内容进行知识主题聚类和自动化摘要生成,并建立了相应的知识聚合服务体系,丰富了社交媒体平台创新知识服务理论体系,为新媒体知识服务提供理论和技术支持。在实践层面,本文面向微信公众平台中不同微信公众号发布资源内容的知识聚合,分别进行了知识主题发现和自动生成摘要知识聚合技术实证,为微信公众平台知识资源组织管理提供了技术方法和手段。同时,提出的对策建议和服务模式也为微信公众平台开展创新型知识服务提供参考依据和建议。
张倩[5](2021)在《数据流聚类算法在Web访问日志分析中的应用研究》文中认为近年来互联网技术取得了惊人的发展成绩,各类使用也日益普及,在使用互联网的过程中产生了大量的Web数据,如何从这些海量数据中统计和分析出有价值的信息,挖掘日志数据中蕴藏的访问行为是一个值得研究和关注的热点问题。对这一问题的研究有助于网站管理员及时发现网站安全风险,修复网站漏洞,不断提升网站运维人员的网络安全意识,也有助于管理员及时了解用户关注的网站内容,及时更新维护相关内容,更好发挥网站的作用。本文针对Web访问日志分析的问题,对数据流相关的概念及算法进行研究,提出数据流聚类算法优化方法,对现有的基于密度网格的数据流聚类算法进行改进。然后在充分研究Storm框架基本原理的前提下,将改进算法基于Storm进行分布式并行化设计,提高改进数据流聚类算法的处理效率。最后将改进的分布式数据流聚类算法在实际采集的Web访问日志的分析上加以应用。本文的主要研究内容如下:(1)选择基于密度网格的数据流聚类算法作为Web访问日志分析的基础算法。针对现有算法在阈值参数设置和簇边界判定两个方面的不足,对现有算法进行改进,以提高现有算法聚类性能为目的,提出改进的基于密度网格的数据流聚类算法。(2)针对无法在单机环境下高效处理Web访问日志这类实时、海量数据的问题,搭建分布式流处理平台Storm,以并行化分布式的方式来设计数据流聚类算法,并且基于Storm来实现该算法。(3)将基于Storm实现的分布式数据流聚类算法在Web访问日志分析中应用,设计Web访问日志分析模型。基于实际采集的校园网站Web访问日志进行实验,结果表明,改进的算法聚类效果更优,并行化的计算更好地适应了Web访问日志的数据特点,算法具有分布性、实时性和准确性。得出的分析结果对网站的管理具有一定的参考价值,可以为网站管理中的类似问题提供参考依据。
赵明[6](2020)在《基于Hadoop的城市公共交通大数据时空分析》文中进行了进一步梳理城市公共交通大数据蕴含着丰富的时空信息,是进行乘客出行特征分析、城市交通服务能力评价以及公共客流预测的数据基础,是城市公共交通科学管理和规划设计的重要依据。随着城市交通的快速发展,城市管理部门积累了体量超大的交通数据,然而这些数据并不能得到充分利用,因为传统的交通数据分析软件无法对大数据进行加载、处理和分析,所以一般采用从大数据中抽取数据的方法,样本量较小,并且分析结果大多以二维图表为主,数据可视化效果一般。为此,本文以北京市公交车刷卡数据和出租车GPS轨迹数据为研究对象,主要进行了以下几个方面的研究工作:(1)搭建Hadoop分布式计算平台。利用实验室八台电脑搭建微型分布式集群,将30天公交车刷卡数据和7天出租车GPS轨迹数据进行分布式存储,并利用MapReduce编程模型进行数据清洗、预处理和数据挖掘。(2)构建公交车乘客出行链和交通工具客流模型。研究建立基于时空约束的公交车乘客出行链、基于公交站点的公交车客流模型和基于车辆状态的出租车客流模型。基于上述模型完成公交车换乘数据、公交车客流数据、出租车客流数据的提取和计算。(3)城市公共交通大数据时空分析。根据不同种类交通工具的运营特性和乘客出行特点,设计并实现了包含公交线路运营分析、交通枢纽客流分析和识别乘客职住地在内的多种城市公共交通大数据分析方法,并从出行时间、出行热点和出行时长三个方面进行了不同种类交通工具乘客出行特征的差异性分析。(4)基于WebGIS的数据可视化。为充分展示交通大数据的时空特性,通过整合在线地图服务、二维空间数据和三维模型数据,并采用热力图、三维柱状图、交互式地图和非空间地理图表等多种表达方式进行交通大数据分析计算结果的可视化。(5)在技术上整合WebGIS和Hadoop分布式计算平台。充分利用WebGIS丰富的表达手段和Hadoop分布式存储计算的优势,实现从客户端发布数据请求、Hadoop集群分布式计算到利用WebGIS进行数据可视化的闭环流程作业。本文通过搭建Hadoop分布式计算平台进行交通大数据挖掘,为全方位、多角度的对城市公共交通大数据进行分析计算打下坚实的基础,并建立基于WebGIS的可视化系统进行数据计算结果的可视化分析,为人们带来更加直观的视觉体验,有利于发现可视化隐含的规律,并将WebGIS架构与Hadoop进行整合,减少人工中途干预,从而解决了大数据集中调用显示的难题。
王雅青[7](2020)在《社交媒体中基于用户兴趣的跨域数据挖掘研究》文中提出随着社交媒体的广泛普及和用户规模的急剧扩张,数据呈爆炸式增长趋势。用户难以从海量数据中提取出有用信息。同时,为了更好地享受不同类型的服务,用户往往与多个社交媒体交互,产生的数据也呈现跨域(即跨社交媒体)分布特点并且相互关联。传统的数据挖掘方法主要针对单域进行设计,由于忽略了其他域的数据,这些方法深受数据稀疏性困扰。跨域数据挖掘方法通过聚合不同域中的碎片化数据,不仅能够弥补单域中缺失的信息,还可以更全面地挖掘社交媒体数据的价值。现有的跨域数据挖掘方法主要基于单一类型的数据或简化跨域信息间的关联以实现跨域联合挖掘,面对实际应用中跨域数据呈现出的异质性、匿名化和动态性的特点导致的信息间关联更加复杂的情况,将难以适用。用户兴趣实际上是用户产生数据的内在驱动。建模用户兴趣有助于社交媒体应用完整描述跨域信息间的复杂关联,实现跨域数据的全面融合。因此,在社交媒体中研究基于用户兴趣的跨域数据挖掘新方法,不仅能够有效应对跨域数据的异质性、匿名化和动态性带来的挑战,而且对于推动跨域数据挖掘的实际应用具有重要意义。论文的选题来源于北京市教委共建项目子课题“基于大数据的异构信息网络的信息传播及演化机理研究”和“基于社交感知和跨媒体计算的社会公共安全事件分析与预测研究”。围绕实际的跨域应用场景中面临的由跨域数据异质性、匿名化和动态性带来的影响跨域数据挖掘性能提升的关键问题,论文研究社交媒体中基于用户兴趣的跨域数据挖掘新方法,通过建模用户兴趣,挖掘跨域数据间复杂关联,以提升跨域数据挖掘方法的性能,同时也为跨域数据挖掘研究的实际应用奠定了基础。论文具体研究工作及成果如下:(1)针对跨域数据异质性导致跨域信息间关联交错复杂的问题,研究了异质跨域数据下基于用户兴趣的跨域用户身份识别方法。为了统一捕捉来自异质特征空间的跨域信息间的关联,提出了一种基于链接异质网络嵌入的跨域用户身份识别方法。该方法设计了链接异质网络来描述复杂的跨域信息间关联,并通过在同一兴趣空间中联合捕捉网络内和网络间的基于内容主题关系和基于社交关系的用户兴趣信息,以实现异质数据的融合,从而学习到跨域用户兴趣的完整统一表示。同时,设计基于负采样的联合训练算法来交替训练异质关系,以进一步提升模型的性能和训练效率。实验结果表明,所提方法的性能与假设不同类型的跨域信息相互独立的方法相比性能至少提升19%,证明通过充分挖掘不同类型跨域信息间的关联可以有效提升跨域用户身份识别的准确性。(2)针对跨域数据匿名化导致跨域信息间关联缺失不足的问题,研究了匿名跨域数据下基于用户兴趣的跨域推荐方法。由于用户匿名时只能获得少量行为数据,为了补充缺失的关联信息,提出了一种基于跨域异质关系嵌入的跨域推荐方法。首先利用双聚类算法挖掘基于类别的域间链接以补充域间关联。然后通过联合嵌入项目-项目和项目-类别的跨域异质关系,进一步丰富跨域信息间的关联,最终联合跨域碎片化信息获得跨域兴趣的完整表示。另外,通过设计基于异质关系的联合训练算法来高效地优化和训练模型。实验结果表明,在信息缺失50%且用户匿名的情况下,所提方法的推荐性能相比于传统的针对匿名用户的单域推荐和跨域推荐方法至少提升11%,证明了通过全面挖掘隐藏的跨域关联,可以很好地弥补缺失的跨域信息以提升推荐性能。(3)针对跨域数据动态性导致跨域信息间具有复杂动态关联的问题,研究了动态跨域数据下基于用户兴趣的跨域推荐方法。首先对于不同域信息的跨域全局动态变化和单域内局部动态变化存在差异性的问题,提出了一种基于多层循环神经网络的跨域推荐方法,以联合建模用户兴趣的跨域全局演化模式和在单域中的局部动态模式,实现了用户兴趣信息间动态关联的全面捕捉。其次,针对在捕捉跨域信息的动态变化时会损失掉部分单域行为间链接的问题,设计了一种基于跨域循环-门控神经网络的跨域推荐方法,从完整建模长期和短期跨域兴趣的角度出发,在捕捉用户兴趣的跨域全局演化模式和单域局部动态模式的同时,有效重建断开的单域行为间的链接。实验结果表明,所提的两个方法比其他基于动态数据的单域推荐和跨域推荐方法的性能至少提升8%,证明通过准确捕捉跨域信息间的动态关联可以有效提升推荐性能。
邢海龙[8](2020)在《大数据联盟数据挖掘服务模式研究》文中认为随着社交网络、传感器技术、移动互联网技术的快速发展,数据存储量已经达到了PB级别,成为了企业乃至国家的重要性战略资源。在国家政策的积极推动下,大数据服务平台不断涌现,为满足在“数据海洋”中获取所需资源及挖掘数据背后的潜在价值奠定了良好基础。但是目前大数据服务市场还处于发展初期,发育还不够完全,在面对用户多样的数据挖掘服务需求时,单一企业在服务能力方面还存在不足。为此,以大数据产业链为依托,以提高数据挖掘服务能力和服务质量为目的,通过整合大数据产业链上、中、下游企业的资源优势、技术优势和服务优势,以联盟的组织形式为社会提供数据挖掘服务,对完善大数据服务市场起到了重要作用,大数据联盟采用的服务模式将直接影响着数据挖掘服务的质量和水平,构建符合大数据服务需求特点、有利于整合联盟成员数据资源的数据挖掘服务模式是数据企业急需解决的紧迫课题。在跟踪总结国内外大数据、大数据联盟、数据挖掘及服务模式的研究现状、发展趋势和实际应用情况的基础上,分析和界定了大数据联盟、数据挖掘服务的相关概念及特点。从合作协同视角,运用核心能力理论、协同理论、博弈理论等,揭示大数据联盟合作机理,在分析大数据联盟数据演化过程、数据挖掘层次的基础上,构建大数据联盟数据挖掘服务模式框架。在此基础上,提出了大数据联盟标准化数据挖掘服务模式、定制化数据挖掘服务模式和智能化数据挖掘服务模式。标准化数据挖掘服务是针对用户共性化需求,提供的一种数据挖掘服务。该服务模式结合用户的需求类型,将联盟通过数据挖掘获取的资源进行服务产品的封装,以数据产品的形式进行发布与交付。并依照用户对服务认知和理解的程度不同,将服务方式划分为自助式和咨询式两种服务方式,以及从售后服务、运营监管两方面,提出标准化数据挖掘服务保障。定制化数据挖掘服务是针对用户个性化需求,提供的一种数据挖掘服务。该服务模式从联盟用户需求描述、服务能力挖掘、联盟数据准备、模型构建、模型评估和服务交付几个环节,构建大数据联盟定制化数据挖掘服务过程模型,依照用户的参与程度不同,将服务方式划分为委托式和跟进式两种服务方式,并从协调管理、资源配置、协同调度三方面,提出定制化数据挖掘服务保障措施。智能化数据挖掘服务是针对用户混合型需求,进行的一种数据挖掘服务。该服务模式是融合智能决策理论和知识推理方法,从服务需求知识表示、服务智能检索、服务重用与调整、服务支付、服务知识学习与存储几个环节,构建大数据联盟智能化数据挖掘服务过程模型,将服务方式划分为智能交互的委托式和智慧协同的跟进式两种服务方式,并从多案例经验集成、群体智能两方面,提出智能化数据挖掘服务保障措施。在实证研究部分,选择中关村大数据产业联盟中,以提供数据挖掘服务为主要业务的ZWJ大数据联盟为研究对象,将本文提出的大数据联盟数据挖掘服务模式运用到实际联盟中,验证数据挖掘服务模式的科学性与合理性,并完善数据挖掘服务模式管理体系。对大数据联盟数据挖掘服务模式的研究,有利于数据资源的流通、共享和价值创造。在满足日益增长的数据挖掘服务需求的同时,充分发挥联盟的资源优势、技术优势,挖掘数据资源背后的“知识财富”。为促进我国大数据服务产业蓬勃发展,提高数据资源价值活力和数字技术创新能力具有重要作用。同时研究成果有助于丰富企业资源管理理论与服务模式理论体系,并对大数据产业发展及大数据服务应用具有重要现实指导意义。
冯扬文[9](2018)在《大数据视角下的国际集装箱海运运价预测研究》文中进行了进一步梳理自2008年金融危机以来,中国对世界经济增长的贡献率一直保持在30%左右,早在2010年中国就成为世界第二大经济体,2013年成为世界第一大货物贸易国①,2017年我国进出口贸易总额为27.79万亿元。国际航运服务于国际贸易,而国际贸易中90%的物流由国际海运来完成。20世纪70年代开始流行的集装箱技术让洲际运输成本进一步大幅度降低,为全球贸易提供了更加便利的条件②,近年来国际集装箱航运市场运价波动剧烈,不可预见性增强,而国际集装箱海运业是一个需要巨大投入的资本密集型行业,运价的剧烈波动给航运企业,贸易商以及行业整体带来了巨大的风险,运价波动趋势研究和运价预测一直是国际集装箱航运业关注的热点,国际集装箱海运运价预测的研究在提高行业成本管理水平、降低行业违约率、提高国际海运运输组织的执行效率以及政府决策量化参考等方面有着积极的作用。本文从情报预测是情报学重要的应用领域为起始,以研究国际集装箱海运运价预测的理论和方法为目标,概括出“国际集装箱海运运价预测研究”这一命题,在情报学知识发现框架指导下,沿着情报学对于信息的“源”、“流”、“用”的研究思路,结合当前的“大数据时代”,在概要阐述研究意义、国内外研究现状的基础上,构建了研究内容的框架体系;研究内容包括国际集装箱海运运价预测总体框架、国际集装箱海运运价信息集成模型和方法、国际集装箱海运运价数据特征处理方法、国际集装箱海运运价预测模型以及在大数据环境下进行国际集装箱海运运价预测实证分析等内容。国际集装箱海运运价预测总体框架部分,讨论了大数据视角下的国际集装箱海运运价预测的总体流程和框架。认为总体流程主要分为运价信息收集、运价信息处理和集成、探索性数据分析和运价数据特征处理、运价预测模型提出、运价预测模型运算和评估、运价预测模型的使用六个部分,其中运价预测模型的提出、模型的运算、模型的评估是整个研究的难点和重点,而运价信息的处理和集成、运价数据特征处理是运价预测实际操作中具体工作量较大的一个部分。国际集装箱运价信息集成模型和方法部分,主要解决异源异构运价数据的集成问题。认为随着互联网、电子商务和信息技术的发展,国际集装箱海运运价信息越来越呈现出数字化、集中化和实时性强等特点,这为使用数据挖掘技术进行运价预测提供了现实基础,但需要研究信息集成方法来解决运价信息的异构问题;探讨运价预测的要求及运价信息现状后,提出了基于数据仓库的运价信息集成模型、Web运价信息及增量信息获取和集成方法,设计知识库和规则库,运用信息集成模型对异源异构运价信息进行了集成。运价数据特征处理含数据处理和维度衍生两个部分,讨论的技术和方法是为了保证运价数据符合数据挖掘算法的要求和提高运价预测的准确程度。数据处理主要包括对于异常和无效、历史拉链断链等运价数据处理的流程和方法,关键信息与原始运价数据整合方法、特殊特征属性转换方法等的研究;围绕基本运价数据的维度衍生策略主要包括横向、纵向、历史变化、指数日期等维度衍生的方法,以及预测目标维度的衍生策略。基于数据挖掘方法的运价预测模型部分探讨了国际集装箱海运运价预测的总体框架,针对预测运价即期走势(分类问题)和涨跌幅(回归问题)这两个目标讨论了预测模型和结果评价指标体系。并尝试对传统的数据挖掘算法进行优化,讨论了自适应网格搜索策略,以优化算法的超参数调优方法;针对国际集装箱海运运价数据具有明显的时间序列特征,探索了基于时间序列的留出法(THO),以优化预测结果评价策略,降低泛化误差;讨论基于梯度提升决策树(GBDT)算法的并行计算及预排序后的损失函数迭代运算优化策略,提高GBDT算法在大数据环境下的运算效率。运价预测实证研究部分,面对海量的国际集装箱海运真实运价数据,结合运价预测模型未来的大数据应用环境,按照本文讨论的流程、方法、模型和优化策略,设计和构建基于大数据技术的信息化平台,进行国际集装箱海运运价的即期走势和涨跌幅预测。数据来源有三个渠道,一为某市国际集装箱海运订舱电子商务平台(物贸汇)的历史运价数据,二为某大型国际货运代理企业业务系统的运价数据,三为采集自国内较为知名的国际集装箱海运订舱业务网站(叁陆伍网络等)的Web运价数据,数据总量约为960万条。实证研究表明,本文探索的国际集装箱海运运价预测的流程、模型和方法等内容,成功地探索出从运价信息采集、分析和集成、运价信息处理到运价预测的实现路径,且预测效果明显优于传统时间序列方法的预测结果。文章的最后总结了本文的研究与不足,并对下一步的研究进行了展望。
李亮[10](2012)在《基于WEB挖掘的网站结构优化技术研究》文中研究表明Web技术不断创新,特别是物联网技术跨越式的发展,使企业能够利用传感器、射频等智能装置对物理世界进行感知识别,依托通信网络实现了人与物、物与物的信息交互以及生产生活信息的无缝连接,有效地集成了Infranet、Intranet、 Internet。这使得Web上信息量无比丰富,给人们生活提供了极大方便,但同时在客观上也增加了用户从海量数据中获取所需信息的难度,用户在面对众多的超链接选择时经常会产生一些无益于到达其目标页面的无谓点击行为。这一方面增加了Web服务器负担和网络的数据流量,造成网络阻塞,导致网络访问速度的下降,从而进一步影响信息搜寻行为的效率;另一方面阻碍了企业开展有针对性的电子商务活动。目前针对这类问题的主要解决方法是WEB挖掘,其中一种有效的方法是网站结构优化技术,它通过使用数据挖掘技术找到现有网站结构存在的不足之处并进行改善。目前存在的多种网站结构优化技术中,基于Web使用挖掘技术的网站结构优化是一个重要的研究方向,Web使用挖掘技术可以充分利用访问日志等信息发现用户的访问模式,并通过分析和研究Web日志记录中的规律来指导电子商务网站结构优化工作的进行。本文系统地阐述了从数据挖掘、Web数据挖掘到Web日志挖掘整个过程,主要工作成果为:(1)研究了通过Web日志挖掘优化网站结构的过程,提出了一种通过挖掘用户期望页面来优化网站结构的算法,该算法主要以更早和更少的回退两个不同的角度去优化发现期望页面的过程,分析表明,该算法可以更有效的发现用户期望页面,从而实现网站物理结构的调整和再组织。(2)提出了一个针对分布式动态网站的Web日志挖掘数据预处理方法。在数据清理之前加入了数据合并过程,提出了日志合并算法,在该算法中充分考虑了服务器的时钟同步和时区差异对日志合并的影响,在数据清和用户识别部分添加了页面过滤部分。改进了框架式结构页面过滤算法,为了消除框架页面对Web日志挖掘算法的影响。(3)针对学校网站,利用上面的算法,设计和实现站点结构优化工具。通过该工具,可以收集用户访问日志和站点结构数据,并使用日志清理工具上述数据进行清理和转换。站点结构优化组件使用这些数据挖掘用户的期望位置,并根据这些结果调整网站的链接拓扑,以给用户提供便捷易用的链接,优化网站结构。
二、基于Web数据挖掘的综述(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、基于Web数据挖掘的综述(论文提纲范文)
(1)交通行业安全生产事故数据时空特征挖掘分析(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景及意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 国内外研究现状 |
1.2.1 安全生产事故分析研究现状 |
1.2.2 文本数据挖掘方法研究现状 |
1.2.3 数据可视化研究现状 |
1.3 研究目标及内容 |
1.3.1 研究目标 |
1.3.2 研究内容 |
1.4 论文技术路线 |
第2章 相关理论与技术 |
2.1 文本数据挖掘技术 |
2.1.1 中文分词技术 |
2.1.2 词向量理论和Word2vec算法原理 |
2.1.4 Neo4j图数据库技术 |
2.2 数据可视化技术 |
2.2.0 数据可视化概述 |
2.2.1 基于图数据库的知识图谱可视化分析 |
2.2.2 基于Web GIS的数据可视化分析 |
第3章 事故文本数据挖掘及数据库构建 |
3.1 数据支撑 |
3.2 事故文本数据预处理 |
3.2.1 中文分词工具对比实验 |
3.2.2 文本数据中文分词处理 |
3.3 交通行业安全生产事故文本挖掘 |
3.3.1 Word2vec词向量模型训练 |
3.3.2 基于词向量的关键词分类提取 |
3.3.3 基于知识抽取的数据结构化处理 |
3.4 数据存储 |
3.4.1 交通行业安全生产事故时空数据库构建 |
3.4.2 交通行业安全生产事故图数据库构建 |
3.5 本章小结 |
第4章 交通行业安全生产事故可视化挖掘分析 |
4.1 事故时空特征可视化分析 |
4.1.1 Gephi图谱可视化分析 |
4.1.2 事故分类图谱分析 |
4.1.3 关联路径图谱分析 |
4.1.4 基于Web GIS的可视化分析 |
4.2 事故致因因素分析 |
4.3 本章小结 |
第5章 基于文本挖掘的交通行业安全态势可视化分析系统 |
5.1 系统架构设计 |
5.1.1 系统数据库设计 |
5.1.2 系统功能设计 |
5.1.3 开发环境介绍 |
5..2 系统界面功能展示 |
5.2.1 安全态势模块 |
5.2.2 风险预警模块 |
5.2.3 生产监察模块 |
5.2.4 应急管理模块 |
5.2.5 数据维护模块 |
5.2.6 统计分析模块 |
第6章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
(2)基于微服务架构与知识图谱技术构建无人机知识库系统(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.1.1 研究背景 |
1.1.2 研究意义与价值 |
1.2 国内外研究现状 |
1.2.1 专家系统及知识库研究现状 |
1.2.2 知识图谱技术研究现状 |
1.2.3 Web文本挖掘技术研究现状 |
1.2.4 无人机技术发展及应用现状 |
1.3 研究目标与研究内容 |
1.3.1 研究目标 |
1.3.2 研究内容 |
1.4 论文研究技术路线 |
1.5 论文组织结构安排 |
第二章 理论基础及关键技术 |
2.1 相关理论基础 |
2.2.1 知识库 |
2.2.2 知识发现 |
2.2.3 知识图谱 |
2.2 知识获取技术 |
2.2.1 数据获取技术 |
2.2.2 数据去重技术 |
2.2.3 数据提取技术 |
2.2.4 数据存储技术 |
2.3 知识抽取技术 |
2.3.1 实体抽取技术 |
2.3.2 关系抽取技术 |
2.3.3 事件抽取技术 |
2.3.4 实体链接与消岐 |
2.4 知识表示技术 |
2.5 自动文摘技术 |
2.5.1 自动文摘生成原理 |
2.5.2 TextRank算法 |
2.6 本章小结 |
第三章 知识库系统的设计与构建 |
3.1 系统非功能需求 |
3.2 系统性能设计 |
3.2.1 系统可靠性设计 |
3.2.2 系统安全性设计 |
3.3 系统架构设计 |
3.3.1 整体架构设计 |
3.3.2 技术架构设计 |
3.3.3 分布式微服务架构 |
3.3.4 Scrapy爬虫框架 |
3.3.5 基于Swagger框架管理API |
3.4 技术路线与实施方案 |
3.4.1 知识库的构建方式 |
3.4.2 系统的技术路线 |
3.4.3 系统的实施方案 |
3.4.4 开发环境与开发语言 |
3.5 本章小结 |
第四章 知识图谱的实现与应用 |
4.1 知识获取 |
4.1.1 定制化设置关键字 |
4.1.2 定制化爬取专业网站 |
4.2 数据提取 |
4.2.1 半自动化提取数据 |
4.2.2 自动文摘的提取 |
4.3 知识抽取 |
4.3.1 实体抽取(命名实体识别) |
4.3.2 实体关系抽取 |
4.3.3 元事件抽取 |
4.3.4 实体发现与链接 |
4.4 知识表示 |
4.5 文本数据可视化 |
4.5.1 数据可视化 |
4.5.2 关键字云图 |
4.6 本章小结 |
第五章 系统的功能与实现 |
5.1 系统整体功能结构 |
5.2 系统前端功能实现 |
5.2.1 查询信息模块 |
5.2.2 台风实况模块 |
5.2.3 数据可视化模块 |
5.2.4 热门推送模块 |
5.2.5 关键期刊模块 |
5.3 系统后台功能实现 |
5.3.1 用户管理模块 |
5.3.2 菜单管理模块 |
5.3.3 采集设置模块 |
5.3.4 任务管理模块 |
5.3.5 专家知识模块 |
5.3.6 外部系统模块 |
5.3.7 期刊大全模块 |
5.4 本章小结 |
第六章 结论与展望 |
6.1 总结 |
6.2 创新点 |
6.3 不足与展望 |
参考文献 |
致谢 |
在学期间主要研究成果 |
附录 |
附录1 Swagger在微服务架构上的部署与集成 |
附录2 Echarts组件实现折线图/柱状图形式的数据可视化 |
附录3 BiLSTM+CRF模型构建过程 |
附录4 利用TF-IDF进行实体链接关键代码 |
(3)数字人文视域下口述历史档案资源知识发现研究(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 选题背景 |
1.2 研究意义 |
1.2.1 理论意义 |
1.2.2 实践意义 |
1.3 国内外研究现状 |
1.3.1 口述历史档案研究现状 |
1.3.2 知识发现研究现状 |
1.3.3 研究现状述评 |
1.4 研究内容、研究方法与技术路线 |
1.4.1 研究内容 |
1.4.2 研究方法 |
1.4.3 技术路线 |
1.5 创新点 |
第2章 相关概念与理论基础 |
2.1 概念界定 |
2.1.1 口述历史档案 |
2.1.2 口述历史档案资源 |
2.2 档案信息资源开发理论 |
2.2.1 档案信息资源开发含义 |
2.2.2 档案信息资源开发意义 |
2.2.3 档案信息资源开发原则 |
2.3 本体理论 |
2.3.1 本体概念 |
2.3.2 本体分类 |
2.3.3 本体构建流程 |
2.3.4 本体在档案领域的应用 |
2.4 知识发现理论 |
2.4.1 知识发现定义 |
2.4.2 知识发现过程 |
2.4.3 知识发现方法 |
2.5 本章小结 |
第3章 数字人文视域下口述历史档案资源知识发现逻辑框架 |
3.1 数字人文视域下口述历史档案资源知识发现需求分析 |
3.1.1 数字人文时代的必然要求 |
3.1.2 口述历史档案资源开发需求 |
3.2 数字人文视域下口述历史档案资源知识发现目标与体系架构 |
3.2.1 口述历史档案资源知识发现目标 |
3.2.2 口述历史档案资源知识发现流程及体系结构 |
3.3 数字人文视域下口述历史档案资源知识发现框架 |
3.3.1 口述历史档案资源知识发现构成要素 |
3.3.2 口述历史档案资源知识发现功能要素解析 |
3.3.3 口述历史档案资源知识发现要素及功能关系 |
3.3.4 口述历史档案资源知识发现框架构建 |
3.4 数字人文视域下口述历史档案资源知识发现框架主要模块作用解构 |
3.4.1 口述历史档案资源知识组织的描述与揭示作用 |
3.4.2 口述历史档案资源知识关联的存储与链接作用 |
3.4.3 口述历史档案资源知识发现的多维挖掘作用 |
3.5 本章小结 |
第4章 口述历史档案资源本体构建 |
4.1 口述历史档案资源知识组织原则 |
4.2 口述历史档案资源元数据标准选择 |
4.3 口述历史档案资源元数据抽取 |
4.4 口述历史档案资源本体模型设计 |
4.4.1 术语词表构建 |
4.4.2 确认类的等级体系,定义类和属性 |
4.4.3 充实、修正本体 |
4.4.4 本体模型转换 |
4.5 口述历史档案资源本体实例化 |
4.6 本章小结 |
第5章 口述历史档案资源知识图谱构建 |
5.1 口述历史档案资源知识图谱框架设计 |
5.2 模式层组织 |
5.2.1 本体解析 |
5.2.2 本体与图数据库规则映射 |
5.2.3 关系界定 |
5.3 数据层组织 |
5.3.1 信息抽取 |
5.3.2 知识融合 |
5.4 知识图谱存储与绘制 |
5.5 口述历史档案资源知识图谱实例化 |
5.5.1 数据准备 |
5.5.2 口述历史档案资源知识图谱模式层组织 |
5.5.3 口述历史档案资源知识图谱数据层组织 |
5.5.4 口述历史档案资源知识图谱存储与绘制 |
5.5.5 口述历史档案资源知识图谱可视化 |
5.6 本章小节 |
第6章 口述历史档案资源多维知识发现 |
6.1 基于项目概况的知识发现 |
6.1.1 整体—局部分布 |
6.1.2 项目—时间分布 |
6.1.3 项目—地点分布 |
6.2 基于事件主题关系的知识发现 |
6.2.1 事件—项目关系的知识发现 |
6.2.2 事件—时间关系的知识发现 |
6.2.3 事件—地点关系的知识发现 |
6.3 基于社会网络关系的知识发现 |
6.3.1 基于口述项目本身的社会关系 |
6.3.2 基于口述项目内容的社会关系 |
6.4 基于时空网络关系的知识发现 |
6.4.1 基于社会关系的人物空间分布分析 |
6.4.2 基于任职经历的人物时空迁移轨迹分析 |
6.5 本章小节 |
第7章 研究结论与展望 |
7.1 研究结论 |
7.2 研究局限 |
7.3 研究展望 |
参考文献 |
作者简介与研究成果 |
致谢 |
(4)面向用户知识需求的微信公众平台知识资源聚合及服务研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 选题背景 |
1.1.1 微信公众平台成为用户获取知识的重要途径 |
1.1.2 微信公众平台知识资源海量庞杂且质量参差不齐 |
1.1.3 用户日趋追求精准和智能化的知识服务 |
1.2 研究意义 |
1.2.1 理论意义 |
1.2.2 实践意义 |
1.3 国内外研究现状 |
1.3.1 网络知识资源聚合的国内外研究现状 |
1.3.1.1 网络知识资源聚合的国内研究现状 |
1.3.1.2 网络知识资源聚合的国外研究现状 |
1.3.2 微信公众平台知识组织与服务的国内外研究现状 |
1.3.2.1 微信公众平台知识组织与服务的国内研究现状 |
1.3.2.2 微信公众平台知识组织与服务的国外研究现状 |
1.3.3 研究评述 |
1.4 研究方法及技术路线 |
1.4.1 主要研究方法 |
1.4.2 研究技术路线及思路 |
1.5 研究主要内容 |
1.6 研究的创新点 |
第2章 相关概念及理论基础 |
2.1 微信公众平台 |
2.1.1 微信公众平台概念 |
2.1.2 微信公众号的类型 |
2.1.3 微信公众平台知识资源 |
2.2 知识聚合理论与方法 |
2.2.1 知识聚合概念 |
2.2.2 常用的知识聚合方法 |
2.3 文本挖掘与分析 |
2.3.1 文本挖掘概述 |
2.3.2 文本挖掘流程 |
2.4 知识服务 |
2.4.1 知识服务概述 |
2.4.2 常见的知识服务模式 |
2.4.2.1 知识检索服务 |
2.4.2.2 知识导航服务 |
2.4.2.3 知识推荐服务 |
2.4.2.4 知识集成服务 |
2.5 本章小结 |
第3章 面向用户知识需求的微信公众平台知识聚合服务体系框架 |
3.1 微信公众平台知识聚合服务面向用户知识需求的必要性 |
3.2 微信公众平台知识聚合及服务概述 |
3.2.1 微信公众平台知识聚合概念 |
3.2.2 微信公众平台知识聚合服务要素分析 |
3.2.3 微信公众平台知识聚合服务目标与原则 |
3.2.3.1 微信公众平台知识聚合服务目标 |
3.2.3.2 微信公众平台知识聚合服务原则 |
3.3 基于知识聚合的微信公众平台知识服务动因分析 |
3.4 面向用户知识需求的微信公众平台知识聚合服务体系框架 |
3.4.1 面向用户知识需求的微信公众平台知识聚合服务过程 |
3.4.2 面向用户知识需求的微信公众平台知识聚合服务体系框架构建 |
3.5 本章小结 |
第4章 微信公众平台用户画像构建及需求分析 |
4.1 微信公众平台用户画像概述 |
4.1.1 微信公众平台用户画像内涵 |
4.1.2 微信公众平台用户画像构建原则 |
4.2 微信公众平台用户画像构建 |
4.2.1 VALS2模型概述 |
4.2.2 基于VALS2的用户标签体系设计 |
4.2.3 用户画像标签权重设计 |
4.2.4 实证研究—以“学术类微信公众号用户”为例 |
4.2.4.1 样本特征统计分析 |
4.2.4.2 因子分析及分类标签抽取 |
4.2.4.3 用户画像聚类分析及可视化 |
4.3 基于用户画像的微信公众平台用户分类与知识需求分析 |
4.3.1 初期引入参与型用户 |
4.3.2 成长型用户 |
4.3.3 成熟型用户 |
4.4 微信公众平台用户知识需求层次分析 |
4.4.1 微信公众平台用户知识需求形成 |
4.4.2 微信公众平台用户知识需求层次划分 |
4.5 微信公众平台用户知识需求模型 |
4.6 本章小结 |
第5章 基于标签聚类的微信公众平台知识聚合及推荐服务 |
5.1 微信公众平台文本标签聚类的内涵及作用 |
5.1.1 微信公众平台文本标签聚类内涵 |
5.1.2 微信公众平台文本标签聚类作用 |
5.2 基于标签聚类的微信公众平台知识聚合方法 |
5.2.1 微信公众平台文本标签抽取方法 |
5.2.1.1 基于TextRank算法的文本标签抽取方法 |
5.2.1.2 Word2vec词向量模型 |
5.2.1.3 融合Word2vec和TextRank的文本标签抽取方法 |
5.2.2 BIRCH聚类算法及优化 |
5.2.3 基于改进BIRCH算法的微信公众平台知识资源聚合过程 |
5.3 实证研究—以“认知计算”领域为例 |
5.3.1 文本知识资源标签抽取 |
5.3.2 基于标签聚类的微信公众号知识资源聚合 |
5.4 基于标签聚类的微信公众平台知识推荐服务模式 |
5.4.1 微信公众平台知识推荐服务概述 |
5.4.2 基于标签聚类的微信公众平台知识推荐服务要素分析 |
5.4.3 基于标签聚类的微信公众平台知识推荐服务模式构建 |
5.5 本章小结 |
第6章 基于摘要生成的微信公众平台知识聚合及集成服务 |
6.1 微信公众平台文本知识摘要生成的内涵及作用 |
6.1.1 微信公众平台文本知识摘要内涵 |
6.1.2 微信公众平台文本知识摘要作用 |
6.2 基于TextRank算法的文本摘要生成过程及改进思路 |
6.2.1 基于TextRank算法的文本摘要生成方法及过程 |
6.2.2 基于TextRank算法的文本摘要生成方法改进思路 |
6.3 基于改进TextRank算法的微信公众平台知识摘要生成方法 |
6.3.1 基于TextTank算法的文本摘要生成方法改进 |
6.3.1.1 句子语义相似度计算 |
6.3.1.2 句子位置特征及标题相似度特征计算 |
6.3.1.3 基于MMR算法的句子冗余处理 |
6.3.2 融合用户需求与图模型的单文本知识摘要生成方法 |
6.3.3 融合主题与图模型的单领域多文本知识摘要生成方法 |
6.3.3.1 Doc2vec段落向量模型 |
6.3.3.2 微信公众平台单领域多文本知识摘要生成流程 |
6.4 实证研究—以“认知计算”领域为例 |
6.4.1 基于单文本知识摘要生成的微信公众平台知识聚合 |
6.4.2 基于单领域多文本摘要生成的微信公众平台知识聚合 |
6.5 基于摘要生成的微信公众平台知识集成服务模式 |
6.5.1 微信公众平台知识集成服务概述 |
6.5.2 基于摘要生成的微信公众平台知识集成服务要素分析 |
6.5.3 基于摘要生成的微信公众平台知识集成服务模式构建 |
6.6 本章小结 |
第7章 微信公众平台知识资源聚合及服务能力提升策略 |
7.1 用户知识需求外化表达及挖掘 |
7.1.1 提升用户知识需求外化表达能力 |
7.1.2 深入挖掘用户多层次知识需求 |
7.1.3 培养用户知识服务评价和反馈意识 |
7.2 加大新技术应用和融合改进 |
7.2.1 引入新技术,优化和改进知识聚合方法 |
7.2.2 知识聚合服务系统搭建和开发设计 |
7.2.3 应用可视化技术加强用户服务体验 |
7.3 微信公众平台创新服务理念及加强运营管理 |
7.3.1 加强主动知识服务意识,创新知识服务理念 |
7.3.2 构建和开展多元化平台知识服务模式 |
7.3.3 加强专业知识服务人才队伍建设 |
7.4 本章小结 |
第8章 研究结论与展望 |
8.1 研究结论 |
8.2 研究局限与展望 |
参考文献 |
附录 |
附录1 微信公众平台用户知识服务需求调查问卷 |
附录2 单领域多文本知识摘要生成示例 |
作者简介及在学期间所取得的科研成果 |
致谢 |
(5)数据流聚类算法在Web访问日志分析中的应用研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.2.1 Web日志分析 |
1.2.2 数据流聚类算法 |
1.3 研究内容 |
1.4 论文结构 |
第二章 相关理论与技术 |
2.1 Web日志挖掘 |
2.1.1 Web挖掘概述 |
2.1.2 Web日志挖掘概述 |
2.1.3 Web日志挖掘过程 |
2.2 数据流聚类算法 |
2.2.1 数据流 |
2.2.2 数据流模型 |
2.2.3 数据流挖掘 |
2.2.4 数据流聚类算法 |
2.3 分布式流处理技术 |
2.3.1 分布式流处理技术 |
2.3.2 分布式流处理平台Storm |
2.4 本章总结 |
第三章 改进的密度网格数据流聚类算法研究 |
3.1 基于密度网格的数据流聚类算法D-Stream |
3.1.1 D-Stream算法概述 |
3.1.2 D-Stream算法基本定义 |
3.1.3 时间周期gap与网格检查 |
3.1.4 算法描述 |
3.1.5 D-Stream算法的不足 |
3.2 改进算法设计 |
3.2.1 改进算法基本思想 |
3.2.2 改进算法基本定义及相关概念 |
3.2.3 算法描述 |
3.3 实验与结果分析 |
3.3.1 实验数据与实验环境 |
3.3.2 算法参数的设置 |
3.3.3 实验结果分析 |
3.4 本章总结 |
第四章 算法并行化设计及其基于Storm的实现 |
4.1 算法并行化设计 |
4.1.1 算法并行化设计基本思想 |
4.1.2 分布式数据流聚类算法概述 |
4.2 算法基于Storm的实现方案 |
4.3 实验与结果分析 |
4.3.1 实验数据与实验环境 |
4.3.2 实验结果分析 |
4.4 本章总结 |
第五章 基于Storm的改进算法在Web日志分析中的应用 |
5.1 Web访问日志格式说明 |
5.2 基于Storm的Web访问日志分析模型设计 |
5.3 模型应用结果及分析 |
5.4 本章总结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
在学期间取得的科研成果和科研情况说明 |
致谢 |
(6)基于Hadoop的城市公共交通大数据时空分析(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景及意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 国内外研究现状 |
1.2.1 城市公共交通大数据研究现状 |
1.2.2 数据可视化研究现状 |
1.2.3 WebGIS研究现状 |
1.3 研究内容 |
1.4 论文组织结构 |
第二章 相关理论和技术 |
2.1 时空大数据 |
2.1.1 时空大数据概述 |
2.1.2 时空大数据挖掘 |
2.2 大数据计算 |
2.2.1 Hadoop生态体系 |
2.2.2 HDFS与 MapReduce |
2.3 聚类算法 |
2.3.1 k均值聚类算法 |
2.3.2 DBSCAN聚类算法 |
2.4 数据可视化 |
2.4.1 数据可视化概述 |
2.4.2 基于WebGIS的数据可视化 |
第三章 数据预处理与客流分析 |
3.1 数据预处理 |
3.1.1 数据准备 |
3.1.2 数据清洗 |
3.2 构建分析模型 |
3.2.1 公交车乘客出行链 |
3.2.2 交通工具客流模型 |
3.3 提取空间分布结构 |
3.3.1 识别乘客职住地 |
3.3.2 提取热点乘车区域 |
第四章 交通大数据可视化分析 |
4.1 公交刷卡数据可视化分析 |
4.1.1 公交线路运营分析 |
4.1.2 职住地可视化分布 |
4.1.3 公交客流换乘分析 |
4.2 出租车数据可视化分析 |
4.2.1 热点乘车区域分析 |
4.2.2 交通枢纽客流分析 |
4.2.3 空间关联规则分析 |
4.3 出行特征差异性可视化分析 |
4.3.1 出行时间差异性分析 |
4.3.2 出行热点差异性分析 |
4.3.3 出行时长差异性分析 |
第五章 总结与展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
致谢 |
(7)社交媒体中基于用户兴趣的跨域数据挖掘研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 论文主要研究工作 |
1.3 论文主要研究成果 |
1.4 论文内容安排 |
参考文献 |
第二章 跨域数据挖掘及用户兴趣模型研究综述 |
2.1 社交媒体中跨域数据挖掘研究 |
2.1.1 跨域用户身份识别 |
2.1.2 跨域推荐 |
2.1.3 跨域社区发现 |
2.1.4 跨域影响力分析 |
2.1.5 跨域事件检测 |
2.2 用户兴趣模型研究 |
2.2.1 用户兴趣模型构建 |
2.2.2 用户兴趣建模方法 |
2.3 社交媒体中基于用户兴趣的跨域数据挖掘研究 |
2.3.1 社交媒体中基于用户兴趣的跨域数据挖掘研究现状 |
2.3.2 用户兴趣模型提升跨域数据挖掘性能的优势 |
2.4 本章小结 |
参考文献 |
第三章 异质跨域数据下基于用户兴趣的跨域用户身份识别方法研究 |
3.1 引言 |
3.2 问题定义 |
3.3 基于链接异质网络嵌入的跨域用户身份识别方法 |
3.3.1 基于链接异质网络的兴趣嵌入模型 |
3.3.2 模型优化及训练 |
3.3.3 跨域用户身份识别算法 |
3.4 实验与分析 |
3.4.1 实验环境与设置 |
3.4.2 社交媒体数据集的实验结果与分析 |
3.4.3 合成数据集的实验结果与分析 |
3.5 本章小结 |
参考文献 |
第四章 匿名跨域数据下基于用户兴趣的跨域推荐方法研究 |
4.1 引言 |
4.2 问题定义 |
4.3 基于跨域异质关系嵌入的跨域推荐方法 |
4.3.1 基于双聚类的跨域兴趣嵌入模型 |
4.3.2 模型优化及训练 |
4.3.3 跨域推荐算法 |
4.4 实验与分析 |
4.4.1 实验环境与设置 |
4.4.2 实验结果与分析 |
4.5 本章小结 |
参考文献 |
第五章 动态跨域数据下基于用户兴趣的跨域推荐方法研究 |
5.1 引言 |
5.2 问题定义及相关知识 |
5.2.1 问题定义 |
5.2.2 循环神经网络 |
5.3 基于多层循环神经网络的跨域推荐方法 |
5.3.1 跨域多层循环神经兴趣模型 |
5.3.2 基于用户级-会话级动态兴趣的跨域推荐模型 |
5.3.3 跨域最小批训练机制 |
5.3.4 实验与分析 |
5.4 基于循环-门控神经网络的跨域推荐方法 |
5.4.1 跨域循环-门控神经兴趣模型 |
5.4.2 基于长短期兴趣的跨域推荐模型 |
5.4.3 跨域最小批训练机制 |
5.4.4 实验与分析 |
5.5 本章小结 |
参考文献 |
第六章 总结及展望 |
6.1 论文研究工作总结 |
6.2 未来研究工作展望 |
附录 缩略语表 |
致谢 |
攻读学位期间发表的学术论文目录 |
(8)大数据联盟数据挖掘服务模式研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景 |
1.2 研究目的及意义 |
1.2.1 研究目的 |
1.2.2 研究意义 |
1.3 国内外研究现状及评述 |
1.3.1 大数据研究现状 |
1.3.2 大数据联盟研究现状 |
1.3.3 数据挖掘研究现状 |
1.3.4 服务模式研究现状 |
1.3.5 大数据联盟数据挖掘服务研究评述 |
1.4 主要研究内容和方法 |
1.4.1 研究内容 |
1.4.2 研究方法 |
1.4.3 技术路线 |
第2章 大数据联盟合作机理与数据挖掘服务模式架构 |
2.1 大数据联盟内涵及构成 |
2.1.1 大数据联盟内涵 |
2.1.2 大数据联盟特征 |
2.1.3 大数据联盟成员构成 |
2.2 数据挖掘服务相关概念界定及过程设计 |
2.2.1 数据挖掘服务的相关概念界定 |
2.2.2 大数据联盟数据挖掘服务过程 |
2.3 大数据联盟合作机理 |
2.3.1 大数据联盟形成动因 |
2.3.2 大数据联盟合作网络发展阶段 |
2.3.3 大数据联盟资源共享关系 |
2.3.4 大数据联盟合作协同模型 |
2.4 大数据联盟数据挖掘服务模式架构设计 |
2.4.1 用户需求层次 |
2.4.2 数据挖掘层次 |
2.4.3 大数据联盟数据挖掘服务模式总体框架 |
2.5 本章小结 |
第3章 大数据联盟标准化数据挖掘服务模式 |
3.1 大数据联盟标准化数据挖掘服务模式整体架构 |
3.2 大数据联盟标准化数据挖掘服务内容与定价 |
3.2.1 大数据联盟标准化数据挖掘服务内容 |
3.2.2 大数据联盟标准化数据挖掘服务定价方法 |
3.3 大数据联盟标准化数据挖掘服务过程 |
3.3.1 共性化服务需求挖掘 |
3.3.2 联盟标准化服务产品形成 |
3.3.3 标准化服务封装与发布 |
3.3.4 标准化数据挖掘服务交付 |
3.4 大数据联盟标准化数据挖掘服务方式 |
3.4.1 自助式服务方式 |
3.4.2 咨询式服务方式 |
3.5 大数据联盟标准化数据挖掘服务实现保障 |
3.5.1 售后服务保障 |
3.5.2 运营监管保障 |
3.6 标准化数据挖掘服务模式适用范围及实施策略 |
3.6.1 标准化数据挖掘服务模式适用范围 |
3.6.2 标准化数据挖掘服务模式实施策略 |
3.7 本章小结 |
第4章 大数据联盟定制化数据挖掘服务模式 |
4.1 大数据联盟定制化数据挖掘服务模式整体架构 |
4.2 大数据联盟定制化数据挖掘服务内容与定价 |
4.2.1 大数据联盟定制化数据挖掘服务内容 |
4.2.2 大数据联盟定制化数据挖掘服务定价方法 |
4.3 大数据联盟定制化数据挖掘服务过程 |
4.3.1 用户个性化需求描述 |
4.3.2 联盟成员服务能力挖掘 |
4.3.3 联盟成员数据资源准备 |
4.3.4 数据挖掘模型选择与评估 |
4.3.5 定制化数据挖掘服务交付 |
4.4 大数据联盟定制化数据挖掘服务方式 |
4.4.1 委托式服务方式 |
4.4.2 跟进式服务方式 |
4.5 大数据联盟定制化数据挖掘服务实现保障 |
4.5.1 协调管理保障 |
4.5.2 资源配置保障 |
4.5.3 协同调度保障 |
4.6 定制化数据挖掘服务模式适用范围及实施策略 |
4.6.1 定制化数据挖掘服务模式适用范围 |
4.6.2 定制化数据挖掘服务模式实施策略 |
4.7 本章小结 |
第5章 大数据联盟智能化数据挖掘服务模式 |
5.1 大数据联盟智能化数据挖掘服务模式整体架构 |
5.2 大数据联盟智能化数据挖掘服务内容与定价 |
5.2.1 大数据联盟智能化数据挖掘服务内容 |
5.2.2 大数据联盟智能化数据挖掘服务定价方法 |
5.3 大数据联盟智能化数据挖掘服务过程 |
5.3.1 混合型需求的知识表示 |
5.3.2 数据挖掘服务智能检索 |
5.3.3 服务重用与调整 |
5.3.4 智能化数据挖掘服务交付 |
5.3.5 服务知识学习与案例存储 |
5.4 大数据联盟智能化数据挖掘服务方式 |
5.4.1 智能交互的委托式服务方式 |
5.4.2 智慧协同的跟进式服务方式 |
5.5 大数据联盟智能化数据挖掘服务实现保障 |
5.5.1 多案例经验集成保障 |
5.5.2 群体智能保障 |
5.6 智能化数据挖掘服务模式适用范围及实施策略 |
5.6.1 智能化数据挖掘服务模式适用范围 |
5.6.2 智能化数据挖掘服务模式实施策略 |
5.7 本章小结 |
第6章 ZWJ大数据联盟数据挖掘服务模式 |
6.1 ZWJ大数据联盟背景及概况 |
6.1.1 ZWJ大数据联盟背景 |
6.1.2 ZWJ大数据联盟成员类型 |
6.2 ZWJ大数据联盟数据挖掘服务平台及内容 |
6.2.1 ZWJ大数据联盟数据挖掘服务平台 |
6.2.2 ZWJ大数据联盟数据挖掘服务内容 |
6.3 ZWJ大数据联盟标准化数据挖掘服务 |
6.3.1 用户A的共性化需求描述 |
6.3.2 标准化数据挖掘服务搜索 |
6.3.3 标准化数据挖掘服务交付 |
6.4 ZWJ大数据联盟定制化数据挖掘服务 |
6.4.1 用户B的个性化需求描述 |
6.4.2 联盟成员服务能力挖掘 |
6.4.3 联盟成员数据资源准备 |
6.4.4 数据挖掘模型选择与评估 |
6.4.5 定制化数据挖掘服务交付 |
6.5 ZWJ大数据联盟智能化数据挖掘服务 |
6.5.1 用户C的混合型需求知识表示 |
6.5.2 数据挖掘服务智能检索 |
6.5.3 服务调整与交付 |
6.5.4 服务知识学习与存储 |
6.6 ZWJ大数据联盟数据挖掘服务模式实施效果与提升策略 |
6.6.1 ZWJ大数据联盟数据挖掘服务模式实施效果 |
6.6.2 ZWJ大数据联盟数据挖掘服务模式改进措施 |
6.7 本章小结 |
结论 |
参考文献 |
攻读学位期间发表的学术论文 |
攻读学位期间参与的科研项目 |
致谢 |
(9)大数据视角下的国际集装箱海运运价预测研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 研究的背景及意义 |
1.1.1 命题提出 |
1.1.2 研究意义 |
1.2 国内外研究现状综述 |
1.2.1 信息集成 |
1.2.2 数据挖掘 |
1.2.3 大数据 |
1.2.4 海运运价预测 |
1.3 研究的目标和关键问题 |
1.3.1 研究目标 |
1.3.2 拟解决的关键问题 |
1.4 研究的思路和方法 |
1.4.1 研究思路 |
1.4.2 研究方法 |
1.5 研究的内容和创新点 |
1.5.1 研究内容 |
1.5.2 本文的特色与创新之处 |
2 相关概念和理论 |
2.1 信息集成 |
2.1.1 联邦数据库 |
2.1.2 数据仓库 |
2.1.3 Wrapper-Mediator |
2.2 数据处理 |
2.2.1 数据质量分析 |
2.2.2 归一化处理 |
2.2.3 相关性分析 |
2.3 数据挖掘 |
2.3.1 评估方法 |
2.3.2 数据挖掘方法 |
2.3.3 超参数调优方法 |
2.3.4 评价指标 |
2.4 大数据技术 |
2.4.1 MPI |
2.4.2 Hadoop体系 |
2.4.3 Spak |
2.5 本章小结 |
3 国际集装箱海运运价预测总体框架 |
3.1 总体流程 |
3.1.1 运价信息处理和集成 |
3.1.2 运价数据特征处理和EDA |
3.1.3 运价预测模型提出 |
3.1.4 运价预测模型计算和评估 |
3.1.5 运价预测模型使用 |
3.2 总体架构 |
3.2.1 信息集成 |
3.2.2 存储管理 |
3.2.3 数据挖掘 |
3.3 本章小结 |
4 国际集装箱海运运价信息集成模型和方法 |
4.1 运价数据来源分析 |
4.1.1 国际海运电商平台 |
4.1.2 业务操作系统 |
4.1.3 常用办公软件 |
4.1.4 政府或职能部门的系统 |
4.2 运价数据特征分析 |
4.2.1 海量、实时和真实 |
4.2.2 易于存储、传输和处理 |
4.2.3 普遍存在异构性 |
4.3 运价数据集成目标研究 |
4.4 基于数据仓库的运价信息集成模型 |
4.5 实现运价信息集成的关键技术 |
4.5.1 定义数据仓库模型 |
4.5.2 集成异构信息 |
4.5.3 处理增量信息 |
4.5.4 设计基于语义的知识库和规则库 |
4.6 运价信息初步集成方法 |
4.6.1 运价基本数据初步处理方法 |
4.6.2 异源异构运价数据集成方法 |
4.7 运价信息合并 |
4.7.1 相关性分析 |
4.7.2 数据整合并去重 |
4.8 本章小结 |
5 运价数据特征处理方法 |
5.1 有效运价信息生成方法 |
5.1.1 运价信息筛选方法 |
5.1.2 无效数据处理逻辑和方法 |
5.1.3 异常值处理的逻辑和方法 |
5.2 异源运价值处理 |
5.3 历史拉链断链数据处理 |
5.4 关键特征属性补充 |
5.4.1 港口基本属性分析 |
5.4.2 离散型特征值处理方法 |
5.4.3 关键信息替换方法 |
5.4.4 基于基础信息的关键属性拓展 |
5.4.5 预测目标选择方法 |
5.5 运价信息的维度衍生 |
5.5.1 横向同期指标 |
5.5.2 纵向历史指标 |
5.5.3 历史变化指标 |
5.5.4 运价预测总体目标维度衍生 |
5.5.5 重要特征属性衍生策略 |
5.5.6 补充属性设计 |
5.6 特征转换 |
5.6.1 One-Hot Encoding |
5.6.2 归一化处理 |
5.7 本章小结 |
6 基于数据挖掘方法的运价预测模型 |
6.1 运价预测模型的基本框架 |
6.2 运价预测模型设计 |
6.2.1 模型的输入和输出 |
6.2.2 运价数据特征属性分析 |
6.2.3 数据挖掘方法选取分析 |
6.2.4 运价预测结果评价指标研究 |
6.3 实现运价预测的算法和评价策略优化 |
6.3.1 自适应网格搜索策略设计 |
6.3.2 基于时间序列的留出法(THO)设计 |
6.3.3 基于GBDT的算法优化策略设计 |
6.4 本章小结 |
7 运价预测系统设计及实验 |
7.1 运价数据准备 |
7.2 数据集成和数据特征处理 |
7.2.1 预测目标选择 |
7.2.2 关键信息补全 |
7.3 运价数据EDA分析 |
7.3.1 运价数据分布性分析 |
7.3.2 运价波动趋势统计 |
7.4 运价预测系统设计及实现 |
7.4.1 运价预测系统方案设计 |
7.4.2 基于大数据技术的系统架构 |
7.4.3 运价信息集成结果 |
7.4.4 运价预测结果 |
7.5 本章小结 |
8 总结和展望 |
8.1 研究总结 |
8.2 研究展望 |
参考文献 |
科研及发表论文情况 |
致谢 |
(10)基于WEB挖掘的网站结构优化技术研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景 |
1.1.1 WEB 数据挖掘 |
1.1.2 网站结构优化 |
1.2 国内外研究现状及意义 |
1.2.1 国内外研究现状 |
1.2.2 研究意义 |
1.3 论文结构 |
第二章 WEB 数据挖掘综述 |
2.1 数据挖掘 |
2.1.1 数据挖掘的定义 |
2.1.2 数据挖掘的方法和工具 |
2.1.3 数据挖掘的流程 |
2.2 WEB 数据挖掘 |
2.2.1 WEB 数据挖掘的定义 |
2.2.2 WEB 数据挖掘的对象 |
2.2.3 WEB 数据挖掘的分类 |
2.2.4 WEB 数据挖掘的流程与方法 |
2.3 WEB 日志挖掘 |
2.3.1 WEB 日志挖掘的术语和概念 |
2.3.2 WEB 日志挖掘过程 |
2.3.3 WEB 日志挖掘的数据源 |
2.3.4 WEB 日志挖掘的应用 |
第三章 网站结构优化研究 |
3.1 网站结构优化概述 |
3.1.1 WEB 站点结构及其表示 |
3.1.2 网站结构优化概念 |
3.1.3 网站结构优化研究的主要问题 |
3.1.4 网站结构优化的目标 |
3.2 网站结构优化方法综述 |
3.2.1 基于用户行为方法 |
3.2.2 基于站点模型方法 |
第四章 基于访问模式挖掘的网站结构优化 |
4.1 访问模式挖掘问题定义 |
4.2 访问模式挖掘的特点 |
4.3 数据收集 |
4.4 分布式动态站点的日志挖掘数据预处理 |
4.4.1 数据合并 |
4.4.2 数据清理 |
4.4.3 用户识别 |
4.4.4 会话识别 |
4.4.5 改进的会话识别 |
4.4.6 路径补充 |
4.5 序列模式挖掘算法 |
4.5.1 序列模式挖掘步骤 |
4.5.2 序列模式挖掘的几种算法比较 |
4.6 基于用户访问序列挖掘的站点路径优化 |
4.6.1 访问者的搜索模式 |
4.6.2 目标位置和期望位置的发现 |
4.6.3 改进的目标位置和期望位置的发现 |
4.6.4 站点结构的调整 |
第五章 网站结构优化系统的设计与实现 |
5.1 概述 |
5.2 系统的设计 |
5.2.1 站点结构优化工具结构 |
5.2.2 系统架构 |
5.3 系统的实现 |
5.3.1 数据预处理模块 |
5.3.2 站点结构优化模块 |
5.4 系统关键技术分析 |
5.4.1 数据预处理技术 |
5.4.2 站点结构优化关键技术 |
5.5 小结 |
第六章 总结与展望 |
6.1 本文小结 |
6.2 进一步的工作 |
参考文献 |
致谢 |
攻读硕士期间科研成果 |
四、基于Web数据挖掘的综述(论文参考文献)
- [1]交通行业安全生产事故数据时空特征挖掘分析[D]. 程宇航. 北京建筑大学, 2021(01)
- [2]基于微服务架构与知识图谱技术构建无人机知识库系统[D]. 陈秋瑾. 厦门理工学院, 2021(08)
- [3]数字人文视域下口述历史档案资源知识发现研究[D]. 王阮. 吉林大学, 2021
- [4]面向用户知识需求的微信公众平台知识资源聚合及服务研究[D]. 程子轩. 吉林大学, 2021(01)
- [5]数据流聚类算法在Web访问日志分析中的应用研究[D]. 张倩. 天津理工大学, 2021(08)
- [6]基于Hadoop的城市公共交通大数据时空分析[D]. 赵明. 北京建筑大学, 2020(07)
- [7]社交媒体中基于用户兴趣的跨域数据挖掘研究[D]. 王雅青. 北京邮电大学, 2020(01)
- [8]大数据联盟数据挖掘服务模式研究[D]. 邢海龙. 哈尔滨理工大学, 2020(01)
- [9]大数据视角下的国际集装箱海运运价预测研究[D]. 冯扬文. 华中师范大学, 2018(05)
- [10]基于WEB挖掘的网站结构优化技术研究[D]. 李亮. 西北师范大学, 2012(04)