数据存储论文范文基于Hadoop的RDF数据存储策略综述有关论文写作资料-论文范文网

基于Hadoop的RDF数据存储策略综述是关于本文可作为数据存储方面的大学硕士与本科毕业论文数据存储论文开题报告范文和职称论文论文写作参考文献下载。

【摘要】随着信息爆炸时代的到来和语义网的快速发展,海量RDF数据存储已成为普遍关注的问题.分布式云计算技术为海量RDF的存储和查询提供了了新的、更高效的解决方案,而基于Hadoop平台的RDF数据存储研究成为了研究焦点.本文对Hadoop在海量RDF数据存储中应用的关键问题进行分析,介绍了现有的基于Hadoop平台的RDF存储系统并将它们进行综合分析,最后对未来发展方向进行了展望.

【关键词】语义网；RDF；存储系统；查询；Hadoop

【 Abstract 】 With the arrival of the era of information explosion and the rapid development of the semantic web, the storage for large-scale RDF data has become an issue of common concern. A distributed cloud computing technology, which is more efficient, provides a new solution for large-scale RDF"s storage and query and the research on storing RDF data based on Hadoop platform has become the focus of research. This paper carries on the analysis to the key issues of the application of the Hadoop in the massive RDF data storage and introduces the existing RDF Storage System based on Hadoop platform and summarize them . Finally this paper proposes the future development direction.

【 Keywords 】 semantic web； RDF； storage system； query； hadoop

1 引言

语义网（Semantic Web）的核心思想是通过给万维网上的文档（如： HTML）添加能够被计算机所理解的语义（Meta data）,促使互联网成为一个通用的信息交换媒介.资源描述框架（Resource Description Framework,RDF）是 W3C 提出的资源描述标准语言,具有一定的信息表达和交换能力,还能一定程度上描述语义信息.语义网的快速发展与应用带给RDF数据的剧增,海量RDF数据的存储、检索成为了难题.

传统的关系数据库面对海量RDF处理显得力不从心,而分布式云计算技术在处理海量数据方面有着得天独厚的优势,而Hadoop凭借其对分布式计算的实现以及开源性,吸引了很多研究者和研究机构进行海量RDF数据存储研究,并提出了各自的解决方案,比如上海交通大学提出的HadoopRDF,Hyunsk Choi等人提出的SPIDER,Nikolaos Papailiou等人提出的H2RDF等.本文分析了用Hadoop相关技术解决RDF数据存储时考虑的关键问题,然后对当前的存储策略进行对比分析和综述.

2 RDF数据存储的三个关键问题

（1）存储容器的选择.RDF三元组最简单的存储就是保留RDF三元组（S,P,O）的形态,直接存放在文件系统（如HDFS、RDF-3x）上,这样做的好处是不用对三元组结构做额外处理,存储速度快,缺点是检索不方便,需要建立大量索引.另一种就是用数据库HBase来存放,HBase是一种Key-value键值对的存储模式,这样存储的好处是可以有效利用MapReduce算法进行高效检索,但是缺点是存储的时候需要改变三元组的结构,而且如何拆分三元组进行存储才更有利于高效检索和重组也是一个值得探究的问题.

（2）数据库的选择与划分.在使用HBase表进行存储的时候,可以将三元组（S,P,O）中的一个元素（S或P或O）或者元素组合分开存储在key和value中,充分利用HBase行键RowKey的默认字典索引方便检索,不过往往要通过建立冗余表来实现对不同元素的索引来方便检索.另一种方案就是按照类和属性进行划分,将同一类或同一属性的RDF数据集中存储.但是如何建表才能使表的数目、数据冗余度、检索效率之间找到平衡有待研究.

（3）索引策略的设计.索引的建立是为了查询时的高效,利用HDFS上的三元组存储需要建立HDFS的一级或者多级索引,如果表的数目太多,索引文件很难维护.利用HBase进行存储可以利用HBase的RowKey索引,但是查询往往是RDF基本图或者更为复杂的查询模式,这样就涉及不同查询变量和表间连接,为了配合查询,往往需要将（S,P,O）中不同的元素和元素组合作为RowKey来建立不同索引.如何建立简单、有效索引才能将RDF基本图的查询化繁为简还值得讨论.

3 RDF存储策略

3.1 HDFS&MapReduce策略

这种存储模式将海量RDF数据直接以三元组的形式保存在HDFS文件中,并且可以利用Jena等推理工具或者算法对数据进行划分,通过Hash函数分开存储在不同节点,并利用指针或者hash索引将具有相同查询特性的数据存放在磁盘上的连续区域来提高查询效率.

文献[12]将RDF数据按照谓语及宾语的类型划分成多个类并分别存储在HDFS中的多个小文件中,利用贪心算法生成多个MapReduce作业迭代处理SPARQL查询的连接操作,并优先处理出现次数最多的变量所在的子句.文献[13]根据主语所属类划分RDF数据并将划分后的RDF数据所在文件存储在HDFS,一个MapReduce作业处理一条Triple Pattern查询,所有Triple Pattern查询都顺序执行.文献[14]将RDF数据按照N-Triple文件的形式存储,查询时采用多个MapReduce作业查询RDF三元组数据并迭代处理SPARQL查询的连接操作,提出了贪婪选择以及多路选择两种连接选择策略.

总结:本论文为免费优秀的关于数据存储论文范文资料，可用于相关论文写作参考。

参考文献：

1、国外智库数据搜集策略其在大数据环境下挑战摘要：数据搜集作为智库数据价值链的首要环节，在智库研究中承担着重要作用。文章选取《2015全球智库排名》中具有参考价值的十余家智库机构，通过网。

2、基于Hadoop图书馆复合大数据存储系统〔摘要〕Hadoop中的HDFS是大数据存储处理的关键技术，HDFS在存储海量数据集中有着高效、可靠的优点。为解决图书馆传统关系型数据库在海量数。

3、基于云计算的安全数据存储分析【摘要】针对当前科学技术的不断进步，云计算在各个领域得到了广泛的应用。而在云计算技术应用的过程中，是否保证其存储数据的安全性成为各个企业。

4、一种改进的RDF数据k—hop划分算法摘要：RDF数据k-hop划分算法是基于RDF大图顶点划分的算法，通过数据复制冗余以优化分布式RDF查询处理系统在特定SPARQL查询模式下的查。

5、云计算下非结构化大数据存储系统设计摘要：当前云计算下非结构化大数据存储系统设计方法是通过使用分布式数据库存储跨区域的云计算数据和全局数据存储管理目录实现的，运行系统复杂，成本。

6、例科学实验数据优化策略【摘要】在科学探究活动中，获得实验数据并分析归纳出结论是非常重要的环节，而学生在获取数据、分析数据的过程中会出现各种问题，教师要直面这些问题，。

关于数据存储论文范文基于Hadoop的RDF数据存储策略综述相关论文写作参考文献

关于数据存储毕业论文范文

相关职称论文题目

关于数据存储开题报告写作参考资料