关系数据库去重和索引实现是关于本文可作为关系数据库方面的大学硕士与本科毕业论文关系数据库的特点论文开题报告范文和职称论文论文写作参考文献下载。
摘 要:数据库去重的实现中主要介绍了如何通过嵌套匹配,查找以主键为中心的重复元组,并建立相应的临时表存储全部重复数据去掉后的数据和重复数据删除至一条元组的数据,将两个临时表合一,即为最后实验所需的数据表.数据库倒排索引的实现中主要利用MySQL软件自带的全文索引功能,在正确的引擎下对数据表中的每个属性列建立相应的全文索引.
关键词:数据库设计 去重实现 索引实现
1 数据库设计
本系统为面向关系数据库的关键字查询系统,在实验中本文选取了IMDB 数据集,为了进行实验,将数据集整理为以下七个表数据结构.
实验数据集(电影信息数据库):
Actor(演员表)、Consume(设计师)、Director(导演信息)、Business(投资)、Editor(编辑)、Color(颜色信息)、Keyword(关键词).本数据库抽象的数据库关系E-R图如图1所示.
2 数据库去重实现
本系统主要采用MySQL关系型数据库,对数据库的基本操作如下.(系统实现)
2.1 在程序中定义了DBbase基.其中 MySQL驱动类描述符为“net.sourceforge.jtds.jdbc.Driver”.
protected final String password 等于 "123456 ";
protected static finalString mysql 等于 "net.sourceforge
.jtds.jdbc.Driver ";
2.2 实现数据库的连接功能.
import java.sql.DriverManager;
import java.sql.Connection;
import java.sql.SQLException;
public class cc {
private static String dburl 等于 "jdbc:mysql://localhost:3306/diany?user等于root&password等于123456";
public conn() {
try {
Connection con 等于 DriverManager.getConnection(dburl);
System.out.println("connect successfully");
}
catch(SQLException se) {
se.printStackTrace();
}
}
public static void main(String[] args) {
new conn();
}
}
2.3 提交数据库方法.
public void commit() throws SQLException
{
conn.commit();
}
2.4 回滚数据库方法.
public void rollback() throws SQLException
{
conn.rollback();
}
2.5 关闭数据库方法.
public void close() throws SQLException
{
ptmt.close();
conn.close();
}
在实验数据集中,默认**name属性值不重复,当然我们所熟知的actorname为演员名,而重名也是很常见的,在允许重名时为每个表新建一个属性列id,并设为Primary Key,但是在本实验中设定不重名.这就要删除数据库表中重复的元组以设定Primary Key.(以Consume表为例)
原始表中设定Primary Key:Consumename.出现错误Duplicate entry ‘Greenwood Jane I’for key ‘PRIMARY’,说明在Keyword表中存在consumename属性值一样的元组,需要对关系表去重来确定主键.
3 数据库索引实现
索引的实现相对简单,由于数据库管理系统中支持文本属性的全文索引,所以可以直接利用关系数据库的全文索引.全文索引是一个倒排文件,它以属性对的形式记录了每一个关键字以及关键字出现的位置,一些关系数据库系统中,不仅仅能记录关键字所出现的位置,同时还能返回和查询的相关性得分.
全文索引在MySQL中是一个FULLTEXT类型索引.FULLTEXT索引用于MyISAM表,可以在CREATE TABLE 时或之后使用ALTER TABLE或CREATE INDEX在CHAR、VARCHAR或TEXT 列上创建.对于大的数据库,将数据装载到一个没有FULLTEXT 索引的表中,然后再使用ALTER TABLE(或CREATE INDEX)创建索引,这将是非常快的.将数据装载到一个已经有FULLTEXT索引的表中,将是非常慢的.
索引表一般使用倒排表(InversionList),即由索引项查找相应的文档.索引表也要记录索引项在文档中的位置,以便检索器计算索引项之间的相邻或接近关系.当数据量很大时,必须实现即时索引,否则不能够跟上信息急剧增加的速度.即是指在索引过程中边建立边存入索引库.索引算法对索引器的性能有很大的影响.一个搜索引擎的有效性在很大程度上取决于建立索引的质量,本系统在创建索引时有两种方法:
总结:这是一篇与关系数据库论文范文相关的免费优秀学术论文范文资料,为你的论文写作提供参考。
参考文献:
1、 重启丝绸之路对中阿关系的影响 摘 要:丝绸之路是一条横贯亚洲、连接欧亚大陆的著名古代陆上商贸通道。从汉朝时期的张骞出使西域,唐朝阿拉伯使节抵达长安,中阿建交开始,直到如今,许。
2、 基于V—S关系模型多尺度Retinex雾天图像去雾算法 摘要:提出一种基于多尺度Retinex的雾天图像强算法:将图像从RGB空间转换到Hsv色彩空间并保持色度分量H不变,通过V-S关系模型得到截距b。
3、 关系数据库规范化和数据库设计 [摘要]本文介绍了在实际开发过程中如何应用数据库规范化理论指导数据库设计,谈到了基本概念函数依赖及三种基本的范式要求,并运用其规划设计数据库,最。
4、 30年后重话大国兴衰专访大国的兴衰作者保罗肯尼迪 保罗·肯尼迪,耶鲁历史系资深教授,1987年出版《大国的兴衰》预测美国走向相对衰落。31年间,沧海几回换了桑田。倘若重写此书,他的主要观点有无。
5、 互联网资管新规会重击谁 通过互联网无论是自主发行还是代销资管产品,无牌照者免谈。这是最新的监管态度。4月3日,互联网金融风险专项整治工作领导小组办公室下发《关于加大通。
6、 华中数控大国重器喜和忧 在装备制造领域,数控机床是“母机”,其技术水平代表着一个国家的综合竞争力。数控系统则是机床装备的“大脑”,是决定数控机床功能、性能、可靠性、成本。