登陆注册
11685300000021

第21章 数据库与数据仓库(4)

数据仓库中的信息存储,是根据对数据的不同深度处理来分成不同层次的。其结构一般划分为以下几个方面。

①历史性详细数据层。它存储历史数据,供分析、建模、预测之用。

②当前详细数据层。存储最新详细数据,是进一步分析数据的基础。

③不同程序的归纳总结信息层。可包含多个层次,根据所需分类和归纳的不同深度而定,如按周、月、年统计的数据。

④专业分析信息层。进一步专业分析的结果,如统计分析、运筹分析、时间序列分析及表面数据的内在规律分析等。

⑤结构信息。数据仓库的内部结构信息,反映各种信息在数据仓库中的位置分布和处理方式等,以便检索查询之用。

5)数据仓库工具的组成

一个典型的数据仓库产品应包括以下几个部分:数据集市、关系数据库、数据源、数据准备区、各种服务工具等。

(1)数据集市

数据集市是数据仓库的子集,是按照主体从数据仓库中划分的数据集合。它可以理解为是一个小型的部门或者工作组级别的数据仓库。

(2)关系数据库

关系数据库是数据仓库非常重要的组成部分,数据仓库要想发挥真正的威力,必须由关系数据库为其提供强大的基础引擎。

(3)数据源

使用数据仓库的根本目的是向企业决策制定者提供各种决策信息,因此数据仓库必须将企业内部或外部的各种信息集中起来,合并为一致的数据集。数据仓库必须把来自不同数据源的数据收集并整理好,以准确地反映企业的业务运作情况和历史状态。虽然这些数据源的数据不能直接用于决策支持,但也必须将其捕获到数据仓库中,因为这些长期积累的数据是建立数据仓库的重要基础。

(4)数据准备区

数据准备区又称数据中间存储区,它是一个关系数据库,数据仓库从其他数据源所抽取的数据首先保存在这个关系数据库中,在此将数据转换为数据仓库所要求的统一格式,检查数据的一致性与引用完整性,并准备载入数据仓库中。

(5)

数据仓库需要相关工具来分析和评估数据仓库中浩瀚的数据,如联机分析处理(OLAP)、数据挖掘工具、预定义报表等。此外,还要预留支持用户开发自定义工具的应用程序接口。

2.数据挖掘

1)数据挖掘的概念

数据挖掘(DataMining),又称为数据库中的知识发现(KnowledgeDiscoveryinDatabase,KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。简单来说,数据挖掘就是从大量数据中提取或“挖掘”知识。典型的数据挖掘系统结构如图414所示。

图414典型数据挖掘系统结构

并非所有的信息发现任务都被视为数据挖掘。例如,使用数据库管理系统查找个别的记录,或通过因特网的搜索引擎查找特定的Web页面,则是信息检索(InformationRetrieval)领域的任务。虽然这些任务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。尽管如此,数据挖掘技术也用来增强信息检索系统的能力。

2)数据仓库与数据挖掘的关系

数据挖掘和数据仓库作为决策支持新技术,在近10年来得到了迅速发展。数据仓库和数据挖掘是相互结合起来一起发展的,二者是相互影响、相互促进的。二者的关系可以概括为以下几点。

①数据仓库为数据挖掘提供了更好的、更广泛的数据源。数据仓库中集成和存储着来自异质的信息源,而这些信息源本身就可能是一个规模庞大的数据库。同时数据仓库存储了大量长时间的历史数据,这就可以进行数据长期趋势的分析,为决策者的长期决策行为提供。

②数据仓库为数据挖掘提供了新的支持平台。数据仓库的发展平台不仅仅是为了数据挖掘开辟了新的空间,更对数据挖掘提出了更高的要求。数据仓库的体系机构努力保证查询和分析的实时性。

③数据仓库为更好地使用数据挖掘工具提供了方便。数据仓库的建立,充分考虑到数据挖掘的要求。用户可以通过数据仓库服务器得到所需要的数据,形成开采中间数据库,利用数据挖掘方法进行开采并获得知识。数据仓库为数据挖掘集成了企业内各部门的全面的、综合的数据。数据仓库中的数据已经被充分地收起来,进行了整理、合并,并且有些还进行了初步的分析处理,使数据挖掘的注意力能够更集中于核心处理阶段。

④数据挖掘为数据仓库提供了更好的决策支持。基于数据仓库的数据挖掘能更好地满足高层战略决策的要求。数据挖掘对数据仓库中的数据进行模式抽取和知识发现,这些正是数据仓库所不能提供的。

⑤数据挖掘对数据仓库的数据组织提出了更高的要求。数据仓库作为数据挖掘的对象,能为数据挖掘提供更多、更好的数据,其数据的设计、组织都要考虑到数据挖掘的一些要求。

⑥数据挖掘还为数据仓库提供了广泛的技术支持。数据挖掘的可视化技术、统计分析技术等都为数据挖掘提供了强有力的技术支持。

总之,数据仓库在纵向和横向都为数据挖掘提供了更为广泛的活动空间。数据仓库完成数据的收集、集成、存储、管理等工作,数据挖掘面对的是经初步加工的数据,使得数据挖掘能更专注于知识的发现。又由于数据仓库所具有的新特点,对数据挖掘提出了更高的要求。另一方面,数据挖掘为数据仓库提供了更好的决策支持,同时促进了数据仓库技术的发展。可以说,数据挖掘与数据仓库技术要充分发挥潜力,就必须结合起来。

3)数据仓库与数据挖掘的区别

数据仓库是一种存储技术,它的数据存储量是一般数据库的百倍,它包含了大量的历史数据、当前的详细的数据及综合数据,能为不同用户的不同决策需要提供所需的数据和信息。

4)数据挖掘方法与算法

数据挖掘有两种类型:一种是自下而上的方法,称之为有监督的数据挖掘方法;另一种是从下往上的方法,这种方法让数据自己解释自己,在数据中寻找模式,然后把产生的结果留给使用者去判断,找出哪些模式是重要并有用的。目前常见的主要有以下几种。

①特征概括(DataCharacterization)。特征概括是目标类数据的一般特征或特性的汇总,如饼图、条图、曲线、多维数据立方体等形式,还能实现数据的区分。

②分类预测(Classfication&Prediction)。分类与预测的区别在于,分类是对离散值变量的估计,而预测是对连续变量的估计。

③聚类分析(Clustering)。聚类和分类建立分类模型,主要有监督学习(分类)和非监督学习(聚类)之分。

④规则提取。关联知识(Association)决定哪些事件将一起发生。

⑤异常检测。描述一些数据与数据的常规行为不一致,揭示其偏离常规的异常现象。

这些数据往往是一些极端数据,有时也称孤立点。

BP、、、、

模糊聚类、支持向量机、粗糙集、孤立点分析、Bayes网络等。要实现不同的数据挖掘功能,需要采用相应的合适算法。一般来说,要解决某个特定问题,可能有若干种算法,如图415所示的预测分类,就有BP神经网络、决策树、支持向量机3种算法。

图415数据挖掘功能与其实现的算法

5)数据挖掘的主要应用方向

(1)财务分析的数据挖掘

大多数银行保险和金融机构都提供多种银行服务,如核算、存储、商业和个体客户服务、信贷、贷款等,可获得的财务数据往往完整性好,可行度高,质量也好,方便进行系统化的数据分析和数据挖掘,以提高公司的竞争力。

(2)电信行业的数据挖掘

像AT&T这样的公司已经宣布数据挖掘的应用,改进了他们的销售活动,而Lightbridge公司使用数据挖掘技术来解决电信业的欺诈行为,数据挖掘技术正在电信行业获得越来越深入、越来越广泛的应用。

(3)零售业的数据挖掘

微利时代的到来,使得零售商们比其他行业更早进入数据仓库阶段。由于零售业收集大量的销售数据、顾客购物记录、货物运送、消费模式等,尤其是由于Web与电子商务的风行,收集的数据量迅速增长,因此零售业成为数据挖掘的主要运用领域。

(4)生物医药学研究中的数据挖掘

以电子格式存储的病人记录及医学信息系统的发展产生大量的在线利用临床数据。用数据挖掘方法从这些数据抽取的规律性的、趋势和令人惊奇的事件,对辅助临床医生作出准确判断非常重要。

(5)证券行业中的数据挖掘

证券市场存在巨大的风险。证券公司应该能够给自己的客户提供大盘及各股的未来走势的信息,给客户的投资、选股提供有价值的参考,尽可能地回避风险。更何况,大多数证券公司本身就是证券的投资者。股票价格的变动受多方面因素的影响,而证券投资分析的方法,:,

庞大、复杂的研究课题,这就给了数据挖掘技术的运用提供了广阔的空间。

(6)冶金行业中的数据挖掘

采用数据挖掘技术,通过对冶金相关生产过程的历史数据、实时数据及正常工况数据的预处理与数据挖掘建模,开发具有指定功能的计算机用户界面软件,实现在线或离线的数据分析处理平台,以解决设备的负荷能力评价和操作参数优化问题,同时为工艺人员掌握过程的控制机理并进一步提高生产管理水平提供一个良好的工作平台。

(7)电子商务中的数据挖掘

电子商务网站每天都会产生大量的数据,运用数据挖掘技术可以从这些数据中发现对市场分析及预测非常有益的信息。

数据挖掘是信息技术和数据处理的必然潮流,是商务智能的核心和灵魂。可以说,只要有大量的复杂数据产生和分析需求,就有数据挖掘的用武之地。数据挖掘技术和相关的系统软件将会得到越来越广泛的应用。

习题

一、名词解释

1.数据库2.记录3.DBMS4.DBS5.概念模式6.数据模型7.概念模型

8.键或码9.数据操作10.1NF11.2NF12.3NF13.关系14.关系模式15.数据仓库16.数据挖掘

二、简答题

1.数据库系统组织数据的特点是什么?

2.数据库系统与文件系统的区别是什么?

3.数据管理经历了哪几个阶段?各个阶段的特点是什么?

4.数据模型的三要素是什么?

5.数据库管理系统的主要功能是什么?

6.信息模型的要素有哪些?

7.试述概念模式在数据库中的重要地位。

8.举出实例,要求实体型之间具有一对一、一对多和多对多的联系。

9.实体之间的联系方式有几种?不同的联系方式在转换为关系模型时的处理方式有什么不同?

10.什么是ER图?构成ER图的基本要素是什么?如何将ER模型转换为关系模型?

11.某工厂生产多种产品,每种产品又要使用多种零件,一种零件可能装在多种产品上。每种零件由一种材料制造,每种材料可用于不同零件的制作。有关产品、零件、材料的数据字段如下。

:(GNO),(GNA),(GUP)

零件:零件号(PNO),零件名(PNA),单重(UW),单价(UP)材料:材料号(MNO),材料名(MNA),计量单位(CU),单价(MUP)以各产品需要各种零件数为GQTY,各零件需要的材料数为PQTY。

(1)请画出产品、零件、材料的ER图。

(2)请将该ER图转换为关系数据模型。

12.教学管理涉及的实体有

教员:职工号、姓名、年龄、职称

学生:学号、姓名、年龄、性别

课程:课程号、课程名、学时数

这些实体间的联系如下:一个教员只讲授一门课程,一门课程可由多个教员讲授;一个学生学习多门课程,每门课程有多个学生学习。请画出教员、学生、课程的ER图,并构造其关系数据模型。

三、单选题

1.DBMS对数据库的保护主要通过4个方面实现,因而在DBMS中应该包括以下4个子系统:数据库的并发控制、数据库的恢复、数据完整性控制和()。

A.数据的检索B.数据的更新

C.数据安全性控制D.数据的存储

2.在数据库系统的三级模式结构中,外模式通常还称为()。

A.用户模式B.内模式C.物理模式D.概念模式

3.实体型与实体型间的联系方式有()种。

A.1B.2C.3D.4

4.若联系为m∶n,则关系的码为所连接的()。

A.n端和m端的码的组合B.n端的码

C.m端的码D.都不是

5.数据仓库有4个重要的特点:面向主题、相对稳定的、反映历史变化和()。

A.分散的B.合并的C.集中的D.集成的

同类推荐
  • 旅游饭店餐饮服务与管理

    旅游饭店餐饮服务与管理

    本书是高等职业教育旅游管理专业“十一五”规划教材之一,全书共十章,分别介绍了饭店餐馆的概况、中餐服务、西餐服务、宴会服务、菜单设计、餐饮营销管理、食品原材料管理、厨房管理、餐饮成本核算与控制和餐厅日常管理等方面的知识和实践。
  • 中学生作文辞海(金榜作文通关宝典)

    中学生作文辞海(金榜作文通关宝典)

    提起作文,许多中学生会觉得头痛,不是辞不达意,就是笔下生涩写不出来。虽然费了九牛二虎之力,结果却不尽人意。如何克服这一难题呢7古往今来,好文章数不胜数,面对浩瀚的文海,我们该如何撷英含咀呢?人生的风景,生活的感受,该以怎样的笔墨去形容。又该以怎样的目光去审视,以怎样的灵魂去容纳呢?本书正是为此而作。本书是一本以文带句,兼有阅读、品赏和借鉴功能的综合性作文辞典。它涵盖全面,内容系统,选材新颖,体例规范,文字优美,是我国近年来最新最全最实用的中学生作文工具书。
  • 自然辩证法概论专题研究

    自然辩证法概论专题研究

    本书是研究生公共选修课教材。本书以“专题”的形式将教学内容分为科学技术与自然观的发展,科学的本质、科学语言和科学价值,技术的本质、技术价值与技术社会观,技术方法和技术创新,科学技术的社会建制和科学技术的社会运行等内容。
  • 克雷洛夫寓言全集

    克雷洛夫寓言全集

    本书有着极强的人民性和现实性,蕴含着他自己的以及从父辈们那里一代一代传下来的全部生活智慧和实际经验。他的寓言都以诗体写成,语言优美、寓意深刻,常借动物和植物和形象,反映广泛的社会生活,刻画社会上各种人物的复杂性格,抒发自己的民主思想,具有一种特殊的感染力。
  • 悲惨世界(语文新课标课外读物)

    悲惨世界(语文新课标课外读物)

    现代中、小学生不能只局限于校园和课本,应该广开视野,广长见识,广泛了解博大的世界和社会,不断增加丰富的现代社会知识和世界信息,才有所精神准备,才能迅速地长大,将来才能够自由地翱翔于世界蓝天。否则,我们将永远是妈妈怀抱中的乖宝宝,将永远是温室里面的豆芽菜,那么,我们将怎样走向社会、走向世界呢?
热门推荐
  • 凤临天下

    凤临天下

    她自出生,路就与别人不一样。别人活着,是为了爱。她活着,就是为了要将这一场场的爱,再无情的撕裂成为一场场的恨。她的人生,只有仇恨,与毁灭。嫡姐争宠、恶奴欺辱、亲人算计……她终有一天将那些欺她辱她之人,踩在脚下!
  • 傲世战帝

    傲世战帝

    随心所欲,纵横天下,那是何等的潇洒快活!长生不死,寿与天齐,这是多少英雄的梦想!自古以来,强大的力量和悠长的寿命就是修炼者追求的两大终极目标,然而,修士千千万万,能成仙者寥寥无几。平凡青年谢云寒偶得大帝传承,强势崛起,仙路漫漫,吾心如一,三界称尊,唯我战帝!
  • 鸿蒙历史我来定

    鸿蒙历史我来定

    昆仑山深处的一个大家族,一个已经在中华大陆不多见的姓氏,司空家,第123代家主的两个嫡出子女,一个是修真天才司空萱,一个是废材司空见,却是个修理能手,为了能修真,修复了家族后山的强大灵气炉,与救他的妹妹一起掉入炉中,回到了鸿蒙前的虚无,吸收了天地间的虚无之气,成就果位。且看司空见去了开鸿蒙,点混沌,收盘古,带着三清做小弟。
  • 第柒道

    第柒道

    使用说明书(版本:3.1)1.本故事纯属虚构,阅读时,请不要太过当真!2.本书是参照传统武侠来写的仙侠,非升级流,非装13打脸流,非武侠爱好者请绕道。3.本书适合25岁以上,书龄大于5年的读者,小朋友们慎入。4.本书将不定期更新。最后提醒大家:阅读有风险,追书需谨慎!
  • 逆武世界之大道之初

    逆武世界之大道之初

    大道之初是逆武世界的第一部,讲的是少年欧阳劫挟大道以令虚天界,强势回归,从平平到不凡的故事。也是虚天界系列五部的第一步!!!!
  • 独家专宠娇妻难养

    独家专宠娇妻难养

    他,叱咤风云,横行霸道,只要他想做的事情,没有行不通的。她,纯情贞洁,是豪门千金,却有着别人不知道的痛楚。两人的相遇造就了一场美丽的邂逅,可是当知道背后的阴谋,两人又是否能逃出命运的改变呢?这是一个蜕变的过程。是殊途同归还是各自分飞?
  • 佛说华积陀罗尼神咒经

    佛说华积陀罗尼神咒经

    本书为公版书,为不受著作权法限制的作家、艺术家及其它人士发布的作品,供广大读者阅读交流。
  • 《天钥》

    《天钥》

    吴天伟,武林七大高手之一。在一举击败六大高手后,偶遇一位白衣老者,轻易的打败了吴天伟,终于使吴天伟一步步从武林高手转变为修仙者。
  • EXO薄荷只是时光它不懂

    EXO薄荷只是时光它不懂

    本文是关于天才少女薄荷与崽子们的种种奇葩事件。前面很欢脱,后面可能有点虐。不喜勿喷!我很努力的。
  • 青少年应该知道的计算机

    青少年应该知道的计算机

    本书主要介绍计算机的构造、原理、应用等计算机硬件、软件的基础知识。