您现在的位置是: 首页 > 车型信息 车型信息

hyperion数据下载_hyperion如何数据仓库抽取数据

tamoadmin 2024-08-23 人已围观

简介1.土壤有机质光谱信息提取2.什么是 BI工程师3.BI软件有哪些?各有什么优点和缺点4.什么是ETL调度系统?5.BI (商业智能)是什么?起到什么作用?它的未来市场怎么样?6.BI主要掌握什么?商业智能的意思。商业智能(BusinessIntelligence,简称:BI),又称商业智慧或商务智能,指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值。商业智

1.土壤有机质光谱信息提取

2.什么是 BI工程师

3.BI软件有哪些?各有什么优点和缺点

4.什么是ETL调度系统?

5.BI (商业智能)是什么?起到什么作用?它的未来市场怎么样?

6.BI主要掌握什么?

hyperion数据下载_hyperion如何数据仓库抽取数据

商业智能的意思。

商业智能(BusinessIntelligence,简称:BI),又称商业智慧或商务智能,指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值。

商业智能的概念在1996年最早由加特纳集团提出,加特纳集团将商业智能定义为:商业智能描述了一系列的概念和方法,通过应用基于事实的支持系统来商业决策的制定。

商业智能技术提供使企业迅速分析数据的技术和方法,包括收集、管理和分析数据,将这些数据转化为有用的信息,然后分发到企业各处。

土壤有机质光谱信息提取

个人感觉数据库架构师和数据仓库工程师的能力要求要高些,对大型数据库的应用要达到熟练或精通的水平,因此,待遇也相对来说好一些。数据库开发工程师的层次相对低些,待遇也稍低。数据架构师,一般企业需要一两个足以。

数据仓库工程师在金融行业或者大型网站的就业机会会大些。

数据库开发工程师的就业路子最宽。以下是一些个案,仅供参考。

一、数据库架构师

任职要求:

1.项目开发经验;

2.丰富的SQLServer、DB2、Oracle、Sybase大型数据库研发设计经验;

3.丰富的数据库关系模型和物理模型建模经验;

4.有数据库性能优化经验;

5.掌握数据仓库的基本理论,有数据仓库的实际开发经验;二、数据仓库工程师

职位描述:

1、对数据仓库系统的架构设计,编写专业的系统设计文档;

2、配合项目经理进行项目需求分析、应用分解、各模块的概要和详细设计;

3、实施项目开发。

职位要求:

1、有1年以上的ETL、OLAP工具的实际开发经验,有BO、MSTR、Insight、Hyperion(Brio)等其中一种开发工具实践经验者优先;

2、熟练使用Oracle等数据库,精通SQL、存储过程,有Ja和数据库性能调优的经验者优先;

3、深入理解数据仓库、数据建模等概念,有商业智能相关系统实际建模经验者优先;三、数据库开发工程师

岗位职责:

1、数据库设计与优化;

2、存储过程设计与开发;

3、审核、指导开发工程师有关数据库设计、数据存取方法;

4、协助工程部门实施数据库部署;

5、为测试部门提供数据库支持。

任职要求:

1、本科学历,计算机相关专业

2、两年以上工作经验和数据库设计/开发/管理经验

3、熟悉计算机和数据库等相关基础知识

4、熟悉linux/unix、windows等相关技术

5、精通oracle等大型数据库技术,熟练掌握数据库开发技术,熟练使用sqlplus进行存储过程开发,精确sql语言。

6、掌握系统数据存储架构设计技能和数据备份管理技术

7、良好的沟通能力和执行能力;正直、务实、敬业、善于思考、良好的团队合作精神

什么是 BI工程师

土壤有机质是土壤的重要组成物质,也是植物的营养仓库,它的损失直接影响土壤生产力。土壤有机质不仅能持续缓慢地提供植物生长所需的养分,而且能改善土壤的物理状况,促进团粒结构形成,从而改善土壤的水分及通气状况。另外,随着土壤有机质含量的增多,土壤颜色加深,有利于提高土壤温度。土壤有机质含量多少在一定限度内可以说明土壤的肥沃程度,是土壤肥力的重要指标之一。一般来说,有机质含量 > 2. 5% 的土壤是比较肥沃的,1% ~2. 5%为中度肥沃的土壤, < 1% 则为较贫瘠的土壤,但也不绝对。例如我国东北地区黑土有机质含量高,但是温度低,分解慢; 暖温带某些类型土壤有机质含量低,但分解快,其有效化程度高,也有一定肥力。总的来说,土壤有机质是土壤肥力和作物丰产的基础。基于光谱技术的土壤有机质含量反演方法较多,但是这些方法均具有一定局限性,针对不同的研究区域、应用于不同土壤类型时会出现较大误差,目前尚没有通用的模型。

土地退化评价指标体系是由植被、土壤、地形地貌、水文与水文地质、近地表大气等反映土地退化特征的指标组合而成,指标之间相辅相成,从不同方面共同反映退化土地的特征,包括空间上的相对退化和时间上的动态退化。反映土地退化的指标很多,包括植被覆盖度、陆地表面温度、土壤湿度和土壤母质化以及水土流失等。本节只选择能够体现高光谱遥感技术优势的土壤有机质指标作为研究对象,以陕西省横山县黄土丘陵区为例,对174 个土样的光谱反射率数据与土壤有机质含量进行分析,从而进行信息提取,评价高光谱遥感技术在可见光和近红外波段进行土壤有机质监测的应用潜力,运用多元统计分析技术,初步建立反射率反演模型,尝试进行定量化成图。

( 一) 土壤有机质预测模型建立

为了建立反射率和土壤有机质含量之间的反演模型,从中寻找对土壤有机质含量敏感的光谱指标,对光谱的反射率作了8种变换,包括反射率的倒数1/R、反射率的对数lgR、反射率对数的倒数1/lgR、反射率的平方根 、反射率的一阶微分R'、倒数的一阶微分(1/R)'、反射率对数的一阶微分(lgR)'、对数的倒数的一阶微分(1/lgR)'、平方根的一阶微分 。用单相关分析方法,利用实验室测定的174个土样的土壤有机质含量与反射率及其变换形式逐波段地进行相关分析,相关系数r的表达式如下:

退化废弃地遥感信息提取研究

式中:ri为土壤有机质含量OM与光谱反射率或其变换形式(都用R表示)的单相关系数;i为波段序号;Rni为第n个土壤样本第i波段的光谱反射率值(或其变换形式的值); 为N个土壤样本在i波段光谱反射率(或其变换形式)的平均值;OMn为第n个土样的土壤有机质含量; 为实测的N个土样的土壤有机质含量的平均值;N为174,是土样的总个数。

本研究的具体思路是以野外样点地物光谱数据为基础,首先利用高光谱Hyperion数据对野外地物光谱库进行重样(第二次样);运用经验线性拟合法,以野外地物光谱数据为基础对高光谱Hyperion影像进行校正,以便进一步确立两者之间的相关性;然后在前人研究的基础上,运用统计回归分析方法建立样点地物光谱数据与土壤有机质含量的最佳反演模型,并且把该模型运用到高光谱Hyperion影像当中,得到土壤有机质含量的空间分布情况。

本研究用容量分析法测定了174个土样的土壤有机质含量,最小值为0.124%,最大值为4.865%,平均值为1.179%,均方差为1.122。Krishnan等(1980)用逐步多元线性回归和迭代的方法对四种不同土壤类型的研究发现,在近红外区域 ( 800 ~2400nm) 没有由有机质引起的吸收峰,用可见光区域预测土壤有机质含量要优于近红外区域,所得相关系数分别为 0. 8732 和 0. 9828,并给出用 623. 6nm 和 564. 4nm 两个最佳波段的反射光谱值预测土壤有机质含量的回归模型:

退化废弃地遥感信息提取研究

式中: K 为回归常数; ρ 为反射率值; λ 为波长。

Krishnan 等的预测模型中的回归常数 K 从某种程度上反映了其他因素对土壤有机质光谱特性的影响,然而文中并未对其进行具体的讨论说明,但是可以肯定的是 623. 6nm 处反射率倒数之对数的一阶微分与 564. 4nm 处反射率倒数之对数的一阶微分的比值和土壤有机质含量存在某种相关性,把它记为 W,通过把计算的 30 个地物光谱数据的 W 值与土壤有机质含量进行相关性分析,发现 W 与土壤有机质含量之间的相关系数达到 0. 8948,存在着强烈的相关关系。所以确定以 W 为变量,进行回归分析,其中

退化废弃地遥感信息提取研究

运用 SPSS 软件进行统计回归分析,结果见表 3 -2。

表 3 -2 土壤有机质含量模型与 W 的拟合模型表

图3-4 有机质含量实测值与预测值比较

从表3-2中可以发现,二次函数Y=16.466-4.385W+2.668W2的判定系数R2最高,达到了0.8684,其中 ,ρ为反射率值,说明它的反演效果最好,精度最高。通过30个土样的土壤有机质含量实测值与预测值的散点图(图3-4)也可以直观地看出,二次函数结果与实测值较为接近,有很好的预测效果。

由此得到土壤有机质含量的最佳反演模型是Y=16.466-4.385W+2.668W2,判定系数R2=0.8684。

(二)定量参数成图

将建立的土壤有机质含量最佳反演模型应用到反射率影像当中,进行土壤有机质含量指标的定量参数成图。所谓参数成图,首先是给每个像元赋具体参数值,这可以借助一些波段值或其变换形式与土壤生物理化参数的半经验关系建立预测模型,用统计回归的方法建立的土壤有机质含量与反射率的关系就是这种预测模型;然后通过这种关系计算出高光谱遥感影像上每个像元的土壤有机质含量的预测值;最后用聚类或密度分割的方法将单参数预测图分成若干级(类),即为单参数分布图。

图3-5 土壤有机质含量参数成图

由土壤有机质的最佳反演模型是Y=16.466-4.385W+2.668W2,其中 。在ENVI软件中,运用线性光谱分离方法提取出影像中的土壤信息,利用NDVI指数,取数值在0.1~0.3之间的为土壤(NDVI>0.3的为植被,NDVI<0.1的为水体),掩膜处理掉影像中的植被和水体信息;然后在ERDAS软件下运用空间建模方法,将模型应用于高光谱Hyperion数据,进行定量化参数成图,得到土壤有机质含量的空间分布情况(图3-5)。

( 三) 小结

1) 土壤有机质含量和有机质的组成对土壤的反射率有较强的影响。土壤有机质对土壤反射率的影响在视觉上表现为暗黑色的土壤比亮色的土壤有机质含量高,这表明了土壤有机质与可见光反射率之间的关系: 土壤有机质含量越高,可见光的反射率越低; 反之,可见光的反射率越高。国外学者研究发现,土壤有机质中含有一种叫做胡敏酸的物质,胡敏酸反射率很低,并且会掩盖土壤反射率和土壤颜色等信息 ( 周清,2004) 。Baumgardner等 ( 1985) 在研究印度土壤时发现,当土壤有机质含量超过 2% 时,其有可能掩盖其他因素对土壤光谱的影响; 当小于 2%时,随着土壤有机质含量的降低,其掩盖其他成分的能力越来越弱,对土壤光谱的影响就很小了。

2)建立了土壤有机质反演模型Y=16.466-4.385W+2.668W2。判定系数R2最高达到了0.8684,其中 ,并且用该模型对高光谱影像进行参数成图,取得了较满意的结果。

3)对以反射率作对数的一阶微分方程变换后进行统计回归分析有两个目的:一是一阶微分变换能去除部分线性或接近线性的背景和噪声光谱对目标光谱的影响;二是将反射率和土壤有机质含量之间的关系线性化,便于研究。

BI软件有哪些?各有什么优点和缺点

BI工程师,主要是做数据分析,数据仓库,以及相关报表,对一些数据进行处理,对数据库要有比较深入的了解。

BI工程师需要有一定的数据库经验,掌握SQL查询优化方法,精通Oracle、SQL Server、MySQL等主流数据库的应用设计、性能调优及存储过程的开发.掌握BI相关工具,如ETL工具(如SSIS)、OLAP工具(如SSAS)和前端展示工具.熟悉ETL逻辑、OLAP设计和数据挖掘相关算法.

:

工作职责:

负责ETL设计、模型设计、开发、技术支持等工作;

2. 负责ETL应用开发,数据库性能进行调优;?

3. 参与数据抽取、加载、转换和脚本开发;?

4. 负责BI展现的开发;

5、使用Hadoop, Hive等对海量日志进行统计分析。

什么是ETL调度系统?

BI软件有很多,分类方式也有很多,这里就按照国内和国外给你介绍下几款

SAP BO: SAP公司收购的一款BI工具,产品运作模式是结合SAP的ERP系统,所以整合其他数据库或系统并不占优势,属于重型BI,使用要求较高,升级困难。

Oracle BIEE:无功无过,在BI产品不具特色,同SAP一样,与Oracle的产品线紧密绑在一起。貌似国外厂商都是捆绑型卖整体方案。

Cognos:传统BI工具中最被广泛使用的,已被IBM收购。拥有强大的数据库平台、在数据管理、数据整合以及中间件领域专业功底深厚。偏操作型,手工建模,一旦需求变化需要 重新建模,学习要求较高。

以上是国外,然后还有国内,FineBI是几年前帆软公司推出的,在国内口碑和发展还行。通过傻瓜式操作,用户只需在Dashboard中简单拖拽操作,便能制作出丰富多样的数据可视化信息,进行数据钻取、联动和过滤等操作,自由分析数据。帆软旗下的自助性BI产品,轻量化的BI工具,维护方便,最具性价比

BI (商业智能)是什么?起到什么作用?它的未来市场怎么样?

对于做过 BI 开发的朋友,ETL 并不陌生,只要涉及到数据源的数据抽取、数据的计算和处理过程的开发,都是 ETL,ETL 就这三个阶段,Extraction 抽取,Transformation 转换,Loading 加载。

从不同数据源抽取数据 EXTRACTION ,按照一定的数据处理规则对数据进行加工和格式转换 TRAORMATION,最后处理完成的输出到目标数据表中也有可能是文件等等,这个就是 LOADING。

再通俗一点讲,ETL 的过程就跟大家日常做菜一样,需要到菜市场的各个摊位买好菜,把菜买回来要摘一下,洗一洗,切一切最后下锅把菜炒好端到饭桌上。菜市场的各个摊位就是数据源,做好的菜就是最终的输出结果,中间的所有过程像摘菜、洗菜、切菜、做菜就是转换。

在开发的时候,大部分时候会通过 ETL 工具去实现,比如常用的像 KETTLE、PENTAHO、IBM DATASTE、INFORNAICA、微软 SQL SERVER 里面的 SSIS 等等,在结合基本的 SQL 来实现整个 ETL 过程。

也有的是自己通过程序开发,然后控制一些数据处理脚本跑批,基本上就是程序加 SQL 实现。

哪种方式更好,也是需要看使用场景和开发人员对那种方式使用的更加得心应手。我看大部分软件程序开发人员出身的,碰到数据类项目会比较喜欢用程序控制跑批,这是程序思维的自然延续。纯 BI 开发人员大部分自然就选择成熟的 ETL 工具来开发,当然也有一上来就写程序脚本的,这类 BI 开发人员的师傅基本上是程序人员转过来的。

用程序的好处就是适配性强,可扩展性强,可以集成或拆解到到任何的程序处理过程中,有的时候使用程序开发效率更高。难就难在对维护人员有一定的技术要求,经验转移和可复制性不够。

用 ETL 工具的好处,第一是整个 ETL 的开发过程可视化了,特别是在数据处理流程的分层设计中可以很清晰的管理。第二是链接到不同数据源的时候,各种数据源、数据库的链接协议已经内置了,直接配置就可以,不需要再去写程序去实现。第三是各种转换控件基本上拖拉拽就可以使用,起到简化的代替一部分 SQL 的开发,不需要写代码去实现。第四是可以非常灵活的设计各种 ETL 调度规则,高度配置化,这个也不需要写代码实现。

所以在大多数通用的项目中,在项目上使用 ETL 标准组件开发会比较多一些。

ETL 从逻辑上一般可以分为两层,控制流和数据流,这也是很多 ETL 工具设计的理念,不同的 ETL 工具可能叫法不同。

控制流就是控制每一个数据流与数据流处理的先后流程,一个控制流可以包含多个数据流。比如在数据仓库开发过程中,第一层的处理是ODS层或者Staging 层的开发,第二层是DIMENSION维度层的开发,后面几层就是DW 事实层、DM数据集市层的开发。通过ETL的调度管理就可以让这几层串联起来形成一个完整的数据处理流程。

数据流就是具体的从源数据到目标数据表的数据转换过程,所以也有 ETL 工具把数据流叫做转换。在数据流的开发设计过程中主要就是三个环节,目标数据表的链接,这两个直接通过 ETL 控件配置就可以了。中间转换的环节,这个时候就可能有很多的选择了,调 SQL 语句、存储过程,或者还是使用 ETL 控件来实现。

有的项目上习惯使用 ETL 控件来实现数据流中的转换,也有的项目要求不使用标准的转换组件使用存储过程来调用。也有的是因为数据仓库本身这个数据库不支持存储过程就只能通过标准的SQL来实现。

我们通常讲的BI数据架构师其实指的就是ETL的架构设计,这是整个BI项目中非常核心的一层技术实现,数据处理、数据清洗和建模都是在ETL中去实现。一个好的ETL架构设计可以同时支撑上百个包就是控制流,每一个控制流下可能又有上百个数据流的处理过程。之前写过一篇技术文章,大家可以搜索下关键字 BIWORK ETL 应该在网上还能找到到这篇文章。这种框架设计不仅仅是ETL框架架构上的设计,还有很深的ETL项目管理和规范性控制器思想,包括后期的运维,基于BI的BI分析,ETL的性能调优都会在这些框架中得到体现。因为大的BI项目可能同时需要几十人来开发ETL,框架的顶层设计就很重要。

BI主要掌握什么?

1. 商业智能是什么?目前,BI 领域大致可划分为数据仓库(DW)、OLAP和报表展示、数据集成、数据挖掘和针对行业的解决方案等。?

2. 通常被理解为将企业中现有的数据进行分析,帮助企业做出明智的业务经营决策的工具。从国内来看,商业智能(BI)已经被电信、金融、零售、保险、制造等行业越来越广泛的应用,操作型BI逐步在大企业普及,也就是说商业智能(BI)不仅限于高层管理者的决策之用,也日益成为普通员工日常操作的工具。

3. 根据《调查:2009-2010年中国商业智能(BI)市场分析》,2009年中国大陆地区的商业智能市场份额约为26亿元人民币,比2008年增长18%,约占企业管理软件的市场份额的8%。由于金融危机的影响,2009年部分企业的商业智能投资受到抑制,随着2010年全球经济的逐步复苏,在未来几年内商业智能市场需求旺盛,市场规模增长迅速。?

4、目前进入国内市场的BI厂商实际数量并不多,下表列出了截止到2009年中国大陆地区的主要BI厂商。?

厂商、产品名称 简介

IBMDB2以及Cognos、SPSS、DataStag 覆盖BI全部领域

OracleOracle、Hyperion 覆盖BI全部领域,数据挖掘领域有待加强

MicrosoftSQL Server 覆盖BI全部领域,适合中小型企业,性价比高

奥威智动Power-BI 主要是OLAP和报表领域,适合中小型企业,性价比高。

InformaticaInformatica 主要是数据集成领域

TeradataTeradata 主要是数据仓库领域

SybaseSybase IQ 主要是数据仓库领域

SAPBusiness Objects、Crystal Reports 主要是OLAP和报表领域

SASSAS 数据挖掘领域领先

尚南BlueQuery 主要是OLAP和报表领域(已被用友华表收购)

润乾润乾报表 主要是OLAP和报表领域

探智Trinity 主要是数据集成领域

商业智能也称作BI,是英文单词Business Intelligence的缩写。商业智能的概念最早在1996年提出。当时将商业智能定义为一类由数据仓库(或数据集市)、查询报表、数据分析、数据挖掘、数据备份和恢复等部分组成的、以帮助企业决策为目的技术及其应用。目前,商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。这里所谈的数据包括来自企业业务系统的订单、库存、交易账目、客户和供应商等来自企业所处行业和竞争对手的数据以及来自企业所处的其他外部环境中的各种数据。而商业智能能够的业务经营决策既可以是操作层的,也可以是战术层和战略层的决策。为了将数据转化为知识,需要利用数据仓库、联机分析处理(OLAP)工具和数据挖掘等技术。因此,从技术层面上讲,商业智能不是什么新技术,它只是数据仓库、OLAP和数据挖掘等技术的综合运用。BI 是一个工厂:

>> BI 的原材料是海量的数据;

>> BI 的产品是由数据加工而来的信息和知识;

>> BI 将这些产品推送给企业决策者;

>> 企业决策者利用 BI 工厂的产品做出正确的决策,促进企业的发展;

这就是 Business Intelligence,即商业智能——连接数据与决策者,变数据为价值。

BI 应用的两大类别是信息类应用 和 知识类应用,其特征如下表所示:

信息类 BI 应用:

指由原始数据加工而来的数据查询、报表图表、多维分析、数据可视化等应用,这些应 用的共同特点是:将数据转换为决策者可接受的信息,展现给决策者。

例如将银行交易数据加工为银行财务报表。

仅负责提供信息,而不会主动去分析数据。

例如,银行财务报表工具没有深入分析客户流失和银行利率之间关系的能力,而只能靠决策者结合信息,通过人的思考,得出知识。

知识类 BI 应用:

指通过数据挖掘技术和工具,将数据中隐含的关系发掘出来,利用计算机直接将数据加工为知识,展现给决策者。

会主动去数据中探查数据关联关系,发掘那些决策者人脑无法迅速发掘的隐含知识,并将其以可理解的形式呈现在决策者面前。

(3) BI 初级应用模式概览——数据查询(Querying)

数据查询是最简单的 BI 应用,属于 MIS 系统遗产,虽然出身比较老土,但是目前仍然是决策者获取信息的最直接的方法。

如今,数据查询界面已经彻底摆脱了传统 SQL 命令行,大量的下拉菜单、输入框、列表框等元素甚至是鼠标拖拽界面将后台干苦力的 SQL 语句包装成一个妖艳无比的数据获取系统,而本质仍然没有离开数据查询的几大要素:

>> 查什么

>> 从哪儿查

>> 过滤条件

>> 展示方法

目前国外比较流行的数据查询应用已经完全释放了数据查询的灵活性,如右图所示的是 Cognos ReportNet 的数据查询界面 Query Studio,允许用户通过纯浏览器界面,以鼠标拖拽操作定义数据查询要素,并以报表和图表等多种方式展现数据。

(4) BI 初级应用模式概览——报表(Reporting)

报表是国内最热衷的 BI 应用之一,这与报表在我国企事业单位中的历史地位是分不开的。我国的报表以其格式诡异、数据集中、规则古怪等特征著称于世,曾经让无数国外报表工具和 BI 工具捶胸顿足。

报表的两大要素是数据和格式,如果没有格式,则报表应用几乎等同于数据查询应用。可以说,报表就是将查询出来的数据按照指定的格式展现。

报表应用包含了报表展现和报表制作两大模块。报表展现就是让决策者看到报表,并允许决策者通过条件定义来选择报表数据,例如选择报表年度、部门、机构等等;报表制作面向报表的开发人员,其格式定义灵活性、数据映射灵活性、计算方法的丰富程度等均影响了 BI 报表应用的质量。

需要澄清一下的是,Microsoft Excel 不算是一个 BI 报表工具,因为 Excel 没有连接数据源的能力,充其量是一个 Spread Sheet。但是 Excel 强大的格式功能让报表制作人员竟折腰,乃至到后来,几乎所有 BI 厂商都提供了面向 Microsoft Excel 的插件,通过插件,Excel 可以连接到 BI 的数据源上,摇身一变为 BI 报表工具,丑小鸭变天鹅。

5) BI 高级应用模式概览——在线分析(OnLine Analytical Processing,OLAP)

OLAP ,即联机分析处理,是 BI 带来的一种全新的数据观察方式,是 BI 的核心技术之一。

我们知道,数据在数据库中是以数据表来存储的,比如某商店的销售数据存储在如下所示的一张数据表中:

销售时间

销售地点

产品

销售数量

销售金额

2004-11-1

北京

肥皂

10

342.00

2004-11-6

广州

桔子

30

123.00

2004-12-3

北京

香蕉

20

12.00

2004-12-13

上海

桔子

50

189.00

2005-1-8

北京

肥皂

10

342.00

2005-1-23

上海

牙刷

30

150.00

2005-2-4

广州

牙刷

20

100.00

决策者希望知道的往往是分布、占比、趋势之类的宏观信息,比如下列问题:

>> 北京地区的销售数量虽时间的变化趋势?

>> 哪种产品在 2005 年销售比 2004 年销售增幅最大?

>> 2004 年各产品销售额的比例分布? ……

面对这种需求,必须用 SQL 语句进行大量的 SUM 操作,每得出一个问题的结果,就需要 SQL SUM。面对上面的 7 条记录,我们可以很容易的得出结果,但是当我们面对百万级甚至亿级的记录条数时,例如移动公司通话数据,每次 SQL SUM 都需要消耗大量的时间来计算,决策者经常是在第一天提出分析需求,等到第二天才能拿到计算结果,这种分析方式是“脱机分析”,效率很低。

为了提高数据分析效率,OLAP 技术彻底打破以记录为单位的数据浏览方式,而将数据分离为“维度(Dimension)”和“度量(Measure)”:

>> 维度是观察数据的角度,例如上面示例中的“销售时间”、“销售地点”、“产品”;

>> 度量是具体考察的数量值,例如上例中的“销售数量”和“销售金额”;

这样一来,我们就可以将上面这张平版的数据列表转换为一个拥有三个维度的数据立方体( Cube ):

而探查数据的过程,就是在这个立方体中确定一个点,然后观察这个点的度量值:

当然,数据立方体并不局限于三个维度,这里用三个维度来说明问题,只是因为通过图形可以表现出来的极限就是三个维度。

维度可以划分层次,例如时间上可以从日向上汇总为月和年,产品可以向上汇总为食品和日用品,地点可以向上汇总为华北和华南,用户可以沿着维度的层次任意向下钻取(Drill Down)和向上汇总(Roll Up):

通过这种方式,我们就可以摆脱 SQL SUM 对速度的制约,快速定位符合不同条件的细节数据,更可以迅速得到某一层次的汇总数据。OLAP 技术为决策者提供了多角度、多层次、高效率的数据探查方式,决策者的思维不再被固定的下拉菜单、查询条件所束缚,而是由决策者的思维带领数据的获取,任意组合分析角度和分析目标,这种打破传统的互动性分析和高效率使 OLAP 成为 BI 系统的核心应用。

(*) 第四喷:BI 高级应用模式 —— 数据可视化与数据挖掘

(6) BI 应用模式概览——数据可视化(Visualization)

数据可视化应用致力于将信息以尽可能多的形式展现出来,目的是使决策者通过图形这种直观的表现方式迅速获得信息中蕴藏的知识,如趋势、分布、密度等要素。 值得一提的是,以 MapInfo 公司为代表的 GIS 软件商,目前也正在努力结合 BI 应用。MapInfo 率先提出了 Location Intelligence 概念,依托于地理信息系统,展现各地区的属性值,例如人口密度,工业产值,人均医院数量等等,这种可视化应用部分与 BI 数据可视化应用重合,并形成有力补充,有时可以在一个项目中互相搭配。

上图所示的是 Cognos Visualizer 产品,这家伙用几近哗众取宠的丰富形式展现数据和信息,包含了地图、饼图、瀑布图等近五十种展现图形,并提供了二维和三维两种展现方式。所有的图形元素都是可活动的,例如用户可以通过点击地图上的某一个省,钻取到这个省各个城市的信息,这种可交互性是 BI 与普通生成软件的显著差异。

(7) BI 应用模式概览——数据挖掘(Data Mining)

数据挖掘是最高级的 BI 应用,因为它能代替部分人脑功能。

数据挖掘隶属于知识发现(Knowledge Discovery)在结构化数据中的特例。

数据挖掘的目的是通过计算机对大量数据进行分析,找出数据之间潜藏的规律和知识,并以可理解的方式展现给用户。

数据挖掘的三大要素是:

>> 技术和算法:目前常用的数据挖掘技术包括——

自动类别侦测(Auto Cluster Detection)

决策树(Decision Trees)

神经网络(Neural Networks)

>> 数据:由于数据挖掘是一个在已知中挖掘未知的过程,

因此需要大量数据的积累作为数据源,数据积累

量越大,数据挖掘工具就会有更多的参考点。

>> 预测模型:也就是将需要进行数据挖掘的业务逻辑由

计算机模拟出来,这也是数据挖掘的主要任务。

与信息类 BI 应用相比,以数据挖掘为代表的知识类 BI 应用目前还不成熟,但是从另一个角度来看,数据挖掘可发展的空间还很大,是今后 BI 发展的重点方向,SAS,SPSS 等知识类 BI 应用厂商形象逐渐高大,悄悄占据了新的利润增长点。

上图中是著名的 IBM Intelligent Miner 在分析客户的消费行为。它能对大量的客户数据进行分析,然后自动将客户划分为若干群体(自动类别侦测),并将每个群体的消费特征显示出来,这样决策者就能一目了然的针对不同客户的消费习惯,制定促销或广告。

上述功能如果单靠信息类 BI 应用来实现,则需要决策者根据经验进行大量的 OLAP 分析、数据查询工作,而且还不一定能发现数据中隐藏的规律。例如上述客户分类,对于一个拥有 400 万用户的银行来说,如果没有数据挖掘工具,会把人活活累死的。

(8) BI 底座——数据仓库技术(Data Warehouse)

在开始喷这个主题之前,让我们先看看数据仓库的官方定义:

数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。以上是数据仓库的官方定义。

“操作型数据库”如银行里记账系统数据库,每一次业务操作(比如你存了5元钱),都会立刻记录到这个数据库中,长此以往,满肚子积累的都是零碎的数据,这种干脏活累活还不得闲的数据库就叫“操作型数据库”,面向的是业务操作。

“数据仓库”用于决策支持,面向分析型数据处理,不同于操作型数据库;另外,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。

操作型数据库、数据仓库与数据库之间的关系,就像 C:、D: 与硬盘之间的关系一样,数据库是硬盘,操作型数据库是 C:,数据仓库是 D:,操作型数据库与数据仓库都存储在数据库里,只不过表结构的设计模式和用途不同。

那么为什么要在操作型数据库和 BI 之间加这么一层“数据仓库”呢?

一是因为操作型数据库日夜奔忙,以快速响应业务为主要目标,根本没精力伺候 BI 这边的数据需求,而且 BI 这边的数据需求通常是汇总型的,一个 select sum(xx) group by xx 就能让操作型数据库耗费大量,业务处理跟不上趟,麻烦就大了,比如你存了 5000 元钱,发现十分钟后钱还没到账,作何感想?一定是该银行的领导在看饼图?

二是因为企业中一般存在有多个应用,对应着多个操作型数据库,比如人力库、财务库、销售单据库、库存货品库等等,BI 为了提供全景的数据视图,就必须将这些分散的数据综合起来,例如为了实现一个融合销售和库存信息的 OLAP 分析,BI 工具必须能够高效的取得两个数据库中的数据,这时最高效的方法就是将数据先整合到数据仓库中,而 BI 应用统一从数据仓库里取数。

将分散的操作型数据库中的数据整合到数据仓库中是一门大学问,催生了数据整合软件的市场。这种整合并不是简单的将表叠加在一起,而是必须提取出每个操作型数据库的维度,将共同的维度设定为共用维度,然后将包含具体度量值的数据库表按照主题统一成若干张大表(术语“事实表”,Fact Tables),按照维度-度量模型建立数据仓库表结构,然后进行数据抽取转换。后续的抽取一般是在操作性数据库负载比较小的时候(如凌晨),对新数据进行增量抽取,这样数据仓库中的数据就会形成积累。

大多数 BI 应用并不要求获取实时的数据,比如决策者,只需要在每周一看到上周的周报就可以了,95% 的 BI 应用都不要 求实时性,允许数据有 1 小时至 1 个月不等的滞后,这是决策支持系统的应用特点,这个滞后区间就是数据抽取工具工作的时间。当然,BI 应用中通常还将包含极少的对实时数据的要求,这时仅需针对这些特殊需求,将 BI Querying 软件直接连接在业务数据库上就可以了,但是必须限制负载,禁止做复杂查询。

目前的数据库产品都对数据仓库提供有专门优化,例如在安装 MySQL 的高版本时,安装成序会询问你是想让数据库实例作为 Transaction-Oriented ,还是 Decision Support ,前者就是操作型数据库,后者就是数据仓库(决策支持么,再振臂高呼一遍),针对这两种形式,数据库将提供针对性的优化。

(9) BI 花边

BI 的相关知识大致就是这样了,写一些花边作为结束语吧。

BI 要害:BI 无法处理非结构化数据,只能处理数字信息,但是在企业中,还存在有大量像文本、流媒体、等非结构化的数据,这些数据同样蕴藏有大量价值,但是面对这些数据,目前的 BI 工具无能为力。比较靠谱的是 IBM Intelligent Miner for Text,但是它在处理中文方面似乎十分薄弱。

BI 厂商和产品:

首先让我们认识一下国外大人物!数据仓库方面,有 IBM DB2,Oracle,Sybase IQ,NCR Teradata 等等;BI 应用方面,有 Cognos,Business Objects,MicroStrategy,Hyperion,IBM 等等;数据挖掘方面,有 IBM,SAS,SPSS 等等。巨无霸 Microsoft 也在 BI 领域插了一腿,推出了 SQL Server Analysis Server、Reporting Services 等 BI 相关产品抢占山头!

我们往往容量只把眼光放在国外的BI大佬们而忽略国内渐渐突起的BI新军,如今国内比较出名的BI有奥威智动的Power-BI,尚南的BlueQuery 及润乾报表等,特别值得一提的是奥威智动的Power-BI是一款标准化BI,在国内已经具有一定的市场占有率。

中国的 BI 市场发展:

时间段

国内 BI 应用情况

2002 年以前

大量 BI 软件被看作是能从多个数据源中抽取数据的报表工作,满眼全是报表。

一开始,公司的销售在推销产品时都向用户介绍:“我们是 BI 领域最强的……”效果不好;后来那些销售终于找到了窍门,上来就说:“我们什么报表都能做!”然后订单不断。

2002-2003

OLAP 的价值终于被某些慧眼发现,一些竞争压力大的企业为了提高竞争力,迫切需要从历史数据中挖掘价值,迅速发现了 OLAP 的优势,这时销售终于不用再说“我们什么报表都能做”了。但是国家机关、垄断型企业,仍旧是报表,并且以为 BI 就是报表。

2004

随着越来越多成功 BI 项目的实施,OLAP 终于得以见天日,这时国内才形成数据查询+报表展示+OLAP分析的合理 BI 应用结构。一些数据可视化的需求也时常被用户提出,在一些竞争激烈、数据量大的企业,已经出现了数据挖掘应用。

2005

信息提供已经无法满足很多企业的要求,特别是银行、通信、证券等竞争激烈、风险密集的行业,大量涌现对数据挖掘的需求,BI 应用终于形成信息+知识的整体。

BI 工具在中国遇到的难题:

* 复杂表样:中国是世界上报表最复杂的国家。中国的表样设计思想与西方不同,西方报表倾向于仅用一张报表说明一个问题,而中国的报表倾向于将尽可能多的问题集中在一张报表中,这种思路直接导致了中国报表的复杂格式和诡异风格。

* 大数据量:中国是世界上人口最多的国家。以中国移动公司为例,仅我国一个省的用户数量,就相当于欧洲一个中等国家的人口,是真正的海量数据!国外数据库、数据仓库和 BI 应用软件,都在中国经受着大数据量承载能力的考验。对于美国,可能一个客户分析应用两秒钟就能出结果,但是在中国这样的数据量下,可就不是两秒钟的问题了。

* 数据回写:中国是世界上对 BI 系统要求最奇特的国家。本来 BI 系统是以忠实再现源数据为原则,但这个原则在中国遇到了难题,许多领导都提出了数据修改需求,“报表里数字不好看,就要能改啊,而且有时候也需要调整啊,这样上级领导看着就好嘛! ”一个领导如是说。目前能满足此要求的 BI 产品,仅有 Microsoft 和 MicroStrategy 两家。微软对中国市场算是吃透了。