三、大数据分析与商业智能的融合

随着多媒体、智能手机和社交网站等信息获取渠道的增多,决策者正面临着比以往任何时候都更多的数据。传统数据仓库的性能无法应付庞大的信息,而大数据分析技术则能访问和使用这些宝贵的、大规模数据集以应对复杂多变的数据分析和商业决策制定。但是,在技术成熟度和产业生态系统方面,传统商业智能仍然占有巨大的优势。因此,最佳的商业分析方案应该是大数据分析与商业智能的融合,建立大数据BI系统。

1.底层技术

大数据BI系统的底层技术包括分布式计算与通信、内存计算、列存储、库内计算。分布式计算包括Offline MPP(如Hadoop/MapReduce)和Online MPP(如Spark/cloudera/Goole Dremel),分布式通信需要考虑效率、负载、变量等因素。内存计算的对象需要区分所有数据和热点数据。列存储需要考虑影响、分区I/O、Block复制。

2.建设方向

首先,系统业务驱动要优于数据驱动。其次,要建立自助式的大数据BI系统。

3.建设原则

大数据BI系统建设遵循敏捷开发、开闭、依赖倒置、里氏替换4个原则。敏捷开发原则是指好系统不是一蹴而就,应先切入进去再持续迭代。开闭原则是为减少BI应用对数据层的污染。依赖倒置原则是指架构要合理,降低数据与应用间的依赖度。里氏替换原则是指开放标准,保证模块良好的替换性。

4.系统架构

针对PB级数据,可选用Hadoop +Hive、Hadoop+MySQL、一体机等架构。针对TB级数据,可选用MPP DW、MPP DM等架构。