一、大数据技术

大数据技术(big data technology)是从各种类型的数据中快速获得有价值信息的技术,是一种处理人类行为数据要素之间关联关系的分析技术。主要包括大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。在足够小的时间和空间尺度上,对现实世界数字化,构造一个现实世界的数字虚拟映像,运用充足的计算能力和高效的数据分析方法对这个数字虚拟映像进行深度分析,理解和发现现实复杂系统的运行行为、状态和规律,进而探知客观规律、改造自然和社会。

大数据技术是治理大数据的基础,包括前向兼容、后向扩展、简便易用的大数据平台和解决方案,自然语言处理、人脸识别等非结构化数据处理等技术。

(一)大数据分析模式

从“随机采样”“精确求解”和“强调因果”的传统模式演变为大数据时代的“全体数据”“近似求解”和“只看关联不问因果”。

(二)大数据生态系统

大数据生态系统由数据资源与API、开源平台与工具、数据基础设施、数据分析、数据应用等构成,其发展趋向是从技术向应用、再向治理逐渐转移,成为一种新型治理工具。

(三)大数据技术应用

1.描述性分析应用 指从大数据中总结、抽取相关的信息和知识,帮助人们分析发生了什么,并呈现事物的发展历程。从各个信息系统中抽取、整合数据,再以统计图表等可视化形式,将数据蕴含的信息推送给管理者,帮助其更好地了解现状,进而作出判断和决策。

2.预测性分析应用 指从大数据中分析事物之间的关联关系、发展模式等,并据此对事物发展的趋势进行预测。通过收集和分析大量数据,建立预测模型,进行预测。

3.指导性分析应用 指在前两个层次的基础上,分析不同决策将导致的后果,并对决策进行指导和优化。

(四)大数据治理

如何将海量数据应用于决策和创新?如何利用大数据平台优化管理流程和服务?如何利用大数据更科学地制定公共政策、实现社会治理?所有这一切,都离不开大数据治理。在大数据战略从顶层设计到底层实现的“落地”过程中,治理是基础,技术是支撑,分析是手段,应用是目的。

大数据治理是连接大数据科学和应用的桥梁,是广义信息治理计划的一部分,即制定与大数据有关的数据优化、隐私保护与数据变现的政策。国际数据管理协会(DAMA)将数据治理定义为“对数据资产管理行使权力和控制的活动集合,是对数据管理的高层计划与控制”。国际数据治理研究所(The Data Governance Institute,DGI)将数据治理定义为“对数据相关事宜的决策制定与权利控制,是处理信息和实施决策的一个系统”。《信息技术服务治理 第五部分:数据治理规范(GB/T 34960.5—2018)》将数据治理定义为“对数据资源及其应用过程中相关管控活动、绩效和风险管理的集合”。将大数据与元数据、隐私、数据质量和主数据等信息治理准则结合,大数据的变现不是隐私的变现。在挖掘价值和保护隐私之间实现妥协与平衡,不仅是一门科学,也是一种艺术。要实现大数据的变现,就离不开科学的大数据治理和与时俱进的管理。

大数据治理是一项系统工程,大到大数据技术平台的搭建、组织的变革、政策的制定、流程的重组,小到元数据的管理、主数据的整合、各种类型大数据的个性化治理和大数据的行业应用。

大数据治理是传统信息治理的延续和扩展,不可能与传统的信息治理切割。延续性既是保护历史投资的需要,也体现了信息治理准则的一脉相承。

不同类型数据的整合,结构化数据与非结构化数据、准结构化数据的整合,主数据与其他类型数据的整合,不同部门乃至不同行业数据的整合,都需要大量细致的工作。大数据治理涉及人员、流程和软件,大数据需要去伪存真,需要删繁就简,需要化大为小。

(五)大数据技术存在的问题

1.数据驱动与规则驱动的对立统一、“关联”与“因果”的辩证关系、“全数据”的时空相对性、分析模型的可解释性与鲁棒性等。

2.针对特定数据集和特定问题域已有不少专用解决方案,是否有可能形成“通用”或“领域通用”的统一技术体系,仍有待未来的技术发展给出答案。

3.应用超前于理论和技术发展,数据分析的结论往往缺乏坚实的理论基础,对这些结论的使用仍需保持谨慎态度。