任务1.1 开始大数据采集认知

1.1.1 任务描述

人工智能发展离不开大数据,大数据的发展给人工智能的发展带来了可能,人工智能技术的发展对大数据技术有着较强的依赖性。作为人工智能的核心技术之一,大数据技术在人工智能中有较为广泛的应用。

大数据的核心技术主要是两大部分内容:一是大数据的采集与存储;二是大数据挖掘分析。对于数据的采集与存储,传统数据库、数据仓库等产品已经给出了非常完善的解决方案,但是传统大数据处理技术已经不能满足大数据背景下的数据处理,该任务主要完成对大数据采集的一些认知。

1.1.2 知识准备

互联网,云计算技术的发展,产生了海量的交易数据,例如,淘宝、京东上的数据;海量的交互数据,如微信等平台上产生的数据;以及海量的处理数据,例如物联网产生的数据。也正是在以云计算和人工智能为代表的技术创新发展的推动下,这些数据的采集和应用变得容易。

大数据采集是应用大数据的前提。大数据采集认知的知识准备由以下活动完成。

活动1 认识大数据(Big Data)

1. 什么是大数据

大数据,或称海量数据,是指无法使用传统技术和常用软件工具在短时间内完成获取、处理和管理的数据集合。这样的数据集合数据量规模非常巨大,超出人类在可接受时间下的收集、使用、管理和处理能力。

与传统的关系型数据库相比,大数据具有丰富的结构。大数据结构通常分为三类:结构化、半结构化和非结构化。因此,大数据难以使用传统数据的处理和管理方式;它在数据获取、数据存储、数据管理和数据分析方面都大大超出了传统数据库软件工具处理范围。大数据与传统数据的比较见表1-1。

表1-1 大数据与传统数据比较

从表1-1可知,大数据的主要特征体现在以下几点。

1)数据量大(Volume)。数据量大指数据体量巨大,数据集合规模不断扩大,数量级已从GB到TB,再到PB,甚至以EB和ZB来计数。至今,人类生产的所有印刷材料的数据量是200PB。未来10年,全球数据将增加50倍,数据大小决定数据的价值和信息。

2)数据多样化(Variety)。数据多样化指大数据的数据类型繁多,有结构化、半结构化和非结构化数据。半结构化和非结构化数据,包括传感器数据、网络日志、音频、视频、图片、地理信息等,占有量越来越大,已经远远超过传统的结构化数据。

3)数据产生快(Velocity)。数据的产生往往以数据流的形式动态快速产生,具有很强的时效性。例如,一天之内需要审查500万个潜在的毛衣欺诈按键;需要分析5亿条实时呼叫信息的详细记录,以预测客户的流失率。

4)数据价值密度低(Value)。数据总体价值巨大,但是价值密度低。例如,视频数据,在长达数小时连续不断的视频监控中,有用的数据可能仅仅只有一二秒。

大数据必须借由计算机对数据进行统计、比对、解析方能得出客观结果。

2. 大数据的主要来源

大数据采集是大数据处理的基础。除传统数据源以外,大数据来源还包括从互联网、感知器设备中获得的数据。这主要得益于互联网、云计算等技术的发展,使得移动互联、社交网络、电子商务等不断拓展互联网的边界和应用范围。在这些领域中,各种数据迅速膨胀变大。如互联网中的社交、搜索、电商等数据,移动互联的微博、微信等数据,物联网中的各种传感器数据和智慧地球数据,如车联网、GPS、医学影像、安全监控、金融领域、电信等源源不断产生的数据。

一般来说,大数据的主要来源有以下几方面。

1)商业数据:商业数据主要指从企业ERP系统、各种商业系统产生的数据。

2)互联网数据:主要指互联网上产生的大量数据,比如网页内容、用户聊天记录等。

3)物联网数据:主要指利用各种感知器、射频识别器、红外线等技术获得的数据。如摄像头、制造业、手环、公共事业、农业等数据。

根据数据采集来源又可将数据分为线上行为数据与内容数据两大类。

1)线上行为数据:页面数据、交互数据、表单数据、会话数据等。行为数据采集一般借助网络爬虫或网站公开API,从网页获取非结构化或半结构化数据,并将其统一结构化为本地数据。

2)内容数据:应用日志、电子文档、机器数据、语音数据、社交媒体数据等。内容数据采集包括实时文件采集和通过处理技术采集,如Flume技术采集,以及基于ELK的日志采集和增量采集等。

大数据结构包括结构化、半结构化和非结构化3个类型。其中,非结构化数据越来越成为主流数据。目前,企业中80%的数据都是非结构化数据。

大数据主要来源组成如图1-1所示。

图1-1 大数据主要来源组成

活动2 了解大数据采集

1. 大数据采集概念

大数据采集(DAQ),又称数据获取,是指用户针对自己的需求从待采集目标中自动采集获取数据的过程,采集到的数据结构包括结构化、半结构化和非结构化数据。

完整的大数据平台一般包括数据采集、数据处理、数据存储、数据报表/分析/挖掘、数据可视化等。大数据处理技术如图1-2所示。其中,数据采集是数据处理的基础环节。

图1-2 大数据处理技术

大数据处理技术(ETL)就是对分布式、异构数据源的不同种类和结构的数据进行提取、转换、加载操作。通过对采取到的数据进行清洗、转换、集成、规约等操作,最终挖掘数据的潜在价值。

2. 大数据采集方法分类

根据数据源的不同,大数据采集方法也不相同,大数据采集方法主要有以下几大类。

1)系统日志采集

系统日志采集主要是收集公司业务平台日常产生的大量日志数据,供离线和在线的大数据分析系统使用。用于采集系统日志数据,如Hadoop的Chukwa,Apache的Flume等。这些工具均采用分布式架构,能满足每秒数百兆字节的日志数据采集和传输需求。

2)数据库采集

随着大数据时代的到来,Redis、MongoDB、HBase和NoSQL数据库等常用于数据的采集。企业通过在数据采集端部署数据库来完成大数据采集工作。

传统企业会使用传统的关系型数据库MySQL和Oracle等来存储数据。

3)网络数据采集

网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息。网络数据采集方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。

4)感知设备数据采集

感知设备数据采集是指通过传感器、摄像头和其他智能终端自动采集信号、图片或录像来获取数据。

大数据智能感知系统需要实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。

对于企业生产经营数据或科学研究数据等保密性要求较高的数据,可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据。

1.1.3 任务效果

1)请理解大数据的几大特点,举例列出大数据的不同来源。

2)列举生活中大数据的常见应用。

3)思考传统数据技术能否完成大数据采集和存储。