# 大数据概述
# 大数据基础知识
从数据大小的角度来看,大数据是指大小超出了典型数据库软件工具收集、存储、管理和分析能力的数据集。从架构的角度来说,大数据是指那些传统架构无法有效处理的信数据集。国标将大数据定义为:具有体量巨大、来源多样、生成极快且多变等特征,难以用传统数据体系结构有效处理的包含大量数据集的数据。
我们现在说的大数据,更多的是指无法在可承受范围内用常规软件工具进行捕捉、管理和处理的数据集合,这些数据需要新的处理模式才能具有更强的决策力、洞察力。大数据时代一书中,将大数据总结为4V的特征,随着近年的发展,结合着4V,大数据逐渐演化成8V的特征。
- 规模性表示数据规模是巨大的。随着信息技术的不断发展,数据量增长迅速,大数据中的数据不在以GB和TB为单位来衡量,而是以PB、EB或ZB来衡量。
- 多样性主要体现在数据来源多、数据类型多和数据之间的关联性强。
- 高速性是指大数据时代,单位时间流量高,同时对处理数据的响应速度有更严格的要求,一般要求实时处理和实时分析几乎无延迟。数据增长速度和处理速度是大数据高速性的重要体现。
- 价值性代表数据背后潜藏的价值,大数据真正的价值体现在大量不想干的各种类型数据中,挖掘出对未来趋势与模式预测分析有价值的数据,并加以利用创造更大的价值。
- 准确性强调收集的数据要有意义,需要保证数据的真实性和准确性,必须要考虑搜集数据的质量。
- 动态性集中体现了大数据是互联网技术产生的实时动态数据,不是历史或者严格控制环境下产生的数据。
- 可视化可以更加直观的阐述数据的意义,帮助理解数据、解释结果。
- 合法性强调数据收集必须符合国家的政策和法律规定,未得到授权时,要规避个人隐私数据和企业内部数据的收集。
# 大数据处理流程
大数据的处理思路是将一个复杂问题简化成一个个更简单易于处理的问题,也就是将一个大问题拆分成多个可以简单求解的小问题。大数据的处理流程可以概括为以下几个步骤:
数据采集:从不同的数据源采集数据,包括结构化数据、半结构化数据和非结构化数据等。
数据预处理:对采集到的数据进行清洗和预处理,包括去重、去噪、缺失值填充、异常值处理等。
数据存储:将清洗后的数据存储到数据仓库或者数据湖等数据存储系统中。
数据分析与挖掘:使用各种大数据处理技术,例如MapReduce、Spark、Flink等,对数据进行处理和分析,包括数据挖掘、机器学习、模型训练等。
数据可视化:将处理和分析后的数据进行可视化展示,包括数据图表、报表、仪表盘等,以便用户进行数据分析和决策。
数据应用:将处理和分析后的数据应用于各种业务场景中,例如智能客服、风控、推荐系统、营销等。
这些步骤并非严格的线性顺序,通常是迭代性的进行。同时,不同的大数据处理项目会根据具体的需求和场景选择不同的技术和方法。