本文目录导读:
数据量(Volume)
随着互联网、物联网、云计算等技术的飞速发展,数据已成为现代社会不可或缺的组成部分,大数据时代,数据量呈现出爆炸式增长,据国际数据公司(IDC)预测,全球数据量每年将增长40%,到2020年,全球数据量将达到40ZB(1ZB=1亿TB),如此庞大的数据量,使得传统数据处理方法难以应对,催生了大数据技术的诞生。
1、数据来源多样化:大数据涉及的范围广泛,包括社交网络、传感器、移动互联网、电子商务、政府数据等,数据来源多样化,为大数据分析提供了丰富的素材。
2、数据类型多样化:大数据不仅包括结构化数据,还包括半结构化数据和非结构化数据,非结构化数据占比最大,如文本、图片、音频、视频等,这使得大数据分析更加复杂。
3、数据增长速度惊人:随着信息技术的不断进步,数据生成速度越来越快,传统数据处理技术难以满足需求,大数据技术应运而生。
图片来源于网络,如有侵权联系删除
数据多样性(Variety)
大数据时代,数据类型繁多,不仅包括传统的结构化数据,还包括半结构化数据和非结构化数据,这种多样性使得大数据分析变得更加复杂,但也为挖掘有价值信息提供了更多可能性。
1、结构化数据:指具有固定格式、易于存储和处理的数字数据,如数据库、关系型数据等。
2、半结构化数据:指具有部分结构的数据,如XML、JSON等,虽然具有一定的结构,但不如结构化数据规则。
3、非结构化数据:指没有固定格式、难以直接处理的数据,如文本、图片、音频、视频等。
数据价值密度低(Value)
大数据时代,数据量庞大,但其中有价值的信息占比很小,据统计,只有大约1%的数据具有实际价值,如何从海量数据中挖掘出有价值的信息,成为大数据分析的关键。
1、数据冗余:由于数据来源多样化,数据之间存在冗余现象,导致数据价值密度降低。
图片来源于网络,如有侵权联系删除
2、数据质量参差不齐:部分数据存在错误、缺失、不一致等问题,影响数据价值。
3、数据挖掘难度大:从海量数据中挖掘有价值信息,需要运用复杂的算法和模型,对数据挖掘技术提出了更高的要求。
数据真实性(Veracity)
大数据时代,数据来源广泛,但数据真实性难以保证,数据真实性是指数据在收集、传输、存储、处理等过程中,是否准确、可靠、一致。
1、数据造假:部分数据可能被人为篡改,导致数据真实性受损。
2、数据隐私泄露:在数据收集、传输、存储等过程中,可能存在隐私泄露风险,影响数据真实性。
3、数据质量监控困难:数据真实性难以保证,给数据质量监控带来挑战。
图片来源于网络,如有侵权联系删除
数据时效性(Velocity)
大数据时代,数据更新速度极快,时效性要求高,数据时效性是指数据在特定时间内具有的价值。
1、实时性:部分应用场景对数据实时性要求较高,如金融、医疗、交通等。
2、预测性:通过对历史数据的分析,预测未来趋势,为决策提供依据。
3、数据更新周期短:数据更新周期缩短,对数据处理技术提出了更高的要求。
大数据具有数据量、多样性、价值密度低、真实性和时效性五大核心特征,面对这些特征,我们需要不断创新大数据技术,提高数据处理能力,挖掘出有价值的信息,为我国经济社会发展提供有力支持。
标签: #简述大数据的基本特征(v2)
评论列表