形式存储和列式存储的优缺点，列式存储与行式存储

欧气 2024年10月01日 07:50 2 0

《列式存储与行式存储：特性剖析与应用场景的深度探讨》

一、行式存储的优缺点

图片来源于网络，如有侵权联系删除

1、行式存储的优点

数据完整性与事务处理方便

- 在关系型数据库中，行式存储非常适合处理事务性操作，以银行系统为例，当进行一笔转账业务时，涉及到从一个账户扣除金额并在另一个账户增加金额，相关的数据如账户余额、交易时间、交易流水号等都存储在同一行，这种存储方式使得在执行事务时，可以方便地获取整行数据进行完整性约束检查，在更新账户余额时，可以同时检查交易时间是否符合业务规则，以及交易流水号是否唯一等，对于需要保证数据一致性和完整性的OLTP（联机事务处理）系统，行式存储的这种特性能够确保在高并发环境下数据的准确性。

- 对于复杂的业务逻辑，行式存储能很好地支持，例如企业资源规划（ERP）系统，其中包含了采购、销售、库存等多个模块的数据，在处理订单时，订单的各个属性，如订单号、客户信息、订单日期、商品明细、订单状态等都存储在同一行，这样，当需要查询某个订单的完整信息或者对订单进行修改、删除等操作时，可以快速定位到整行数据，减少数据的关联操作，提高事务处理的效率。

适合传统的查询模式

- 在传统的数据库查询中，很多时候是按照实体对象进行查询的，例如在一个员工管理系统中，可能经常会查询某个员工的所有信息，包括员工的基本信息（姓名、年龄、性别等）、职位信息、薪资信息等，行式存储将一个员工的所有相关数据存储在同一行，当执行这样的查询时，数据库可以直接定位到该行并返回所有数据，这种查询模式符合大多数用户对数据查询的直观理解，不需要进行复杂的列转换或者数据重组。

- 对于一些简单的统计查询，行式存储也能够较好地应对，要统计某个部门的员工数量，数据库只需要扫描包含员工部门信息的列，对满足条件的行进行计数即可，虽然在处理大规模数据的复杂统计分析时，行式存储可能会遇到性能瓶颈，但对于这种基本的、基于行的简单统计，它能够提供足够的性能支持。

2、行式存储的缺点

数据读取效率低（针对列分析）

- 当需要对大量数据进行基于列的分析时，行式存储的效率会显著下降，例如在数据仓库环境中，需要对销售数据中的销售额列进行汇总分析，以了解不同地区、不同时间段的销售趋势，行式存储需要逐行读取数据，然后再提取出销售额列的值进行计算，这种方式会导致大量不必要的数据读取，因为对于列分析来说，每行中的其他列数据（如产品名称、销售人员等）是不需要的，随着数据量的增大，这种逐行读取和筛选列数据的操作会消耗大量的I/O资源和计算时间。

- 在大数据分析场景下，如对海量的用户行为数据进行分析，假设要分析用户的登录频率（以天为单位），行式存储的数据布局使得在获取登录日期列的数据时，必须遍历整个行集，即使只对这一列进行分析，这不仅增加了数据读取的延迟，还可能导致内存缓存的无效使用，因为缓存中会加载大量无用的行数据。

形式存储和列式存储的优缺点，列式存储与行式存储

图片来源于网络，如有侵权联系删除

存储空间浪费

- 行式存储中，由于数据是按照行进行存储的，每个行都包含了所有列的数据，在实际应用中，很多列可能存在大量的空值或者默认值，例如在一个客户信息表中，可能有“客户推荐人”这一列，大部分客户的这一列为空，在行式存储中，这些空值仍然会占用存储空间，导致存储空间的浪费。

- 对于一些稀疏矩阵类型的数据，行式存储的空间浪费问题更加严重，比如在一个记录网站用户对不同文章的评分表中，大部分用户只对少数文章进行了评分，未评分的单元格为默认值（如0），在行式存储下，这些默认值会占用大量的存储空间，增加了存储成本，并且在数据查询和处理时，也会增加不必要的处理开销。

二、列式存储的优缺点

1、列式存储的优点

高效的列分析能力

- 在数据仓库和大数据分析领域，列式存储展现出卓越的性能，以分析销售数据中的利润列为例，列式存储可以直接定位到利润列的数据块，快速进行聚合计算，如求和、平均值、最大值和最小值等，不需要像行式存储那样逐行读取数据然后提取列值，大大减少了I/O操作量，对于处理大规模数据的数据分析任务，这种高效的列读取能力能够显著提高查询速度。

- 在处理具有高维特征的数据时，比如在机器学习中的特征矩阵数据，列式存储可以方便地对每个特征列进行独立的统计分析，例如计算每个特征的标准差、方差等统计量，只需要对相应的列进行操作，而不需要处理整行数据，这使得在数据预处理和特征工程阶段，能够快速地对大规模数据集进行分析和处理。

高压缩比

- 由于列式存储中同一列的数据类型相同，数据具有更高的相似性，因此更容易进行压缩，在存储时间序列数据时，时间戳列的数据具有一定的规律性，可以采用高效的压缩算法（如delta编码等）进行压缩，对于一些数值列，如销售额列，如果数据分布在一定范围内，也可以采用合适的数值压缩算法进行压缩，这种高压缩比不仅可以节省存储空间，还能减少数据在网络传输中的带宽占用。

- 在处理海量数据时，高压缩比带来的存储成本降低是非常可观的，例如在一个存储全球气象数据的数据仓库中，其中包含大量的气象观测数据列，如温度、湿度、气压等，通过列式存储的高压缩比特性，可以将数据存储在更小的空间内，同时在数据查询时，由于数据量的减少（压缩后），也能提高查询的效率。

形式存储和列式存储的优缺点，列式存储与行式存储

图片来源于网络，如有侵权联系删除

2、列式存储的缺点

事务处理复杂

- 列式存储不太适合处理高并发的事务性操作，在传统的OLTP系统中，如银行的账户交易系统，由于列式存储是按列存储数据的，要对一行数据进行更新（如转账操作涉及的多个账户相关数据），需要在多个列存储区域进行操作，这增加了事务处理的复杂性，保证数据的一致性和完整性在列式存储的事务处理中更加困难，因为数据不是以完整行的形式存储在一起的。

- 在企业的ERP系统中，如果采用列式存储，对于订单的创建、修改和删除等操作会变得复杂，当修改一个订单的状态时，需要在订单状态列以及可能相关的其他列（如订单处理时间等）进行操作，而这些列在存储上是分开的，这就需要更复杂的逻辑来确保订单数据的一致性。

不适合传统的基于行的查询

- 对于那些需要查询整行数据的应用场景，列式存储的性能可能不如行式存储，例如在员工管理系统中，如果经常需要查询某个员工的所有信息，列式存储需要从多个列存储区域组合数据来形成完整的行数据，这个过程涉及到更多的I/O操作和数据组装工作，相比于行式存储直接定位到整行数据，列式存储在这种传统的基于行的查询场景下效率较低。

- 在一些需要快速获取单个实体完整信息的应用中，如医院的患者信息查询系统，当医生需要查看某个患者的基本信息、病历信息、检查结果等所有相关数据时，列式存储的存储结构会导致查询响应时间较长，因为它不是按照实体对象（患者）为单位进行存储的，而是按列存储数据的。

行式存储和列式存储各有其优缺点，在实际的数据库设计和应用场景选择中，需要根据具体的业务需求、数据处理类型（事务处理还是分析处理）以及性能和成本要求等因素综合考虑，选择最适合的存储方式。

标签： #列式存储 #行式存储 #优缺点