21讲吃透实时流计算笔记

流计算强调其处理的数据是无界的数据流,无界的数据流也称为流数据,工业设备上的传感器记录、股市的逐笔成交记录都是源源不断生成的流数据。针对数据流这个特征,流计算是一个持续的计算任务,处理的数据大小为单条记录或者微批的记录;批计算处理的是有界的数据集,且数据集通常包含大批量数据,一次批计算不管是运行几分钟还是几个小时,总是会结束的。以统计日总成交金额为例,即使是在每笔交易发生时做出实时响应,依然有两种

流计算强调其处理的数据是无界的数据流,无界的数据流也称为流数据,工业设备上的传感器记录、股市的逐笔成交记录都是源源不断生成的流数据。针对数据流这个特征,流计算是一个持续的计算任务,处理的数据大小为单条记录或者微批的记录;


批计算处理的是有界的数据集,且数据集通常包含大批量数据,一次批计算不管是运行几分钟还是几个小时,总是会结束的。


以统计日总成交金额为例,即使是在每笔交易发生时做出实时响应,依然有两种截然不同的计算方法:若以当日截止当前所有的成交数据作为计算输入得到结果,这种基于全量数据集的计算称为批计算;而若是将成交数据看作一个序列,总是增量地处理最新到达的数据以更新统计结果,则称为流计算,总成交额可以通过最近一次统计的总成交额与最新一条成交记录的金额相加得到。很明显,在实时统计总成交金额的这个例子中,流计算是更优的数据处理方式。







首页
社科类
工科类
亲子类
心理情感类
目录
参与学习