大数据主要处理模式
大数据的主要处理模式有两种:基于内存的流式处理和基于硬盘的存储处理。
1. 流式处理:流式处理是将数据处理过程在内存中进行,利用内存的高处理性能,使得处理速率较高。但是,由于数据驻留在内存中,内存的特性是掉电即失,因此流式处理通常是用完即弃。大数据产品中,Spark是流式处理的代表。
2. 存储处理:存储处理是将数据先存放在硬盘中,需要时再进行筛选分析。这种方式可以重复使用数据,但因为硬盘的机械特性,处理速度相对较慢。大数据产品中,Laxcus和Hadoop是存储处理的代表。
此外,还有其他一些处理海量数据的方法,如分而治之/hash映射+hash统计+堆/快速/归并排序、Bloomfilter/Bitmap、Trie树/数据库/倒排索引和分布式处理之hadoop/mapreduce等。
