今天有人问我关于大数据的问题? 其实我已经很久没有接触过大数据的东西。这里就回忆一下吧 以下完全是我根据以前的项目经历所做的回忆,可能有些已经过时,还有些可能是错误的. 请自行思考辩认。 大数据技术的出现这都要感谢Google开放的论文,这个时候就出现在hadoop, hdfs, hbase, hive,pig这样的开源项目.最早优化这些的公司有Intel,并将这一产品推向了市场.并且名 为IDH. 性能方面的确有很大提升,稳定性当时做得还不是很好.现在的情况没有去了解也没有 实践,具体就不太清楚了. 后来出现了CDH,一个开源的完整的解决方案. 这个时候出现在phoenix也是开源的,很好的解决 Hbase查询不方便的问题,性能还很好. 当时我们用他做实时指标的呈成和计算,完全能达到实时的 需求。依希记得测度时用了4台机器(32核+ 64G的内存), 1亿条记录,查询时间为1m左右. CDH可以帮助我们更好的管理节点.升级安装应用,查看各节点的状态. 对了,突然想起那个时候spark的流行,可惜那个时候我去了创业公司, 没有去学习它, 所以这里就不多提了. 当时整个运行方案是 ETL,清洗数据 一部分数据直接导入HBase,一部分直接保存到HDFS的hive外部表中 周期使用运行hive语句将统计结果导入phoenix

Click here to see the full blog post