随着时间的推移,数据的单位增长随着软硬件的不断进步,而呈现出指数倍的增长,在气象学、基因组学、神经网络体学、复杂的物理模拟、生物及环境研究、金融、电商等各个领域,数据的体量已经大到传统的软件程序对其进行分析处理的时间无法承受,也许可能计算一次大气模拟需要一个月之久才能得到结果,但得到的结果的时候已经失去了其本身计算的意义
大数据技术是指对大规模数据的收集、分析、挖掘和应用的技术。数据的采集是大数据技术的第一步,是指通过某种方法或手段收集各种产生数据。举个例子,比如说现在的互联网网站都有日志记录的功能,把用户在网站上的所有的行为,包括浏览点击购买等等,都记录下来。这样后台服务就能够分析用户的兴趣爱好并为其推荐个性化的产品。再比如说气象部门会在城市的各个角落布置各种传感器,来采集气象数据。物流公司一般会跟踪采集物流数据,实时掌握物流信息。
Apache Gora:内存中的数据模型和持久性框架;
Apache Hama:BSP(整体同步并行)计算框架;
Apache MapReduce :在集群上使用并行、分布式算法处理大数据集的编程模型;
Apache Pig :Hadoop中,用于处理数据分析程序的高级查询语言;
Apache REEF :用来简化和统一低层大数据系统的保留性评估执行框架
|