Spark引擎在大数据当中定位如何？

发布时间:2022-01-19 16:23:25来源：转载

大数据发展至今，提起大数据计算引擎，Spark一定是不能忽视的一个。经过近年来的发展，Spark在大数据领域的市场占有率也在不断提升，可以自己独立支撑集群运行，也可以与Hadoop生态集成运行，因此广受欢迎。下面和大家讲讲，Spark在大数据生态当中的定位如何?

早期的大数据，Hadoop框架受到的重用是显而易见的，而随着大数据处理新的数据处理需求产生，Hadoop在实时数据流计算上的劣势开始显现出来。而Spark正是在这样的背景下诞生，可以看做是对于Hadoop MapReduce计算框架的替代和改进。

Spark同样基于分布式集群进行并行计算，完成计算任务，相对于MapReduce，很大的一个改变在于，将原本在磁盘上运行的任务转移到内存当中来进行，而基于内存计算的效率，相比基于磁盘计算，确实要快得多。

另外，相比于MapReduce固定只支持map和reduce两种任务类型，Spark继承了MapReduce的模式，但是支持更多的任务类型，也能适应更多的计算场合。Spark对分布式大数据处理的抽象处理，让用户不必像写MapReduce一样，太关注底层的实现逻辑，而是在处理层次上投入更多精力。Spark解决的核心问题，是数据计算任务的解决，对于数据存储以及任务调度，还需要依靠其他工具来执行。

Spark的工作需要配合存储层，例如Hadoop中的HDFS分布式文件存储或者MongoDB、Cassandra这类数据库来完成。同时，它还需要一个集群的管理器，比如YARN、Mesos等用来管理相应的数据处理任务。当然Spark自己也提供集群管理功能，这样集群的每个节点都需要安装Spark，用于进行任务的编排。

发展至今，Spark已经形成了相对完备的大数据处理生态，包括Spark ML用来处理基于大量数据的机器学习任务，Spark Streaming用于处理小批量的流式数据等。

Spark在大数据生态当中的定位如何?需要知道的是，Spark作为大数据处理引擎，虽然并不能解决所有环节的问题，但是对于绝大部分问题，都能给出合适的方案，不管是独立运行还是集成运行，Spark系统的可用性都很高。

更多培训课程：深圳大数据更多学校信息： 深圳龙华达内IT教育培训 咨询电话：

相关内容：大数据大数据引擎 Spark大数据