有考网有考网合作机构>深圳培训学校>深圳龙华达内IT教育培训
深圳龙华达内IT教育培训
全国统一学习专线 8:30-21:00
位置:有考网 > 计算机类>大数据> Spark引擎在大数据当中定位如何?  正文

Spark引擎在大数据当中定位如何?

发布时间:2022-01-19 16:23:25来源:转载

大数据发展至今,提起大数据计算引擎,Spark一定是不能忽视的一个。经过近年来的发展,Spark在大数据领域的市场占有率也在不断提升,可以自己独立支撑集群运行,也可以与Hadoop生态集成运行,因此广受欢迎。下面和大家讲讲,Spark在大数据生态当中的定位如何?

早期的大数据,Hadoop框架受到的重用是显而易见的,而随着大数据处理新的数据处理需求产生,Hadoop在实时数据流计算上的劣势开始显现出来。而Spark正是在这样的背景下诞生,可以看做是对于Hadoop MapReduce计算框架的替代和改进。

Spark同样基于分布式集群进行并行计算,完成计算任务,相对于MapReduce,很大的一个改变在于,将原本在磁盘上运行的任务转移到内存当中来进行,而基于内存计算的效率,相比基于磁盘计算,确实要快得多。

另外,相比于MapReduce固定只支持map和reduce两种任务类型,Spark继承了MapReduce的模式,但是支持更多的任务类型,也能适应更多的计算场合。Spark对分布式大数据处理的抽象处理,让用户不必像写MapReduce一样,太关注底层的实现逻辑,而是在处理层次上投入更多精力。Spark解决的核心问题,是数据计算任务的解决,对于数据存储以及任务调度,还需要依靠其他工具来执行。

Spark的工作需要配合存储层,例如Hadoop中的HDFS分布式文件存储或者MongoDB、Cassandra这类数据库来完成。同时,它还需要一个集群的管理器,比如YARN、Mesos等用来管理相应的数据处理任务。当然Spark自己也提供集群管理功能,这样集群的每个节点都需要安装Spark,用于进行任务的编排。

发展至今,Spark已经形成了相对完备的大数据处理生态,包括Spark ML用来处理基于大量数据的机器学习任务,Spark Streaming用于处理小批量的流式数据等。

Spark在大数据生态当中的定位如何?需要知道的是,Spark作为大数据处理引擎,虽然并不能解决所有环节的问题,但是对于绝大部分问题,都能给出合适的方案,不管是独立运行还是集成运行,Spark系统的可用性都很高。

更多培训课程: 深圳大数据 更多学校信息: 深圳龙华达内IT教育培训 咨询电话:

相关内容: 大数据 大数据引擎 Spark大数据

同类文章
最新文章
相关热词
导航

雅思 托福 GRE SSAT SAT GMAT ACT 个人提升英语 英语四六级 多邻国英语测试 词库 IB 英语口语 商务英语 公共英语 考研英语 青少儿英语 成人英语 A-Level 学生英语 初高中英语 OSSD AP课程 AEAS个性化定制课程 一级建造师 二级建造师 消防工程师 消防设施操作员 BIM 造价工程师 环评师 监理工程师 咨询工程师 安全工程师 建筑八大员 公路水运检测 通信工程 装配式工程师 注册电气工程师 二级注册建筑师 一级注册建筑师 智慧消防工程师 智慧建造工程师 全过程工程咨询师 EPC 碳排放管理师 ACCA CFA 注册会计师 会计证 初中级经济师 初级会计师 中级会计师 基金从业 证券从业 税务师 薪税师 企业合规师 会计就业实操 期货从业 FRM CMA CQF 教师资格 人力资源管理 导游考试 心理咨询师 健康管理师 社会工作师 普通话 育婴员 物流师 家庭教育指导师 专利代理师 教师招聘 儿童专注力 儿童情绪管理 法律职业资格 少儿编程 书法培训 国画 茶艺 乐器音乐 舞蹈 棋类 机器人编程 戏曲培训 信奥赛C++ 少儿小主播 口才培训 篮球培训 商务办公 影视后期 剪辑包装 游戏设计 游戏程序 UI设计 室内设计 photoshop CAD制图 视觉设计 商业空间设计 平面设计