检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
由于Timeout waiting for task异常导致Shuffle FetchFailed Executor进程Crash导致Stage重试 执行大数据量的shuffle过程时Executor注册shuffle service失败 在Spark应用执行过程中NodeManager出现OOM异常
是否将结果数据保存在本地磁盘中而不是内存里面。 优点:结果数据小数据量情况下和原生内存的方式相比性能损失可以忽略,大数据情况下(亿级数据)性能远比使用HDFS,以及原生内存方式好。 缺点:需要调优。大数据情况下建议JDBCServer driver端内存10G,executor端每个核心分配3G内存。
是否使用ReliableKafkaReceiver。该Receiver支持流式数据不丢失。 false Netty/NIO及Hash/Sort配置 Shuffle是大数据处理中最重要的一个性能点,网络是整个Shuffle过程的性能点。目前Spark支持两种Shuffle方式,一种是Hash,另外一种是So
通过邮件或短信方式通知对应用户。 管理面检查大数据集群的告警信息,如果大数据集群的告警信息影响到服务的使用,其告警级别达到致命时,则发送信息通知给对应租户。 在用户集群的ECS机器被删除、关机、修改规格、重启、更新OS的行为,会导致大数据集群异常,当检测到用户的虚拟机出现以上状态的时候,发送通知给对应用户。
n计算)能够支持50~100并发,对于简单的SQL查询,支持100~200左右查询。 如果集群有混合负载(要求极致性能的点查/范围查询和有大数据量聚合及join查询),建议将不同类型的负载拆分到不同集群;对于集群规划有远远超过100个并发业务系统,也需要设计将业务分摊到不同的集群。
是否将结果数据保存在本地磁盘中而不是内存里面。 优点:结果数据小数据量情况下和原生内存的方式相比性能损失可以忽略,大数据情况下(亿级数据)性能远比使用hdfs,以及原生内存方式好。 缺点:需要调优。大数据情况下建议JDBCServer driver端内存10G,executor端每个核心分配3G内存。
MRS 2.0.1.1 修复问题列表: MRS Manager 解决反复扩缩容导致MRS Master节点executor内存溢出问题 MRS大数据组件 MRS Presto新增Presto支持OBSFileSystem MRS Presto解决频繁打印jstack,以及日志文件太大不滚动问题
配置Hive元数据存储至RDS 本章节指导用户将现有集群的Hive元数据切换为本地数据库或者RDS数据库中存储的元数据。该操作可以使多个MRS集群共用同一份元数据,且元数据不随集群的删除而删除,也能够避免集群迁移时Hive元数据的迁移。 创建并配置RDS实例 登录RDS管理控制台
的离线大数据分析。以某图书网站后台用户的点评数据为原始数据,导入Hive表后通过SQL命令筛选出最受欢迎的畅销图书。 使用Hive加载OBS数据并分析企业雇员信息 本实践指导使用Hive对OBS中存储的原始数据进行导入、分析等操作,展示了如何构建弹性、低成本的存算分离大数据分析。
界面。 个人或企业账号实名认证请参考:实名认证。 MRS服务授权操作 使用具有IAM委托操作权限的用户登录管理控制台。 在服务列表中选择“大数据 > MapReduce服务”,进入“服务授权”页面。 图1 服务授权 单击“变更权限委托”,在右侧单击,启用委托或权限策略。 委托和策
由于Timeout waiting for task异常导致Shuffle FetchFailed Executor进程Crash导致Stage重试 执行大数据量的shuffle过程时Executor注册shuffle service失败 在Spark应用执行过程中NodeManager出现OOM异常
正确配置参数“spark.dynamicAllocation.maxExecutors”,不推荐使用默认值(2048),否则CarbonData将申请最大数量的executor。 对于更大的集群,配置参数“carbon.dynamicAllocation.schedulerTimeout”为10~15sec,默认值为5sec。
正确配置参数“spark.dynamicAllocation.maxExecutors”,不推荐使用默认值(2048),否则CarbonData将申请最大数量的executor。 对于更大的集群,配置参数“carbon.dynamicAllocation.schedulerTimeout”为10~15sec,默认值为5sec。
执行如下命令关闭PMS进程,其中PID为2中获取的PMS进程号。 kill -9 PID 等待PMS进程自动启动。 PMS启动需要2~3分钟。PMS是监控进程,重启不影响大数据业务。 父主题: 集群管理类
0.1 修复问题列表: MRS Manager 优化V2作业提交hive sql返回结果、解决委托token提交V2作业失败问题。 MRS大数据组件 MRS Hive解决hive server内存泄露问题:HIVE-10970、HIVE-22275。 补丁兼容关系 无 安装补丁的影响
e SQL),ODBC驱动程序和用户界面(Hue中的Impala查询UI)。这为实时或面向批处理的查询提供了一个熟悉且统一的平台。作为查询大数据的工具补充,Impala不会替代基于MapReduce构建的批处理框架,例如Hive。基于MapReduce构建的Hive和其他框架最适合长时间运行的批处理作业。
e SQL),ODBC驱动程序和用户界面(Hue中的Impala查询UI)。这为实时或面向批处理的查询提供了一个熟悉且统一的平台。作为查询大数据的工具补充,Impala不会替代基于MapReduce构建的批处理框架,例如Hive。基于MapReduce构建的Hive和其他框架最适合长时间运行的批处理作业。
e SQL)、ODBC驱动程序和用户界面(Hue中的Impala查询UI)。这为实时或面向批处理的查询提供了一个熟悉且统一的平台。作为查询大数据的工具补充,Impala不会替代基于MapReduce构建的批处理框架,例如Hive。基于MapReduce构建的Hive和其他框架最适合长时间运行的批处理作业。
对,指定并发的Reduce(化简)函数,用来保证所有映射的键值对共享相同的键组。 图1 分布式批处理引擎 MapReduce是用于并行处理大数据集的软件框架。MapReduce的根源是函数性编程中的Map和Reduce函数。Map函数接受一组数据并将其转换为一个键/值对列表,输入
YLIN_HOME}/bin/sample.sh验证kylin是否正常运行。 在华为云严选商城中有提供基于Apache Kylin的企业级大数据智能分析平台Kyligence Enterprise,您可以根据需要选择使用。 父主题: 周边生态对接类