检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用CDM服务迁移MRS HDFS数据至OBS 应用场景 MRS支持在大数据存储容量大、计算资源需要弹性扩展的场景下,用户将数据存储在OBS服务中,使用MRS集群仅作数据计算处理的存算分离模式,从而实现按需灵活扩展资源、低成本的海量数据分析方案。 CDM支持文件到文件类数据的迁移,本章节以MRS
hiveobs 数据冗余存储策略 多AZ存储:数据冗余存储至多个可用区(AZ),可靠性更高。 单AZ存储:数据仅存储在单个可用区(AZ),成本更低。 单AZ存储 策略 并行文件系统的读写策略。 私有 归档数据直读 通过归档数据直读,您可以直接下载存储类别为归档存储的文件,而无需提前恢复。
扩容MRS集群 MRS的扩容不论在存储还是计算能力上,都可以简单地通过增加Core节点或者Task节点来完成,不需要修改系统架构,降低运维成本。集群Core节点不仅可以处理数据,也可以存储数据。可以在集群中添加Core节点,通过增加节点数量处理峰值负载。集群Task节点主要用于处理数据,不存放持久数据。
使用HetuEngine查询IoTDB时序数据 应用场景 IoTDB(物联网数据库)是一体化收集、存储、管理与分析物联网时序数据的软件系统。 Apache IoTDB采用轻量式架构,具有高性能和丰富的功能。IoTDB数据查询及分析包括以下两种场景: IoTDB时序数据查询 IoT
场景说明 场景说明 假定某个业务Kafka每30秒就会收到5个用户的消费记录。Hbase的table1表存储用户历史消费的金额信息。 现table1表有10条记录,表示有用户名分别为1-10的用户,用户的历史消费金额初始化都是0元。 基于某些业务要求,开发的Spark应用程序实现如下功能:
查看HetuEngine物化视图自动化任务 本章节指导用户在HSConsole页面查看HetuEngine自动化任务的任务状态和任务执行结果等信息。用户可定期查看任务执行情况,帮助评估集群运行健康状况。 查看HetuEngine物化视图自动化任务步骤 使用用于访问HetuEngine
),如图1所示。使用IoTDB存储并管理这些数据的业务操作流程为: 创建存储组“root.集团名称”以表示该集团。 创建时间序列,用于存储具体设备传感器对应的指标数据。 模拟传感器,录入指标数据。 使用SQL查询指标数据信息。 业务结束后,删除存储的数据。 图1 数据结构 操作步骤
录下递归的所有路径上的时间序列具有修改时间序列的权限。 单击root,进入存储组资源类型,在对应的存储组权限上勾选“修改”,表示在该存储组递归的所有路径上的时间序列具有修改时间序列的权限。 单击指定的存储组,进入时间序列资源类型,在对应的时间序列权限上勾选“修改”,表示具有修改该时间序列的权限。
组件审计日志转储失败时,如果组件本地老化这部分审计日志,审计日志将无法找回,影响分析排查组件的业务行为。 可能原因 服务审计日志过大。 OMS备份路径存储空间不足。 服务所在某一个主机的存储空间不足。 处理步骤 检查是否服务审计日志过大。 打开FusionInsight Manager页面,在告警列表中,单击
配置节点磁盘类型时,根据磁盘使用的存储资源是否独享,磁盘划分为“云硬盘”、“专属分布式存储”。 云硬盘:提供规格丰富、安全可靠、可弹性扩展的硬盘资源,满足不同性能要求的业务场景。 如果未申请独享的存储池,请选择“云硬盘”,创建的磁盘使用公共存储资源。 专属分布式存储:为用户提供独享的存储资源,通过数据
Spark开源增强特性 跨源复杂数据的SQL查询优化 出于管理和信息收集的需要,企业内部会存储海量数据,包括数目众多的各种数据库、数据仓库等,此时会面临以下困境:数据源种类繁多,数据集结构化混合,相关数据存放分散等,这就导致了跨源复杂查询因传输效率低,耗时长。 当前开源Spark
使用Spark 运行Spark应用时修改split值报错 提交Spark任务时提示参数格式错误 磁盘容量不足导致Spark、Hive和Yarn服务不可用 引入jar包不正确导致Spark任务无法运行 Spark任务由于内存不够或提交作业时未添加Jar包,作业卡住 提交Spark任
d队列,而不是test21队列。 发生上述情况的原因是,任务未完成时,RM状态存储中存储的还是应用程序移动前的队列状态。唯一的解决办法就是等RM重启后,再次移动应用程序,将新的队列状态信息写入状态存储中。 父主题: Yarn常见问题
d队列,而不是test21队列。 发生上述情况的原因是,任务未完成时,RM状态存储中存储的还是应用程序移动前的队列状态。唯一的解决办法就是等RM重启后,再次移动应用程序,将新的队列状态信息写入状态存储中。 父主题: Yarn常见问题
因此,MRS大数据集群提供了完整的企业级大数据多租户解决方案。多租户是MRS大数据集群中的多个资源集合(每个资源集合是一个租户),具有分配和调度资源(资源包括计算资源和存储资源)的能力。 特性优势 合理配置和隔离资源 租户之间的资源是隔离的,一个租户对资源的使用不影响其他租户,保证了每个租户根据业务需求去配置相关的资源,可提高资源利用效率。
Spark Core性能调优 Spark Core数据序列化 Spark Core内存调优 Spark Core内存调优 配置Spark Core广播变量 配置Spark Executor堆内存参数 使用External Shuffle Service提升Spark Core性能
理? 问: 作业提交参数间用空格隔开会导致参数信息不被识别吗? 答: 不同参数间用空格隔开,可通过在参数名前添加@的方式防止参数信息被明文存储,例如: @password=XXXXXX进行使用。 父主题: 作业管理类
kafka_topic_list 消费Kafka的Topic。 kafka_group_name Kafka消费组。 kafka_format 消费数据的格式化类型,JSONEachRow表示每行一条数据的json格式,CSV格式表示逗号分隔的一行数据。更多请参考:https://clickhouse
Spark跨源复杂数据的SQL查询优化 场景描述 出于管理和信息收集的需要,企业内部会存储海量数据,包括数目众多的各种数据库、数据仓库等,此时会面临以下困境:数据源种类繁多,数据集结构化混合,相关数据存放分散等,这就导致了跨源复杂查询因传输效率低,耗时长。 当前开源Spark在跨
错误码 当您调用API时,如果遇到“APIGW”开头的错误码,请参见API网关错误码进行处理。 状态码 错误码 错误信息 描述 处理措施 400 0023 Failed to obtain cluster details. 获取集群详情信息失败! 请检查MRS集群状态、Maste