检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
更多相关介绍请参见StarRocks。 该组件当前为公测阶段,若需使用需联系技术支持申请白名单开通。 StarRocks架构 StarRocks整体架构如下图所示,FE和BE节点可以水平无限扩展。 图1 StarRocks架构 表1 StarRocks节点及角色说明 名称 说明 Client Application
据和删除数据的能力以及消费变化数据的能力。支持多种计算引擎,提供IUD接口,在HDFS的数据集上提供了插入更新和增量拉取的功能。 如需使用Hudi,请确保MRS集群内已安装Spark/Spark2x服务。 图1 Hudi基本架构 Hudi特性 ACID事务能力,支持实时入湖和批量入湖。
rker2,Worker3… ,多个Worker实例共同与Coordinator交互执行计算任务,相比较单实例,能够大大提高节点资源的利用率和计算效率。 Presto多实例仅作用于ARM架构规格,当前单节点最多支持4个实例。 更多Presto部署信息请参考:https://prestodb
Tez是Apache最新的支持DAG(有向无环图)作业的开源计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升DAG作业的性能。 MRS将Tez作为Hive的默认执行引擎,执行效率远远超过原先的MapReduce的计算引擎。 有关Tez的详细说明,请参见:https://tez
子来实现底层的计算。 Take算子会以Partition为单位多次触发计算。 在该问题中,由于Shuffle操作,导致take算子默认有两个Partition,Spark首先计算第一个Partition,但由于没有数据输入,导致获取结果不足10个,从而触发第二次计算,因此会出现RDD的DAG结构打印两次的现象。
种SQL-like的语言,相对于SQL,CQL中增加了(时序)窗口的概念,将待处理的数据保存在内存中,进行快速的内存计算,CQL的输出结果为数据流在某一时刻的计算结果。使用CQL,可以快速进行业务开发,并方便地将业务提交到Storm平台开启实时数据的接收、处理及结果输出;并可以在合适的时候中止业务。
condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 OBS write接口调用失败数高于阈值,会影响上层大数据计算业务的正常执行,导致某些计算任务的执行失败。 可能原因 OBS服务端出现执行异常或严重超时。 处理步骤 登录FusionInsight Manager,选择“运维
占用计算存储资源较多,通常通过Hive/SparkSQL引擎或者MapReduce/Spark2x实现。 本实践基于华为云MapReduce服务,用于指导您创建MRS集群后,使用Hive对原始数据进行导入、分析等操作,展示了如何构建弹性、低成本的离线大数据分析。 方案架构 Hi
Storm与其他组件的关系 Storm,提供实时的分布式计算框架,它可以从数据源(如Kafka、TCP连接等)中获得实时消息数据,在实时平台上完成高吞吐、低延迟的实时计算,并将结果输出到消息队列或者进行持久化。Storm与其他组件的关系如图1所示: 图1 组件关系图 Storm和Streaming的关系
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 OBS readFully接口调用失败数高于阈值,会影响上层大数据计算业务的正常执行,导致某些计算任务的执行失败。 可能原因 OBS服务端出现执行异常或严重超时。 处理步骤 登录FusionInsight Manager,选择“运维
在集群外节点安装客户端前提条件 已准备一个Linux弹性云服务器,主机操作系统及版本建议参见表1。 表1 参考列表 CPU架构 操作系统 支持的版本号 x86计算 Euler EulerOS 2.5 SUSE SUSE Linux Enterprise Server 12 SP4(SUSE
b=xxx 原因分析 按照设定,任务应该只扫描b=xxx的分区,但是查看任务日志可以发现,实际上任务却扫描了所有的分区再来计算b=xxx的数据,因此任务计算的很慢。并且因为需要扫描所有文件,会有大量的OBS请求发送。 MRS默认开启基于分区统计信息的执行计划优化,相当于自动执行Analyze
condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 OBS read接口调用失败数高于阈值,会影响上层大数据计算业务的正常执行,导致某些计算任务的执行失败。 可能原因 OBS服务端出现执行异常或严重超时。 处理步骤 登录FusionInsight Manager,选择“运维
子来实现底层的计算。 Take算子会以Partition为单位多次触发计算。 在该问题中,由于Shuffle操作,导致take算子默认有两个Partition,Spark首先计算第一个Partition,但由于没有数据输入,导致获取结果不足10个,从而触发第二次计算,因此会出现RDD的DAG结构打印两次的现象。
选择“叶子租户”:当前租户为叶子租户,不支持添加子租户。 选择“非叶子租户”:当前租户为非叶子租户,支持添加子租户,但租户层级不能超过5层。 计算资源 为当前租户选择动态计算资源。 选择“Yarn”时,系统自动在Yarn中以子租户名称创建任务队列。 如果是叶子租户,叶子租户可直接提交到任务队列中。
将高频访问的SQL查询和有高耗时的算子(连接, 聚合等算子)的SQL通过建立物化视图进行预计算,然后在查询的SQL中将能匹配到物化视图的查询或者子查询转换为物化视图,避免了数据的重复计算,这种情况下往往能较大地提高查询的响应效率。 物化视图通常基于对数据表进行聚合和连接的查询结果创建。
配置Hive动态脱敏 使用场景 Hive动态脱敏功能开启后,配置脱敏列的数据可以参与计算,计算结果输出时不可见,在集群内脱敏策略会根据血缘关系自动传递,更大的发挥数据的价值同时保障数据的隐私性。 使用约束 不支持Hudi表的脱敏。 不支持涉及直接读写HDFS的操作的脱敏。 不支持
condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 OBS元数据接口调用平均时间超过阈值,会影响上层大数据计算业务的性能,导致某些计算任务的执行时间超过阈值。 可能原因 OBS服务端出现卡顿,或OBS客户端到OBS服务端之间的网络不稳定。 处理步骤 检查堆内存使用率。
Trigger condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 OBS操作被流控后,会影响上层大数据计算业务的正常执行,导致某些计算任务的执行失败。 可能原因 请求OBS接口频率太高。 处理步骤 登录FusionInsight Manager,选择“运维 >
3.3.1-LTS及之后版本。 管理面提交作业方式不支持开启动态脱敏特性。 配置场景 Spark动态脱敏开启后,配置脱敏列的数据可以参与计算,计算结果输出时不可见,在集群内脱敏策略会根据血缘关系自动传递,更大的发挥数据的价值同时,保障数据的隐私性。 使用约束 不支持Hudi表的脱敏。