检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
preemption.total_preemption_per_round 在一个周期内能够抢占资源的最大的比例。可使用这个值来限制从集群回收容器的速度。计算出了期望的总抢占值之后,策略会伸缩回这个限制。 0.1 yarn.resourcemanager.monitor.capacity.preemption
时候使用。 参数dfs.disk.balancer.top.nodes.number指定Top N节点返回的DataNode列表是不断重新计算的,因此不必设置的过大。 如果要在HDFS客户端通过命令行使用DiskBalancer功能,其接口如下: 表3 DiskBalancer功能的接口说明
字符截取的起点位置或终点位置,大于输入字段的长度时,当前行成为脏数据。 EL操作转换 传入数据为NULL值,不做转换处理。 输入一个或多个字段的值,输出计算结果。 输入类型和算子不兼容时,当前行为脏数据。 字符串大小写转换 传入数据为NULL值,不做转换处理。 配置输入字段列数,大于原始数据实际包含的字段列数,全部数据成为脏数据。
{wordsPerMessage} 开发思路 接收Kafka中数据,生成相应DataStreamReader。 对单词记录进行分类统计。 计算结果,并进行打印。 运行前置操作 安全模式下Spark Core样例代码需要读取两个文件(user.keytab、krb5.conf)。user
throws Exception { return tuple2.value(); } }); //汇总计算字数的总时间。 JavaPairDStream<String, Integer> wordCounts = lines.mapToPair(
组件应用开发规范类 ClickHouse应用开发规范 Doris应用开发规范 Flink应用开发规范 Hudi应用开发规范 以下所有第三方教程均来自于华为云社区,由于云服务产品持续更新与迭代,相关社区教程中的内容可能存在时效性,不一定与产品最新版本能力完全保持一致,相关内容仅供学习和参考。 表2
创建对接OBS权限的委托 登录华为云管理控制台,选择“统一身份认证服务”。 在左侧导航栏选择“委托”,单击右上角的“创建委托”,选择相关参数,单击“下一步”。 参数选择如下: 委托名称:例如“visit_obs_agency” 委托类型:选择“普通账号” 委托的账号:输入被委托的华为云账号名称 持续时间:根据实际情况自定义
因为数据模型在建表时就已经确定,且无法修改。所以,选择一个合适的数据模型非常重要。 Aggregate模型可以通过预聚合,极大地降低聚合查询时所需扫描的数据量和查询的计算量,非常适合有固定模式的报表类查询场景。但是该模型对count(*)查询不友好。同时因为固定了Value列上的聚合方式,在进行其他类型的聚合查询时,需要考虑语义正确性。
如果该主机没有域名,则运行样例程序会有如下报错: 此时需要用户设置系统的环境变量USERDNSDOMAIN以规避该问题,具体如下: 单击“计算机”右键,选择“属性”,然后选择“高级系统设置 > 高级 > 环境变量”。 设置系统环境变量,在系统变量下单击“新建”,弹出新建系统变量框
回滚补丁 卸载补丁 登录华为云管理控制台界面,在“现有集群”列表中单击需要卸载补丁的集群名称,单击“补丁管理”页签,找到需要卸载的补丁,单击“卸载”,等待补丁卸载成功后,需要按照该章节顺序依次执行相关操作。 当“状态”显示为“卸载失败”时,在“失败任务”中查看错误提示信息,查找相应日志来定位处理。
Manager服务期间会引起服务暂时不可用,滚动重启服务不断服。 MRS 1.9.3.1补丁安装后,需要重新下载安装全量的客户端,包含Master节点的原始客户端和虚拟私有云的其他节点使用的客户端(即您自行搭建的客户端)。 主备Master节点的原始客户端全量更新,请参见更新客户端配置(2.x及之前版本)。 自行
创建对接OBS权限的委托 登录华为云管理控制台,选择“统一身份认证服务”。 在左侧导航栏选择“委托”,单击右上角的“创建委托”,选择相关参数,单击“下一步”。 参数选择如下: 委托名称:例如“visit_obs_agency” 委托类型:选择“普通账号” 委托的账号:输入被委托的华为云账号名称 持续时间:根据实际情况自定义
因为数据模型在建表时就已经确定,且无法修改。所以,选择一个合适的数据模型非常重要。 Aggregate模型可以通过预聚合,极大地降低聚合查询时所需扫描的数据量和查询的计算量,适合有固定模式的报表类查询场景,但是该模型不适用于count(*)查询。同时因为固定了Value列上的聚合方式,在进行其他类型的聚合查询时,需要考虑语义正确性。
Hudi连接器支持元数据缓存,以便更快地提供对各种操作的元数据请求。可参考调整HetuEngine元数据缓存。 动态过滤 开启动态过滤有助于Hudi连接器的Join算子的计算优化。可参考调整HetuEngine动态过滤。 带分区条件查询 建立分区表并且查询带分区过滤条件有助于过滤部分分区数据,从而提高性能。 Hudi数据源约束
如果该主机没有域名,则运行样例程序会有如下报错: 此时需要用户设置系统的环境变量USERDNSDOMAIN以规避该问题,具体如下: 单击“计算机”右键,选择“属性”,然后选择“高级系统设置 > 高级 > 环境变量”。 设置系统环境变量,在系统变量下单击“新建”,弹出新建系统变量框
10.10 hadoop.hadoop.com”),否则HetuEngine无法根据主机名称连接到非本集群节点。 已创建HetuEngine计算实例。 添加Hive数据源步骤 获取Hive数据源集群的“hdfs-site.xml”和“core-site.xml”配置文件。 登录Hi
sh重启OMS服务。 主备OMS节点都需要重启。 MRS 1.9.2.2补丁安装后,需要重新下载安装全量的客户端,包含Master节点的原始客户端和虚拟私有云的其他节点使用的客户端(即您自行搭建的客户端)。 主备Master节点的原始客户端全量更新,请参见更新客户端配置(2.x及之前版本)。 自行
值。经验法则是将单个块大小(MB)除以250得到的值作为扫描仪线程数。 增加并行性还需考虑的重要一点是集群中实际可用的CPU核数,确保并行计算数不超过实际CPU核数的75%至80%。 CPU核数约等于: 并行任务数x扫描仪线程数。其中并行任务数为分割数和执行器数x执行器核数两者之间的较小值。
因为数据模型在建表时就已经确定,且无法修改。所以,选择一个合适的数据模型非常重要。 Aggregate模型可以通过预聚合,极大地降低聚合查询时所需扫描的数据量和查询的计算量,非常适合有固定模式的报表类查询场景。但是该模型对count(*) 查询不友好。同时因为固定了Value列上的聚合方式,在进行其他类型的聚合查询时,需要考虑语意正确性。
private IntWritable timeInfo = new IntWritable(1); /** * 分布式计算 * * @param key Object : 原文件位置偏移量。 * @param value Text