检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
MRS最佳实践汇总 本文汇总了MapReduce(MRS)服务的常见应用场景,并为每个场景提供详细的方案描述和操作指南,您可以根据本文查看适合您业务的实践教程文档。 MRS最佳实践 开发者社区精选最佳实践 表1 MRS最佳实践 分类 相关文档 数据分析类 使用Spark2x实现车联网车主驾驶行为分析
account from person"); // 遍历hive表中的每一个partition, 然后更新到hbase表 // 如果数据条数较少,也可以使用foreach()方法 dataFrame.toJavaRDD().foreachPartition(
account from person"); // 遍历hive表中的每一个partition, 然后更新到hbase表 // 如果数据条数较少,也可以使用foreach()方法 final String zkQuorum = args[0];
account from person"); // 遍历hive表中的每一个partition, 然后更新到hbase表 // 如果数据条数较少,也可以使用foreach()方法 dataFrame.toJavaRDD().foreachPartition(
拷贝HBase配置文件至FlinkServer所在节点。 以客户端安装用户登录安装客户端的节点,拷贝HBase的“/opt/client/HBase/hbase/conf/”目录下的所有配置文件至部署FlinkServer的所有节点的一个空目录,如“/tmp/client/HBase/hbase/conf/”。
针对所有参与Join的表,依次选取一个表作为第一张表。 依据选取的第一张表,根据代价选择第二张表,第三张表。由此可以得到多个不同的执行计划。 计算出代价最小的一个计划,作为最终的顺序优化结果。 代价的具体计算方法: 当前版本,代价的衡量基于Join出来的数据条数:Join出来的条数越少,代
level KafkaStreams API代码样例,通过Kafka Streams读取输入Topic中的消息,统计每条消息中的单词个数,从输出Topic消费数据,将统计结果以Key-Value的形式输出,完成单词统计功能。 High level KafkaStreams API代码样例 下面代码片段在com
对于Yarn的Shuffle Service,其启动的线程数为机器可用CPU核数的两倍,而默认配置的Direct buffer Memory为128M,因此当有较多shuffle同时连接时,平均分配到各线程所能使用的Direct buffer Memory将较低(例如,当机器的CPU为40核,Yarn的Shuffle
FS/OBS数据源的输入路径目录名、输入路径的子目录名及子文件名不能包含特殊字符/\"':;,中的任意字符。 如果设置的任务需要使用指定YARN队列功能,该用户需要已授权有相关YARN队列的权限。 设置任务的用户需要获取该任务的执行权限,并获取该任务对应的连接的使用权限。 操作步骤
对于Yarn的Shuffle Service,其启动的线程数为机器可用CPU核数的两倍,而默认配置的Direct buffer Memory为128M,因此当有较多shuffle同时连接时,平均分配到各线程所能使用的Direct buffer Memory将较低(例如,当机器的CPU为40核,Yarn的Shuffle
FS/OBS数据源的输入路径目录名、输入路径的子目录名及子文件名不能包含特殊字符/\"':;,中的任意字符。 如果设置的任务需要使用指定YARN队列功能,该用户需要已授权有相关YARN队列的权限。 设置任务的用户需要获取该任务的执行权限,并获取该任务对应的连接的使用权限。 操作步骤
level KafkaStreams API代码样例,通过Kafka Streams读取输入Topic中的消息,统计每条消息中的单词个数,从输出Topic消费数据,将统计结果以Key-Value的形式输出,完成单词统计功能。 High level KafkaStreams API代码样例 下面代码片段在com
Integer 参数解释: 扩容或缩容的节点数。 约束限制: 扩容时的最大节点数为(500 - 集群Core/Task节点数)。例如,当前集群Core节点数为3,此处扩容的节点数必须小于等于497。 Core和Task节点总数最大值为500,如果用户需要的Core/Task节点数大于50
MRS集群部署方案说明 MRS当前提供的“分析集群”、“流式集群”和“混合集群”采用固定模板进行部署集群的进程,无法满足用户自定义部署管理角色和控制角色在集群节点中的需求。 如需自定义集群部署方式,可在创建集群时的“集群类型”选择“自定义”,实现用户自主定义集群的进程实例在集群节点中的部署方式。 仅MRS
在“名称”中输入作业的名称。 在“类型”中选择“导出”。 在“组”中设置作业所属组,默认没有已创建的组,单击“添加”创建一个新的组,输入组的名称,单击“确定”保存。 在“队列”中选择执行该作业的YARN队列。默认值“root.default”。 在“优先级”中选择执行该作业的YARN队列
在“名称”中输入作业的名称。 在“类型”中选择“导出”。 在“组”中设置作业所属组,默认没有已创建的组,单击“添加”创建一个新的组,输入组的名称,单击“确定”保存。 在“队列”中选择执行该作业的YARN队列。默认值“root.default”。 在“优先级”中选择执行该作业的YARN队列
项目编号。获取方法,请参见获取项目ID。 约束限制: 不涉及 取值范围: 只能由英文字母和数字组成,且长度为[1-64]个字符。 默认取值: 不涉及 cluster_id 是 String 参数解释: 集群ID。如果指定集群ID,则获取该集群做过补丁更新的最新版本元数据。获取方法,请参见获取集群ID。
Hadoop开源软件的基础上,在主要业务部件的可靠性、性能调优等方面进行了优化和提升。 系统可靠性 管理节点均实现HA Hadoop开源版本的数据、计算节点已经是按照分布式系统进行设计的,单节点故障不影响系统整体运行;而以集中模式运作的管理节点可能出现的单点故障,就成为整个系统可靠性的短板。
同一个集群的自定义自动化脚本名称不允许相同。 只能由英文字母、数字、空格以及“_”和“-”组成,不能以空格开头,且长度为[1-64]个字符。 默认取值: 不涉及 uri 是 String 参数解释: 自定义自动化脚本的路径。设置为OBS桶的路径或虚拟机本地的路径。 OBS桶的路径:直
rce的实例,通过指定的IoTDBSourceOptions并在IoTDBSource中实现抽象方法convert(),convert()定义了您希望如何转换行数据。 其中在Session对象的参数里,设置IoTDBServer所在的节点IP、端口、用户名和密码。 待连接的IoT