检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
输入与输出 输入:用来做过滤条件的字段 输出:无 参数说明 表1 算子参数说明 参数 含义 类型 是否必填 默认值 条件逻辑连接符 配置条件逻辑连接符,可配置“AND”或“OR”。 enum 是 AND 条件 配置过滤条件相关信息: 输入字段名:配置输入字段名,需填写上一个转换步骤生成的字段名。
表输出:将已生成的字段输出到关系型数据库表。 文件输出:将已生成的字段通过分隔符连接并输出到文件。 HBase输出:将已生成的字段输出到HBase表。 字段简介 作业配置中的字段是Loader按业务需要定义的与用户数据对应的一种数据项,它拥有具体类型,必须与用户实际数据类型保持一致。 父主题: 算子帮助
表输出:将已生成的字段输出到关系型数据库表。 文件输出:将已生成的字段通过分隔符连接并输出到文件。 HBase输出:将已生成的字段输出到HBase表。 字段简介 作业配置中的字段是Loader按业务需要定义的与用户数据对应的一种数据项,它拥有具体类型,必须与用户实际数据类型保持一致。 父主题: Loader算子帮助
还需要为工程设置语言。 在IDEA主页,选择“File > Project Structures...”进入“Project Structure”页面。 选择“Modules”,选中工程名称,然后右键选择“Add > Scala”。 图8 选择Scala语言 在设置界面,选择编译的依赖jar包,单击“Apply”。
string, value string) stored as RCFile; HIVE使用OBS存储。 需要在beeline里面设置指定的参数,AK/SK可登录“OBS控制台”,进入“我的凭证”页面获取。 set fs.obs.access.key=AK; set fs.obs.secret
标签是集群/节点的标识,为集群/节点添加标签,可以方便用户识别和管理拥有的集群/节点资源。MRS服务通过与标签管理服务(TMS)关联,可以让拥有大量云资源的用户,通过给云资源打标签,快速查找具有同一标签属性的云资源,进行统一检视、修改、删除等管理操作,方便用户对大数据集群及其他相关云资源的统一管理。
JDK默认只支持TLS V1.0,若使用IBM JDK,请配置启动参数“com.ibm.jsse2.overrideDefaultTLS”为“true”,设置后可以同时支持TLS V1.0/V1.1/V1.2,详情参见https://www.ibm.com/support/knowledgecenter/zh/SSYKE2_8
> Workspace”,在“Text file encoding”区域,选中“Other”,并设置参数值为“UTF-8”,单击“Apply”后,单击“OK”,如图1所示。 图1 设置Eclipse的编码格式 父主题: 准备MapReduce应用开发环境
> Workspace”,在“Text file encoding”区域,选中“Other”,并设置参数值为“UTF-8”,单击“Apply”后,单击“OK”,如图1所示。 图1 设置Eclipse的编码格式 父主题: 准备HDFS应用开发环境
列时,某些任务会被挂起,不能正常运行。 回答 如果应用程序没有设置标签表达式,那么该应用程序上新增的container/resource将使用其所在队列默认的标签表达式。如果队列没有默认的标签表达式,则将其标签表达设置为“default label”。 当应用程序(app1)提交
个字符。 默认取值: 不涉及 表2 Query参数 参数 是否必选 参数类型 描述 path 是 String 参数解释: 文件目录。比如访问“/tmp/test”目录列表,此处必须是目录,整体URI为/v2/{project_id}/clusters/{cluster_id}/files
left)或右表(duplicate.right)设置去重: 格式 为左表设置去重 /*+ OPTIONS('duplicate.left'='true')*/ 为右表设置去重 /*+ OPTIONS('duplicate.right'='true')*/ 同时为左表和右表设置去重 /*+ OPTIONS('duplicate
列时,某些任务会被挂起,不能正常运行。 回答 如果应用程序没有设置标签表达式,那么该应用程序上新增的container/resource将使用其所在队列默认的标签表达式。如果队列没有默认的标签表达式,则将其标签表达设置为“default label”。 当应用程序(app1)提交
因为当长时间不做compaction时list性能会变差。 在事实表与维度表关联场景中可以按表设置TTL降低状态后端数据量 具体使用指导参考通过表级TTL进行状态后端优化。 合理设置并行度 任务运行的速度和并行度相关,一般来说提升并行度能有效提升读取的速度,但是过大的并行度可能
解。 Alluxio的业务操作对象是文件,代码样例中所涉及的文件操作主要包括创建文件和对文件的读写;Alluxio还有其他的业务处理,例如设置文件权限等,其他操作可以在掌握本代码样例之后,再扩展学习。 本代码样例讲解顺序为: 文件系统初始化 写文件 读文件 开发思路 调用File
10 3~256 loader.fault.tolerance.rate 容错率。 值大于0时使能容错机制。使能容错机制时建议将作业的Map数设置为大于等于3,推荐在作业数据量大的场景下使用。 0 0~1.0 loader.input.field.separator 默认的输入字段分
ClickHouse分区设计 合理设置分区键,控制分区数在一千以内,分区字段使用整型。 分区part数与查询性能关系 图1 分区part数与查询性能关系图 分区建议 建议使用toYYYYMMDD(pt_d)作为分区键,pt_d是date类型。 如果业务场景需要做小时分区,使用pt
IntelliJ IDEA中远程提交拓扑执行Main时报错:Command line is too long 问题 IntelliJ IDEA中远程提交拓扑,执行Main方法时IntelliJ IDEA报如下错 : Command line is too long. Shorten
有副本中写入相同的数据(副本间数据一致性不强,无法保证完全同步)。 macros标签 当前实例节点所在的分片和副本编号,可以用于区别不同的副本。 例如,上述配置对应host3节点实例,该实例所在分片编号shard为2,副本编号replica为1。 本章节详细描述了分片和副本信息的
任务提交方式变更 问题 用户提交结构流任务时,通常需要通过--jars命令指定kafka相关jar包的路径,例如--jars /kafkadir/kafka-clients-x.x.x.jar,/kafkadir/kafka_2.11-x.x.x.jar。当前版本用户除了这一步外还需要额外的配置项,否则会报class