正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
停止”,等待任务停止完成后选择“更多 > 编辑”。 配置“Hudi表属性配置”的“Table Primarykey Mapping”参数,并单击“保存”,该参数介绍请参见表8。 在数据同步任务作业列表界面选择该任务所在行的“启动”,重新启动该任务。 父主题: CDL故障排除
KryoSerializer依赖Twitter的Chill库来实现,相对于JavaSerializer,主要的问题在于不是所有的Java Serializable对象都能支持,兼容性不好,所以需要手动注册类。 序列化功能用在两个地方:序列化任务和序列化数据。Spark任务序列化只支持JavaSerial
KryoSerializer依赖Twitter的Chill库来实现,相对于JavaSerializer,主要的问题在于不是所有的Java Serializable对象都能支持,兼容性不好,所以需要手动注册类。 序列化功能用在两个地方:序列化任务和序列化数据。Spark任务序列化只支持JavaSerial
选择“连接管理 > 新增连接”,进入“新增连接”参数配置窗口,参考下表,分别新增“thirdparty-kafka”、“hudi”连接,相关数据连接参数介绍请参见创建CDL数据库连接。 表1 thirdparty-kafka数据连接配置参数 参数名称 示例 Name oraclelink Link
KryoSerializer依赖Twitter的Chill库来实现,相对于JavaSerializer,主要的问题在于不是所有的Java Serializable对象都能支持,兼容性不好,所以需要手动注册类。 序列化功能用在两个地方:序列化任务和序列化数据。Spark任务序列化只支持JavaSerial
初始化HBase配置 功能介绍 HBase通过login方法来获取配置项。包括用户登录信息、安全认证信息等配置项。 代码样例 下面代码片段在com.huawei.bigdata.hbase.examples包的“TestMain”类的init方法中。 private static
安装集群客户端的Linux节点并获取相关配置文件。 在节点中安装客户端,例如客户端安装目录为“/opt/client”。 客户端机器的时间与集群的时间要保持一致,时间差小于5分钟。 集群的Master节点或者Core节点使用客户端可参考集群内节点使用MRS客户端,MRS集群外客户
处理步骤 检查实例进程是否异常。 打开MRS集群详情页面,在告警管理页签的告警列表中,单击此告警所在行,在告警详情中,查看该告警的主机名称与服务名称。 在“告警管理”页面,查看是否有ALM-12006 节点故障(2.x及以前版本)产生。 是,执行1.c。 否,执行1.d。 按ALM-12006
固定宽度文件输入 概述 “固定宽度文件输入”算子,将文件的每一行,按可配置长度的字符或字节,转换成多个输入字段。 输入与输出 输入:文本文件。 输出:多个字段。 参数说明 表1 算子参数说明 参数 含义 类型 是否必填 默认值 换行符 用户根据数据实际情况,填写字符串作为换行符。
修改DEFAULT_REALM为集群的域名。 将securityConfig拼接的字符串中user.principal与user.keytab修改为相应的用户名与路径。注意这里keytab的路径需要使用“/”。 将加载数据的sql语句改为“LOAD DATA INPATH 'hdfs:/data/data'
2 16/02/24 15:45:41 INFO mapreduce.JobSubmitter: number of splits:2 16/02/24 15:45:42 INFO mapreduce.JobSubmitter: Submitting tokens for job:
-site.xml”文件,且根据实际集群情况配置所需要的参数。JDBCServer相关参数详情,请参见Spark JDBCServer接口介绍。 开发思路 在default数据库下创建child表。 把“/home/data”的数据加载进child表中。 查询child表中的数据。
er节点和HDFS文件。 主集群HBase故障后,主集群的Zookeeper、文件系统和网络依然可用。 场景介绍 Replication机制可以使用WAL将一个集群的状态与另一个集群的状态保持同步。启用HBase备份后,如果主集群出现故障,ReplicationSyncUp工具会
初始化HBase配置 功能介绍 HBase通过login方法来获取配置项。包括用户登录信息、安全认证信息等配置项。 代码样例 下面代码片段在com.huawei.bigdata.hbase.examples包的“TestMain”类的init方法中。 private static
安装集群客户端的Linux节点并获取相关配置文件。 在节点中安装客户端,例如客户端安装目录为“/opt/client”。 客户端机器的时间与集群的时间要保持一致,时间差小于5分钟。 集群的Master节点或者Core节点使用客户端可参考集群内节点使用MRS客户端,MRS集群外客户
Hudi开发规范概述 范围 本规范主要描述基于MRS-Hudi组件进行湖仓一体、流批一体方案的设计与开发方面的规则。其主要包括以下方面的规范: 数据表设计 资源配置 性能调优 常见故障处理 常用参数配置 术语约定 本规范采用以下的术语描述: 规则:编程时强制必须遵守的原则。 建议:编程时必须加以考虑的原则。
配置场景 当Spark2x Web UI中有一些不允许其他用户看到的数据时,用户可能想对UI进行安全防护。用户一旦登录,Spark2x可以比较与这个用户相对应的视图ACLs来确认是否授权用户访问 UI。 Spark2x存在两种类型的Web UI,一种为运行中任务的Web UI,可以通
配置场景 当Spark2x Web UI中有一些不允许其他用户看到的数据时,用户可能想对UI进行安全防护。用户一旦登录,Spark2x 可以比较与这个用户相对应的视图ACLs来确认是否授权用户访问 UI。 Spark2x存在两种类型的Web UI,一种为运行中任务的Web UI,可以通
池中执行。每个队列只能配置一个资源池的队列容量策略。用户可以在任何一个资源池中查看队列并配置队列容量策略。配置队列策略后,YARN任务队列与资源池形成关联关系。 该任务指导用户通过MRS配置队列策略。 前提条件 如果通过MRS管理控制台操作,需要已完成IAM用户同步(在集群详情页
Spark中,判断表是否广播的阈值为10485760(即10M)。如果两个表的大小至少有一个小于10M时,可以跳过该步骤。 自动广播阈值的配置参数介绍,见表1。 表1 参数介绍 参数 默认值 描述 spark.sql.autoBroadcastJoinThreshold 10485760 当进行joi