检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
长度:配置字段长度,字段值太长则按配置的长度截取,类型为“CHAR”时实际长度不足则空格补齐,类型为“VARCHAR”时实际长度不足则不补齐。 map 是 无 数据处理规则 将每行数据按照指定的分隔符,分隔成多个字段,供之后的转换算子使用。 当字段的值与实际的类型不匹配时,该行数据会成为脏数据。 输入字段
一个;phoenix表主键可以指定多个,配置多个列为主键时,会按照配置列的先后顺序对其进行拼接。必须配置一个主键列。 map 是 无 数据处理规则 当配置HBase表名不存在时,作业提交失败。 当配置的列名与HBase表列名不匹配时,读取不到数据,导入数据条数会为0。 配置输入字
级越高,打印出来的日志就越少。 表2 日志级别 级别 描述 ERROR ERROR表示系统运行的错误信息。 WARN WARN表示当前事件处理存在异常信息。 INFO INFO表示记录系统及各事件正常运行状态信息。 DEBUG DEBUG表示记录系统及系统的调试信息。 如果您需要修改日志级别,请执行如下操作:
通过以上过滤规则,拼凑得到的字符串“table120160221.txt”,会直接作为文件名,追加到作业配置的输入路径中。所以,作业只会处理唯一匹配到的文件“table120160221.txt”。 将job.properties文件中“file.filter”的值修改为“true”,“file
可能会有什么影响? 读写任务可能会出现OOM的问题,解决方法就是提升单个task的内存占比。 读写性能下降,因为单个task的处理的数据量变大,导致处理耗时变大。 父主题: Hudi数据表设计规范
通过以上过滤规则,拼凑得到的字符串“table120160221.txt”,会直接作为文件名,追加到作业配置的输入路径中。所以,作业只会处理唯一匹配到的文件“table120160221.txt”。 将job.properties文件中“file.filter”的值修改为“true”,“file
日志,设置的日志等级越高,打印出来的日志就越少。 表3 日志级别 级别 描述 ERROR ERROR表示当前时间处理存在错误信息。 WARN WARN表示当前事件处理存在异常信息。 INFO INFO表示记录系统及各事件正常运行状态信息。 DEBUG DEBUG表示记录系统及系统的调试信息。
house/daas/dsp/output/_temporary。 可以使用zgrep "文件名" *.zip命令搜索zip包的内容。 解决办法 需要排查业务,确认为何该文件或者文件的父目录被删除。 父主题: 使用HDFS
request.size ”值和本次写入数据大小,若写入数据大小超过此配置项“max.request.size ”的缺省值,则抛出上述异常。 解决办法 在初始化Kafka生产者实例时,设置此配置项“max.request.size ”的值。 例如,参考本例,可以将此配置项设置为“5252880”:
ntpdate修改时间导致HDFS出现大量丢块 DataNode概率性出现CPU占用接近100%导致节点丢失 单NameNode长期故障时如何使用客户端手动checkpoint HDFS文件读写时报错“Failed to place enough replicas” 文件最大打开句柄数设置太小导致读写文件异常
PCEP)。相关的终端节点策略中,未允许MRS集群内节点直接访问MRS补丁所在的OBS文件桶,导致无法将最新补丁下载到集群内进行安装。 解决办法 在集群所在VPC对应重点节点策略中,将当前Region的补丁桶放通,以保证MRS集群节点可以正常获取补丁文件。 使用具有管理权限的用户登录终端节点控制台。
COM for krbtgt/HADOOP.COM@HADOOP.COM, Decrypt integrity check failed 解决办法 确认集群外连接Kafka的节点IP地址信息(如原因分析示例中的192.168.1.93)。 登录集群外的节点,断开其对Kafka的认证。
M上运行的所有Container。RM会在另一计算节点上启动新的ApplicationAttempt。 对于不同类型的应用,希望以不同方式处理AM重启的事件。MapReduce类应用的目标是不丢失任务,但允许丢失当前运行的Container。但是对于长周期的YARN服务而言,用户
一个;phoenix表主键可以指定多个,配置多个列为主键时,会按照配置列的先后顺序对其进行拼接。必须配置一个主键列。 map 是 无 数据处理规则 当配置HBase表名不存在时,作业提交失败。 当配置的列名与HBase表列名不匹配时,读取不到数据,导入数据条数会为0。 配置输入字
移数据过程,MapReduce任务是运行在分析core节点,因此需要保证正常加载驱动类的情况下,保证源端数据库和集群节点的网络正常通信。 处理步骤 检查源端数据库端口对集群节点均放通。 若使用EIP公网通信,那么集群节点均需要绑定公网,尤其是分析节点,必须绑定公网才能保证作业正常运行。
用户修改域名后,没有刷新executor用户的keytab文件,导致executor进程认证失败后不断循环认证,导致了acs进程内存溢出。 处理步骤 重启acs进程。 使用root用户登录主管理节点(即MRS集群详情页面“节点管理”页签下实心五角星所在的Master节点)。 执行如下命令重启进程:
”文件。 当用户正在查看即将被回收的Spark应用时,可能会出现找不到“temp_shuffle”文件的错误,从而导致当前页面无法访问。 处理步骤 如果遇到上述问题,可参考以下两种方法解决。 重新访问这个Spark应用的HistoryServer页面,即可查看到正确的页面信息。
licateKeyException;对于MOR表,该模式与upsert模式行为一致。 non-strict模式,对主键表采用insert处理。 upsert模式,对于主键表的重复值进行更新操作。 在执行spark-sql时,用户可以设置“hoodie.sql.bulk.insert
一般情况下,建议根据数据量级别来选择大小。例如:GB级别用256,TB级别用512,PB级别用1024。 所有Integer类型度量均以BigInt类型进行处理与显示。 CarbonData遵循严格解析,因此任何不可解析的数据都会被保存为null。例如,在BigInt列中加载double值(3.14),将会保存为null。
NM是每个节点上的资源和任务管理器,一方面,它会定时地向RM汇报本节点上的资源使用情况和各个Container的运行状态;另一方面,它会接收并处理来自AM的Container启动/停止等各种请求。 Container Container是YARN中的资源抽象,它封装了某个节点上的多维