检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Loader算子配置项中使用宏定义 用户在创建或者编辑Loader作业时,在配置参数时中可以使用宏,在执行作业任务时会自动替换为宏对应的值。 宏定义只在该作业范围内生效。 宏定义支持随作业导入导出,如果作业中有使用宏定义,则导出的作业包括宏定义。导入作业时默认也导入宏定义。 时间
" : 373, "numActiveBatches" : 0, "numProcessedRecords" : 1, "numReceivedRecords" : 1, "avgInputRate" : 0.002680965147453083, "avgSchedulingDelay"
MRS 2.1.0.1补丁说明 补丁基本信息 表1 补丁基本信息 补丁号 MRS 2.1.0.1 发布时间 2020-02-12 解决的问题 MRS 2.1.0.1 修复问题列表: MRS Manager 优化V2作业提交hive sql返回结果、解决委托token提交V2作业失败问题。
编译并调测Flink应用 操作场景 在程序代码完成开发后,编译jar包并上传至Linux客户端环境中运行应用。使用Scala或Java语言开发的应用程序在Flink客户端的运行步骤是相同的。 基于YARN集群的Flink应用程序不支持在Windows环境下运行,只支持在Linux环境下运行。
Hive应用开发建议 HQL编写之隐式类型转换 查询语句使用字段的值做过滤时,不建议通过Hive自身的隐式类型转换来编写HQL。因为隐式类型转换不利于代码的阅读和移植。 建议示例: select * from default.tbl_src where id = 10001; select
Flume业务模型配置说明 业务模型配置指导 本任务旨在提供Flume常用模块的性能差异,用于指导用户进行合理的Flume业务配置,避免出现前端Source和后端Sink性能不匹配进而导致整体业务性能不达标的场景。 本任务只针对于单通道的场景进行比较说明。 Flume业务配置及模
查看Flink应用运行结果 Flink应用程序运行完成后,您可以查看运行结果数据,也可以通过Flink WebUI查看应用程序运行情况。 操作步骤 查看Flink应用运行结果数据。 当用户查看执行结果时,需要在Flink的web页面上查看Task Manager的Stdout日志。
Json函数和运算符 Cast to JSON SELECT CAST(9223372036854775807 AS JSON); -- JSON '9223372036854775807' Cast from JSON SELECT CAST(JSON '[1,23,456]'
bloom.num_entries 存储在布隆过滤器中的条目数。 假设maxParquetFileSize为128MB,averageRecordSize为1024B,因此,一个文件中的记录总数约为130K。 默认值(60000)大约是此近似值的一半。 注意: 将此值设置的太低,将产生
Flink性能调优规则 及时对Hudi表进行compaction防止Hudi Source算子Checkpoint完成时间过长 当Hudi Source算子Checkpoint完成时间长时,可检查该Hudi表compaction是否正常。因为当长时间不做compaction时list性能会变差。
配置内存 操作场景 Spark是内存计算框架,计算过程中内存不够对Spark的执行效率影响很大。可以通过监控GC(Garbage Collection),评估内存中RDD的大小来判断内存是否变成性能瓶颈,并根据情况优化。 监控节点进程的GC情况(在客户端的conf/spark-defaults
Flume业务配置指南 本章节适用于MRS 3.x及之后版本。 该操作指导用户完成Flume常用业务的配置。其他一些不太常用的Source、Channel、Sink的配置请参考Flume社区提供的用户手册(http://flume.apache.org/releases/1.9.0
编包并运行Spark应用 操作场景 在程序代码完成开发后,您可以将打包好的jar包上传至Linux客户端环境中运行应用。使用Scala或Java语言开发的应用程序在Spark客户端的运行步骤是一样的。 Spark应用程序只支持在Linux环境下运行,不支持在Windows环境下运行。
MRS 1.9.0.6补丁说明 补丁基本信息 表1 补丁基本信息 补丁号 MRS 1.9.0.6 发布时间 2020-05-20 解决的问题 MRS 1.9.0.6 修复问题列表: MRS Manager MRS Manager支持包周期集群指定节点缩容 MRS大数据组件 解决Hivese提交sql卡顿问题
开启TableStatus多版本特性下,最新tablestatus文件丢失或损坏,如何恢复 问题 开启TableStatus多版本特性下,最新的tablestatus文件丢失或其他异常原因损坏的情况下,如何恢复? 回答 使用当前可得的最近的tablestatus文件进行恢复,分为如下两个场景来进行恢复:
多流Join场景支持配置表级别的TTL时间 本章节适用于MRS 3.3.0及以后版本。 在Flink双流Join场景下,如果Join的左表和右表其中一个表数据变化快,需要较短时间的过期时间,而另一个表数据变化较慢,需要较长时间的过期时间。目前Flink只有表级别的TTL(Time
HyperLogLog函数 HetuEngine使用HyperLogLog数据结构实现rox_distinct()函数。 数据结构 HyperLogLog(hll)是一种统计基数的算法。它实际上不会存储每个元素出现的次数,它使用的是概率算法,通过存储元素的32位hash值的第一个
MRS 2.1.0.2补丁说明 补丁基本信息 表1 补丁基本信息 补丁号 MRS 2.1.0.2 发布时间 2020-04-22 解决的问题 MRS 2.1.0.2 修复问题列表: MRS Manager nodeagent重启后不显示监控信息 长时间提交作业,manager executor进程会内存溢出
十进制函数和操作符 DECIMAL 字面量 可以使用 DECIMAL 'xxxxxxx.yyyyyyy' 语法来定义 DECIMAL 类型的字面量。 DECIMAL 类型的字面量精度将等于字面量(包括尾随零和前导零)的位数。范围将等于小数部分(包括尾随零)的位数。 示例字面量 数据类型
Flume常用配置参数 MRS 3.x之前版本需在“properties.properties”文件中配置。 MRS 3.x及之后版本,部分参数可在Manager界面配置。 基本介绍 使用Flume需要配置Source、Channel和Sink,各模块配置参数说明可通过本节内容了解。