检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用Spark执行Hudi样例程序(Python) 使用python写Hudi表 下面代码片段仅为演示,具体代码参见:sparknormal-examples.SparkOnHudiPythonExample.hudi_python_write_example。 插入数据: #insert
使用Loader从HDFS导出数据到ClickHouse 本章节适用于MRS 3.3.0及以后版本。 操作场景 该任务指导用户使用Loader将文件从HDFS导出到ClickHouse。 前提条件 在FusionInsight Manager创建一个角色,添加ClickHouse
ALM-43023 IndexServer2x进程Full GC次数超出阈值 告警解释 系统每60秒周期性检测IndexServer2x进程的Full GC次数,当检测到IndexServer2x进程的Full GC次数超出阈值(连续3次检测超过12次)时产生该告警。用户可通过“运维
ALM-18019 JobHistoryServer非堆内存使用率超过阈值 告警解释 系统每30秒周期性检测MapReduce JobHistoryServer非堆内存使用率,并把实际的MapReduce JobHistoryServer非堆内存使用率和阈值相比较。当MapReduce
Tez日志介绍 日志描述 日志路径:Tez相关日志的默认存储路径为“/var/log/Bigdata/tez/角色名”。 TezUI:“/var/log/Bigdata/tez/tezui”(运行日志),“/var/log/Bigdata/audit/tez/tezui”(审计日志)。
IoTDB日志介绍 日志描述 日志路径:IoTDB相关日志的默认存储路径为“/var/log/Bigdata/iotdb/iotdbserver”(运行日志)、“/var/log/Bigdata/audit/iotdb/iotdbserver”(审计日志)。 日志归档规则:IoT
配置BulkloadTool工具支持解析自定义分隔符 操作场景 Phoenix提供了批量数据导入工具CsvBulkloadTool,相关特性介绍请参见https://phoenix.apache.org/bulk_dataload.html,在此特性基础上,支持导入自定义分隔符文
吞吐量,否则在极限负载的场景下,Source往Channel的写入速度大于Sink从Channel取出的速度,从而导致Channel频繁被写满,进而影响性能表现。 Avro Source和Avro Sink一般都是成对出现,用于多个Flume Agent间进行数据中转,因此一般场景下Avro
name from dataorigin成功,符合预设的权限。 如果用户在执行命令时指定了HDFS路径,需要给该用户添加HDFS路径的读、写、执行权限,详情请参考添加HDFS的Ranger访问权限策略。也可以不配置HDFS的Ranger策略,通过之前Hive权限插件的方式,给角色
如果报没有权限读写本地目录的错误,需要指定“spark.sql.streaming.checkpointLocation”参数,且用户必须具有该参数指定的目录的读、写权限。 运行Python样例代码: 运行Python样例代码时需要将打包后的Java项目的jar包添加到streamingClient010/目录下。
Tez日志介绍 本章节适用于MRS 3.x及后续版本。 日志描述 日志路径:Tez相关日志的默认存储路径为“/var/log/Bigdata/tez/角色名”。 TezUI:“/var/log/Bigdata/tez/tezui”(运行日志),“/var/log/Bigdata/
ALM-43018 JobHistory2x进程Full GC次数超出阈值 告警解释 系统每60秒周期性检测JobHistory2x进程的Full GC次数,当检测到JobHistory2x进程的Full GC次数超出阈值(连续3次检测超过12次)时产生该告警。用户可通过“运维 >
FlinkSQL OVER窗口支持超期退窗 本章节适用于MRS 3.5.0及以后版本。 FlinkSQL OVER窗口新增数据超期退窗功能,当已有数据过期且没有新数据到来时,OVER聚合结果刷新并向下游算子发送最新的计算结果,可通过over.window.interval配置该功能,配置如下:
聚合函数 聚合函数对一组值进行运算,最终获得一个单值。 除count()、count_if()、max_by()、min_by()和approx_distinct()外,其他聚合函数都忽略空值,并在没有输入行或所有值都为空时返回空值。例如sum()返回null而不是零,并且avg
ALM-18017 NodeManager非堆内存使用率超过阈值 告警解释 系统每30秒周期性检测Yarn NodeManager非堆内存使用率,并把实际的Yarn NodeManager非堆内存使用率和阈值相比较。当Yarn NodeManager非堆内存使用率超出阈值(默认为最大非堆内存的90%)时产生该告警。
解锁MRS集群LDAP用户 在用户输入错误密码次数大于允许输入的错误次数,造成用户被锁定的场景下,用户可以通过Manager为锁定的用户解锁(仅支持解锁通过Manager创建的用户),也可以通过登录MRS集群节点后使用命令进行解锁。 如果服务出现异常状态,有可能是系统内部用户被锁
Flume日志介绍 日志描述 日志路径:Flume相关日志的默认存储路径为“/var/log/Bigdata/角色名”。 FlumeServer:“/var/log/Bigdata/flume/flume” FlumeClient:“/var/log/Bigdata/flume-client-n/flume”
Queue[RDD[String]]() sent.enqueue(ssc.sparkContext.makeRDD(sentData)) //创建写数据的DStream。 val wStream = ssc.queueStream(sent) //使用writetokafka
RBO)和基于代价的优化器(Cost-Based Optimization,CBO)。 RBO RBO使用的规则是根据经验形成的,只要按照这个规则去写SQL语句,无论数据表中的内容怎样、数据分布如何,都不会影响到执行计划。 CBO CBO是根据实际数据分布和组织情况,评估每个计划的执行代价,从而选择代价最小的执行计划。
Queue[RDD[String]]() sent.enqueue(ssc.sparkContext.makeRDD(sentData)) //创建写数据的DStream。 val wStream = ssc.queueStream(sent) //使用writetokafka