检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
解决重启NodeManager后缩容worker,container未释放的问题。 HetuEngine非安全模式下支持Ranger鉴权。 解决HetuEngine支持代理用户鉴权的问题。 解决HetuEngine函数unix_timestamp转换结果比实际落后8小时的问题。 解决增加HetuEngine查询Hive
hiveuser 新创建的拥有Hive权限的用户。 密码 xxx 填写用户密码,此处填写为修改后的hiveuser用户密码。 开启LDAP认证 否 通过代理连接的时候,此项可配置。 OBS支持 是 开启后,在创建Hive表时,您可以指定将表存储在OBS中。 访问标识(AK) xxxxx 此处AK/SK对应的账号应具备OBS
表1 Avro Source常用配置 参数 默认值 描述 channels - 与之相连的Channel,可以配置多个。用空格隔开。 在单个代理流程中,是通过channel连接sources和sinks。一个source实例对应多个channels,但一个sink实例只能对应一个channel。
表1 Avro Source常用配置 参数 默认值 描述 channels - 与之相连的Channel,可以配置多个。用空格隔开。 在单个代理流程中,是通过channel连接sources和sinks。一个source实例对应多个channels,但一个sink实例只能对应一个channel。
streaming.blockInterval 在被存入Spark之前Spark Streaming Receiver接收数据累积成数据块的间隔(毫秒)。推荐最小值为50毫秒。 200ms spark.streaming.receiver.maxRate 每个Receiver接收数据的最大速率(
Master节点数量大于等于3个,小于等于11个。 节点组数量总和小于等于10个,非Master节点组中节点数量总和小于等于10000个。 管控数合设 生产环境或商用环境不推荐使用此场景。 管理节点、控制节点和数据节点合并部署时,集群性能和可靠性都会产生较大影响。 如节点数量满足需求,建议将数据节点单独部署。 M
离线重启:会断服,耗时短。 登录MRS控制台或FusionInsight Manager界面。 重启相关组件,可以采用重启集群或者重启组件方式。 方式一(推荐):重启集群,建议在业务空闲时间重启。 在FusionInsight Manager界面,选择“集群 > 概览 > 更多”,重启集群或者滚
rocksdb.bottommost_compression snappy 底层使用重量级的压缩类型,减少空间。因为底层的数据可能是冷数据,如果要启用,推荐使用zstd或者zlib 取值范围:null、snapp、zlib、bzip2、lz4、lz4hc、xpress、zstd state.backend
效。使得Spark Streaming和Kafka可以很好地整合在一起。总体来说,这些特性使得流处理管道拥有高容错性、高效性及易用性,因此推荐使用Direct Streaming方式处理数据。 在一个Spark Streaming应用开始时(也就是Driver开始时),相关的St
streaming.blockInterval 在被存入Spark之前Spark Streaming Receiver接收数据累积成数据块的间隔(毫秒)。推荐最小值为50毫秒。 200ms spark.streaming.receiver.maxRate 每个Receiver接收数据的最大速率(
离线重启:会断服,耗时短。 登录MRS管理控制台或FusionInsight Manager界面。 重启相关组件,可以采用重启集群或者重启组件方式。 方式一(推荐):重启集群,建议在业务空闲时间重启。 在FusionInsight Manager界面,选择“集群 > 概览 > 更多”,重启集群或者滚
慎用正则表达式函数REGEXP 正则表达式是非常耗时的操作,对比加减乘除通常有百倍的性能开销,而且正则表达式在某些极端情况下可能会进入无限循环,导致作业阻塞。推荐首先使用LIKE。正则函数包括: REGEXP REGEXP_EXTRACT REGEXP_REPLACE 【示例】 使用正则表达式: SELECT
1版本打了补丁后,如果需要添加服务,需要先卸载补丁,然后添加服务,再次重新安装补丁。 MRS 3.2.0-LTS.1版本打了补丁后,禁止在管理面执行重装主机,重装软件的操作。 MRS 3.2.0-LTS.1版本打了补丁后,如果集群有安装IoTDB组件,在对接CES的时候,需要关闭该组件的指标上报。 MRS
ttl参数来控制维表数据的加载周期,默认值为60min。 Hudi维表数据会被加载到Flink TaskManager Heap中,所以不推荐大于10万行记录的Hudi表作为维表。 维表的新增、更新数据需要等到下一次加载周期后,才能被加载进来参与计算。 SQL示例如下: CREATE
适用于MRS 3.2.0及之后版本。 materialized.view.rewrite.timeout:物化视图的重写超时控制(单位:秒),推荐5s。物化视图重写时会消耗一定的时间,添加该参数可限制重写所带来的性能损耗,物化视图重写超时后会执行原始SQL。 若使用Session级别
不建议在分区表上启用该特性。 carbon.batch.sort.size.inmb - 指定在数据加载期间为批处理排序而考虑的数据大小。推荐值为小于总排序数据的45%。该值以MB为单位。 说明: 如果没有设置参数值,那么默认情况下其大约等于“sort.inmemory.size
不建议在分区表上启用该特性。 carbon.batch.sort.size.inmb - 指定在数据加载期间为批处理排序而考虑的数据大小。推荐值为小于总排序数据的45%。该值以MB为单位。 说明: 如果没有设置参数值,那么默认情况下其大约等于“sort.inmemory.size
ka Sink将写入对应的Partition。 kafka.consumer.group.id flume Kafka消费组ID。多个源或代理中设置相同的ID表示它们是同一个consumer group。 kafka.security.protocol SASL_PLAINTEXT
效。使得Spark Streaming和Kafka可以很好地整合在一起。总体来说,这些特性使得流处理管道拥有高容错性、高效性及易用性,因此推荐使用Direct Streaming方式处理数据。 Receiver 在一个Spark Streaming应用开始时(也就是Driver开
“subnet_id”和“subnet_name”必须至少填写一个,当这两个参数同时配置但是不匹配同一个子网时,集群会创建失败,请仔细填写参数。推荐使用“subnet_id”。 取值范围: 不涉及 默认取值: 不涉及 subnet_name 是 String 参数解释: 子网名称。通过VPC管理控制台获取子网名称: