检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
系统判断流程可参考下图所示,如果组件资源请求未匹配到Ranger中的权限策略,系统默认将拒绝访问。但是对于HDFS和Yarn,系统会将决策下放给组件自身的访问控制层继续进行判断。 例如要将一个文件夹FileA的读写权限授权给用户组groupA,但是该用户组内某个用户UserA除外,这时可以增加一个允许条件及一个例外条件即可实现。
4:如果一个物理机架的主机个数很多,则需要将其分隔为多个逻辑机架,以满足策略1。不建议物理机架中包含的主机有太大的差异,这样会降低集群的可靠性。 策略 5:建议机架的第一层为默认的“default”或其他值,但在集群中保持一致。 策略 6:每个机架所包含的主机个数不能小于3。 策略 7:一个集群的逻辑机架数,不建议多于50个(过多则不便于维护)。
提供At-Least Once,At-Most Once,Exactly Once消息可靠传递。消息被处理的状态是在Consumer端维护,需要结合应用层实现Exactly Once。 高吞吐 同时为发布和订阅提供高吞吐量。 持久化 将消息持久化到磁盘,因此可用于批量消费以及实时应用程序。通过
//指定的根目录。 fd5f5b3d08628d83038a30302b611 //以jobID命名的第二层目录。 chk-X // "X"为checkpoint编号,第三层目录。 4f854bf4-ea54-4595-a9d9-9b9080779ffe //checkpoint源文件。
手动恢复Doris数据 Doris支持将当前数据以文件的形式,通过Broker备份到远端存储系统中。再通过恢复命令,从远端存储系统中将数据恢复到任意Doris集群中。可实现将Doris数据定期进行快照备份及数据迁移操作。 备份恢复相关的操作目前只允许拥有ADMIN权限的用户执行。
GC时间超出阈值,会影响到Hive数据的读写。 12000ms Hive已经使用的HDFS空间占可使用空间的百分比 16001 Hive数据仓库空间使用率超过阈值 系统可能无法正常写入数据,导致部分数据丢失。 85.0% MetaStore直接内存使用率统计 16006 Hive服务进程直接内存使用超出阈值
lickHouse。分布式join的查询转成本地表的join查询,不仅省去大量的节点间数据传播,同时本地表参与计算的数据量也会少很多。业务层再基于所有分片本地join的结果进行数据汇总,性能会有数量级的提升。 设置合理的part大小 min_bytes_to_rebalance_
orm有如下几个特点: 适用场景广泛 易扩展,可伸缩性高 保证无数据丢失 容错性好 易于构建和操控 多语言 Storm作为计算平台,在业务层为用户提供了更为易用的业务实现方式:CQL(Continuous Query Language—持续查询语言)。CQL具有以下几个特点: 使
//指定的根目录。 fd5f5b3d08628d83038a30302b611 //以jobID命名的第二层目录。 chk-X // "X"为checkpoint编号,第三层目录。 4f854bf4-ea54-4595-a9d9-9b9080779ffe //checkpoint源文件。
Job称为订阅者。 注册服务器 保存NettyServer的IP、端口以及NettySink的并发度信息的第三方存储器。 总体架构是一个三层结构,由外到里依次是: NettySink->NettyServer->NettyServerHandler NettySource->Ne
指定租户是否是一个叶子租户: 选择“叶子租户”:当前租户为叶子租户,不支持添加子租户。 选择“非叶子租户”:当前租户为非叶子租户,支持添加子租户,但租户层级不能超过5层。 计算资源 为当前租户选择动态计算资源。 选择“Yarn”时,系统自动在Yarn中以子租户名称创建任务队列。 如果是叶子租户,叶子租户可直接提交到任务队列中。
添加采集路径。 采集路径不能重复配置,即同一主机下的同一路径,即使跨日志组和日志流,也只能配置一次。 采集路径支持递归路径,**表示递归5层目录。 采集路径支持模糊匹配,匹配目录或文件名中的任何字符。 采集路径如果配置的是目录,示例:/var/logs/,则只采集目录下后缀为“.log”、“
在本地Windows环境中编包并运行Spark程序 操作场景 在程序代码完成开发后,您可以在Windows环境中运行应用。使用Scala或Java语言开发的应用程序在IDEA端的运行步骤是一样的。 Windows环境中目前只提供通过JDBC访问Spark SQL的程序样例代码的运行,其他样例代码暂不提供。
fd5f5b3d08628d83038a30302b611表示以jobID命名的第二次目录。 chk-X中"X"为checkpoint编号,第三层目录。 4f854bf4-ea54-4595-a9d9-9b9080779ffe表示checkpoint源文件。 Flink在集群模式下checkpoint将文件放到HDFS。
定义年龄/修改时间的条件。 <atime operator="gt"> 定义访问时间的条件。 对于手动迁移规则,不需要条件。 行为列表: 将存储策略设置为给定的数据层名称 迁移到其他文件夹 为文件设置新的副本数 删除文件 设置节点标签(NodeLabel) 表2 行为类型 行为类型 描述 所需参数 MARK
定义年龄/修改时间的条件。 <atime operator="gt"> 定义访问时间的条件。 对于手动迁移规则,不需要条件。 行为列表: 将存储策略设置为给定的数据层名称 迁移到其他文件夹 为文件设置新的副本数 删除文件 设置节点标签(NodeLabel) 表2 行为类型 行为类型 描述 所需参数 MARK
在本地Windows环境中编包并运行Spark程序 操作场景 在程序代码完成开发后,您可以在Windows环境中运行应用。使用Scala或Java语言开发的应用程序在IDEA端的运行步骤是一样的。 Windows环境中目前只提供通过JDBC访问Spark SQL的程序样例代码的运行,其他样例代码暂不提供。
统计周期内网口的平均读吞吐率(MAC层)。 80% 网络写信息 写包错误率 统计采集周期内该主机上该网口的写包错误率。 0.5% 写包丢包率 统计采集周期内该主机上该网口的写包丢包率。 0.5% 写吞吐率 统计周期内网口的平均写吞吐率(MAC层)。 80% 进程 D状态进程总数 统计周期内主机上D状态进程数量。
据冷热度,并标记出对应的存储策略后,并触发HDFS Auto Data Movement工具进行数据搬迁,调用HDFS冷热数据迁移工具并跨层迁移数据的行为操作。 SET_REPL:为文件设置新的副本数的行为操作。 MOVE_TO_FOLDER:将文件移动到目标文件夹的行为操作。
在Linux环境中编包并运行Spark程序 操作场景 在程序代码完成开发后,您可以上传至Linux客户端环境中运行应用。使用Scala或Java语言开发的应用程序在Spark客户端的运行步骤是一样的。 使用Python开发的Spark应用程序无需打包成jar,只需将样例工程复制到编译机器上即可。