检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Spark动态脱敏开启后,配置脱敏列的数据可以参与计算,计算结果输出时不可见,在集群内脱敏策略会根据血缘关系自动传递,更大的发挥数据的价值同时,保障数据的隐私性。 使用约束 不支持Hudi表的脱敏。 不支持非SQL使用方法的脱敏。 不支持涉及直接读写HDFS的操作的脱敏。 不支持复杂类型array、map、struct的脱敏。
hadoop.hbase.hindex.client.HIndexAdmin中提供的方法来管理HIndexes。 该类提供了将索引添加到现有表的方法: 根据用户是否希望在添加索引操作期间构建索引数据,有两种不同的方法可将索引添加到表中: addIndicesWithData() addIndices()
基于简化使用的角度,针对大数据量的表,可以通过采用Bucket索引来避免状态后端的复杂调优。 如果Bucket索引+分区表的模式无法平衡Bueckt桶过大的问题,还是可以继续采用Flink状态索引,按照规范去优化对应的配置参数即可。 建议 基于Flink的流式写入的表,在数据量超
Restart时,升主后的ResourceManager就可以通过加载之前的主ResourceManager的状态信息,并通过接收所有NodeManager上container的状态信息,重构运行状态继续执行。这样应用程序通过定期执行检查点操作保存当前状态信息,就可以避免工作内容的丢失。 当启用NodeManager
failover proxy provider中,一旦某进程中的一个NameNode发生故障,在同一进程中的所有HDFS client实例都会尝试再次连接NameNode,导致应用长时间等待超时。 当位于同一JVM进程中的客户端对无法访问的NameNode进行连接时,会对系统造成负担。为了避
FS/OBS数据源的输入路径目录名、输入路径的子目录名及子文件名不能包含特殊字符/\"':;,中的任意字符。 如果设置的任务需要使用指定YARN队列功能,该用户需要已授权有相关YARN队列的权限。 设置任务的用户需要获取该任务的执行权限,并获取该任务对应的连接的使用权限。 操作步骤
由于某些异常操作或者磁盘损坏等原因导致Hive存储的数据文件出现异常,异常的数据文件会导致任务运行失败或者数据结果不正确。 该工具用于对常见的非文本类的数据文件格式进行异常排查。 该章节内容仅适用MRS 3.2.0及之后版本。 操作步骤 使用omm用户登录安装了Hive服务的节点,执行以下命令进入Hive安装目录。
启用/禁用HBase二级索引 查询HBase二级索引列表 使用HBase二级索引读取数据 删除HBase二级索引 HBase Region的多点分割 HBase ACL安全配置 父主题: HBase开发指南
MRS当前支持包年/包月和按需计费模式,以满足不同场景下的用户需求。 包年/包月:根据集群购买时长,一次性支付集群费用。最短时长为1个月,最长时长为1年。 按需计费:节点按实际使用时长计费,计费周期为一小时。 表1列出了两种计费模式的区别。 表1 计费模式 计费模式 包年/包月 按需计费
“Spark输入”算子,将SparkSQL表的指定列转换成同等数量的输入字段。 输入与输出 输入:SparkSQL表列 输出:字段 参数说明 表1 算子参数说明 参数 含义 类型 是否必填 默认值 Spark数据库 SparkSQL的数据库名称。 String 否 default
priority=<priority> [path1] [path2] 命令行中参数含义为: <jar>:指定需要运行的jar包名称。 [mainClass]:指jar包应用工程中的类的main方法。 <priority>:指定任务的优先级,其取值可为:VERY_HIGH、HIGH、NORMAL、LOW、VERY_LOW。
priority=<priority> [path1] [path2] 命令行中参数含义为: <jar>:指定需要运行的jar包名称。 [mainClass]:指jar包应用工程中的类的main方法。 <priority>:指定任务的优先级,其取值可为:VERY_HIGH、HIGH、NORMAL、LOW、VERY_LOW。
结束时间 慢查询的SQL语句的执行结束时间。 查询时长(s) 慢查询的SQL语句当前累计执行的时间,单位是秒。 用户 执行慢查询的SQL语句的ClickHouse用户。 客户端IP 提交该慢查询SQL语句的客户端IP。 占用的内存空间(MB) 慢查询SQL语句占用的内存大小统计,单位是MB。
迁移工具时产生的错误日志。 日志级别 ClickHouse提供了如表2所示的日志级别。 运行日志的级别优先级从高到低分别是error、warning、trace、information、debug,程序会打印高于或等于所设置级别的日志,设置的日志等级越高,打印出来的日志就越少。 表2
在ReplicatedMergeTree队列中允许同时使用TTL合并部件的任务数。 merge_tree.max_number_of_merges_with_ttl_in_pool CPU核数 在ReplicatedMergeTree队列中允许TTL合并部件的线程池。 当集群写入压力较大,不建议修改此配置
以下代码片段在com.huawei.bigdata.hbase.examples包的“HIndexExample”类的enableIndicesExample方法中。 enableIndices ():启用指定的索引(索引状态将从INACTIVE变为ACTIVE状态),因此可用于扫描索引。
index_name 索引表的名称。表名称应由字母数字字符和下划线(_)特殊字符组成。 db_name 数据库的名称。数据库名称应由字母数字字符和下划线(_)特殊字符组成。 table_name 数据库中的表名称。表名称应由字母数字字符和下划线(_)特殊字符组成。 col_name 表中的列名称。支
导入并配置Oozie样例工程 操作场景 将下载的样例工程导入到Windows开发环境IDEA中即可开始样例学习。 前提条件 已按照准备本地应用开发环境章节准备好开发用户,例如developuser,并下载用户的认证凭据文件到本地。 用户需要具备Oozie的普通用户权限,HDFS访问权限,Hi
服务器输入路径目录名、输入路径的子目录名及子文件名不能包含特殊字符/\"':;,中的任意字符。 如果设置的作业需要使用指定YARN队列功能,该用户需要已授权有相关YARN队列的权限。 设置任务的用户需要获取该任务的执行权限,并获取该任务对应的连接的使用权限。 操作步骤 设置作业基本信息
导入并配置Oozie样例工程 操作场景 将下载的样例工程导入到Windows开发环境IDEA中即可开始样例学习。 前提条件 已按照准备本地应用开发环境章节准备好开发用户,例如developuser,并下载用户的认证凭据文件到本地。 用户需要具备Oozie的普通用户权限,HDFS访问权限,Hi