检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
(可选)如果需要立即进行作业开发,可以在作业开发界面进行作业配置。 进行作业开发时,系统支持对作业添加锁的功能,锁定作业的用户具备该作业的所有权限,其他用户不具备被锁定的作业的开发、启动和删除等权限,但可通过强制获取锁来具备作业的所有权限。开启该功能后,可直接通过单击“锁定作业”、“解锁作业”、“强制获取锁”来获取相应的权限。
在Spark结构流应用中,跨批次统计每个session期间发生了多少次event以及本session的开始和结束timestamp;同时输出本批次被更新状态的session。
读”的特征,而数据“写”操作是顺序写,也就是在文件创建时的写入或者在现有文件之后的添加操作。HDFS保证一个文件在一个时刻只被一个调用者执行写操作,而可以被多个调用者执行读操作。 HDFS基本原理 Hive组件 Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工
true:开启Join下推。 false(默认值):关闭Join下推。 false join-pushdown.strategy 用于评估Join操作是否被下推的策略。 AUTOMATIC(默认值):启用基于成本的连接下推。 EAGER:尽可能下推Join。即使表统计信息不可用,EAGER也可以
> 配置”。 在搜索框中搜索“obs_cooldown_enable”参数,修改该参数值为“true”。 (可选)如果本地磁盘的数据冷却并被存储到OBS上后,在某个时间段又需要将相关数据存储到本地磁盘上,可选择“全部配置 > BE(角色) > 自定义”,在自定义参数“be.conf
入数据时,在数据转换步骤中,建议“CHAR”或“VARCHAR”类型字段设置数据长度为“-1”,使全部数据正常导入,避免实际数据字符太长时被部分截取,出现缺失。 使用generic-jdbc-connector导入数据时,在数据转换步骤中,需要将原数据中时间类型数值对应的字段,设
入数据时,在数据转换步骤中,建议“CHAR”或“VARCHAR”类型字段设置数据长度为“-1”,使全部数据正常导入,避免实际数据字符太长时被部分截取,出现缺失。 使用generic-jdbc-connector导入数据时,在数据转换步骤中,需要将原数据中时间类型数值对应的字段,设
create_table_query列含POPULATE 字段的表为内嵌表,在创建视图的时候初始化视图数据,缺点是初始化视图数据期间,新插入的数据被忽略;不含POPULATE 字段的表为聚合表,新插入的数据直接插入到视图表和支持表中,而之前的数据通过手动加载的方式插入视图和支持表。聚合表和内嵌表的建表操作需分别处理。
盘中。 Dependency(RDD的依赖) RDD的依赖分别为:窄依赖和宽依赖。 图1 RDD的依赖 窄依赖:指父RDD的每一个分区最多被一个子RDD的分区所用。 宽依赖:指子RDD的分区依赖于父RDD的所有分区。 窄依赖对优化很有利。逻辑上,每个RDD的算子都是一个fork/
盘中。 Dependency(RDD的依赖) RDD的依赖分别为:窄依赖和宽依赖。 图1 RDD的依赖 窄依赖:指父RDD的每一个分区最多被一个子RDD的分区所用。 宽依赖:指子RDD的分区依赖于父RDD的所有分区。 窄依赖对优化很有利。逻辑上,每个RDD的算子都是一个fork/
解决的问题 MRS 3.1.2-LTS.2.2 修复问题列表: 解决Hive元数据库查询网络阻塞问题 解决MRS对接DCS做缓存,缓存键一天多次被清空问题 解决CBG访问OBS概率性无权限问题 解决长时间使用客户端出现死锁问题 解决Yarn运行偶现RM主备切换问题 解决Spark SQL外表动态分区执行insert
盘中。 Dependency(RDD的依赖) RDD的依赖分别为:窄依赖和宽依赖。 图1 RDD的依赖 窄依赖:指父RDD的每一个分区最多被一个子RDD的分区所用。 宽依赖:指子RDD的分区依赖于父RDD的所有分区。 窄依赖对优化很有利。逻辑上,每个RDD的算子都是一个fork/
复问题。 解决Hudi compaction比clean运行快导致数据无法读取的问题。 解决compaction任务失败残留了异常文件没有被清理,导致Spark读Hudi时报“xx is not a Parquet file”异常的问题。 解决Spark作业读上游读库表,excutor报错找不到该表OBS
盘中。 Dependency(RDD的依赖) RDD的依赖分别为:窄依赖和宽依赖。 图1 RDD的依赖 窄依赖:指父RDD的每一个分区最多被一个子RDD的分区所用。 宽依赖:指子RDD的分区依赖于父RDD的所有分区。 窄依赖对优化很有利。逻辑上,每个RDD的算子都是一个fork/
set命令 set命令,用于设置客户端和服务端属性,支持如下属性: server表示设置服务端连接属性。 当设置了-u属性时,-h、-p、-w被会忽略。 option表示设置客户端属性。 option通过键值对来赋值,例如:set option --name verbose --value
描述:将一个二进制串编码为UTF-8格式字符串。无效的UTF-8序列将被参数replace替换。参数replace必须为单个字符或空(以免无效字符被移除)。 select from_utf8(X'70 61 6e 64 61 b1','!'); _col0 -------- panda
WITH(xxx) AS”,完整语句模板可参考表1。 表2 物化视图改写场景示例 场景 描述 创建物化视图SQL样例 用户查询SQL样例 查询SQL是否能被改写 备注 全表查询 最基本的全表查询场景 select * from tb_a; select * from tb_a; 否 创建全表扫描的物化视图没有实际意义,不支持
dler列对用户不可见。除SORT_COLUMNS表属性外,任何DDL命令和属性都不允许包含handler列。 生成的handler列默认被视为排序列。如果SORT_COLUMNS不包含任何sourcecolumns,则将handler列追加到现有的SORT_COLUMNS最后。
dler列对用户不可见。除SORT_COLUMNS表属性外,任何DDL命令和属性都不允许包含handler列。 生成的handler列默认被视为排序列。如果SORT_COLUMNS不包含任何sourcecolumns,则将handler列追加到现有的SORT_COLUMNS最后。
源以vcores和内存等形式存在。 default_resource_select String 缺省资源选择表达式。它被使用在当应用没有被指定一个提交区间值时。 user_acl array 队列中被给予user权限的使用者。 admin_acl array 该队列中被给予admin权限的使用者。