检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用Spark BulkLoad工具同步数据到HBase表中 Spark BulkLoad工具支持快速同步Hive或Spark表数据到HBase表中,支持全量或增量导入ORC/PAQUET等格式的表数据。 使用Spark BulkLoad同步数据类型数据到HBase表中时,存在以下限制:
veSQL等)作业类型无法克隆 克隆的作业只能并行执行,不保证执行顺序 包周期集群不允许克隆集群作业 普通集群支持克隆作业,安全集群不支持克隆作业 集群相关配置是否支持克隆情况参见表1。 表1 MRS集群参数克隆说明 参数 说明 计费模式、版本类型、集群版本、集群类型、组件列表、
使用Scala或Java语言开发的应用程序在Flink客户端的运行步骤是一样的。 基于YARN集群的Flink应用程序不支持在Windows环境下运行,只支持在Linux环境下运行。 操作步骤 在IntelliJ IDEA中,在生成Jar包之前配置工程的Artifacts信息。 在IDEA主页面,选择“File
i时,不支持定义TINYINT、SMALLINT和TIME类型。 Flink对Hudi表的COW表、MOR表类型读写支持详情见表1。 表1 Flink对Hudi表的读写支持 Flink SQL COW表 MOR表 批量写 支持 支持 批量读 支持 支持 流式写 支持 支持 流式读
配符*。 图5 为Spark用户组赋予OBS路径的读和写权限 不支持对视图表进行级联授权。 仅支持对数据库/表进行级联授权操作,不支持对分区做级联权限,如果分区路径不在表路径下,则需要用户手动授权分区路径。 不支持对Hive Ranger策略中的“Deny Conditions”进行级联授权,即“Deny
$tableName drop partition (dt='2021-10-*') // 删除10月份的分区 注意事项 模糊匹配去删除多分区,仅支持支持*,不支持复杂的正则。 系统响应 可在driver日志和客户端中查看命令运行成功或失败。 父主题: Hudi DML语法说明
目标长度,则会截断。 VARCHAR->DATE:仅支持按照“-”分隔的日期,例如2000-01-01。 VARCHAR->TIME:仅支持严格的日期格式:HH:MM:SS.XXX。 VARCHAR->TIME ZONE:仅支持严格的格式,例如01:02:03.456 America/Los_Angeles。
配置MRS集群远程运维 当用户使用集群过程中出现问题需要华为云支持人员协助解决时,用户可先联系华为云支持人员,再通过运维授权功能授权华为云支持人员访问用户机器的权限用于定位问题,或通过“日志共享”功能提供特定时间段内的日志给华为云支持人员以便定位问题。 开启MRS集群远程运维授权 登录MRS管理控制台。
用户可修改配置开关,实现创建临时函数不需要ADMIN权限。当该选项配置成false时,存在一定的安全风险。 安全模式支持配置创建临时函数是否需要ADMIN权限功能,而普通模式不支持该功能。 操作步骤 进入Hive服务配置页面: MRS 3.x之前版本,单击集群名称,登录集群详情页面,选择“组件管理
表示任务下次启动,与上一次运行的时间间隔,支持“小时”或“天”。 备份策略 首次全量备份,后续增量备份 可以选择下策略: 首次全量备份,后续增量备份。 每次都全量备份。 每n次进行一次全量备份。 手动备份 无 - 需要手动运行任务才能进行备份。 在“备份配置”指定需要备份的数据。 支持备份元数据和业务数据。
2x的JobHistory时,由于使用了SSL安全加密,需要确保curl命令所支持的SSL协议在集群中已添加支持。若不支持,可采用如下两种方案解决: 修改集群中配置的SSL协议。例如,若curl仅支持TLSv1协议(TLSv1协议存在安全漏洞,请谨慎使用),修改方法如下: 登录FusionInsight
快速使用IoTDB IoTDB是针对时间序列数据收集、存储与分析一体化的数据管理引擎。它具有体量轻、性能高、易使用的特点,支持对接Hadoop与Spark生态,适用于工业物联网应用中海量时间序列数据高速写入和复杂分析查询的需求。 背景信息 假定某某集团旗下有3个生产线,每个生产线
如需自定义集群部署方式,可在创建集群时的“集群类型”选择“自定义”,实现用户自主定义集群的进程实例在集群节点中的部署方式。 仅MRS 3.x及之后版本支持创建自定义拓扑集群。 自定义集群可实现以下功能: 管控分离部署,管理角色和控制角色分别部署在不同的Master节点中。 管控合设部署,管理
从零开始使用Kudu Kudu是专为Apache Hadoop平台开发的列式存储管理器。Kudu具有Hadoop生态系统应用程序的共同技术特性:可水平扩展,并支持高可用性操作。 前提条件 已安装集群客户端,例如安装目录为“/opt/hadoopclient”,以下操作的客户端目录只是举例,请根据实际安装目录修改。
从零开始使用Kudu Kudu是专为Apache Hadoop平台开发的列式存储管理器。Kudu具有Hadoop生态系统应用程序的共同技术特性:可水平扩展,并支持高可用性操作。 前提条件 已安装集群客户端,例如安装目录为“/opt/hadoopclient”,以下操作的客户端目录只是举例,请根据实际安装目录修改。
Mining):在海量数据基础上进行复杂的挖掘分析,可支持各种数据挖掘和机器学习算法。 流式处理(Streaming Processing):支持秒级延迟的流式处理,可支持多种外部数据源。 查询分析(Query Analysis):支持标准SQL查询分析,同时提供DSL(DataFrame), 并支持多种外部输入。 本文档重点介绍Spark、Spark
Mining):在海量数据基础上进行复杂的挖掘分析,可支持各种数据挖掘和机器学习算法。 流式处理(Streaming Processing):支持秒级延迟的流式处理,可支持多种外部数据源。 查询分析(Query Analysis):支持标准SQL查询分析,同时提供DSL(DataFrame), 并支持多种外部输入。 本文档重点介绍Spark、Spark
Mining):在海量数据基础上进行复杂的挖掘分析,可支持各种数据挖掘和机器学习算法。 流式处理(Streaming Processing):支持秒级延迟的流式处理,可支持多种外部数据源。 查询分析(Query Analysis):支持标准SQL查询分析,同时提供DSL(DataFrame), 并支持多种外部输入。 本文档重点介绍Spark、Spark
Mining):在海量数据基础上进行复杂的挖掘分析,可支持各种数据挖掘和机器学习算法。 流式处理(Streaming Processing):支持秒级延迟的流式处理,可支持多种外部数据源。 查询分析(Query Analysis):支持标准SQL查询分析,同时提供DSL(DataFrame), 并支持多种外部输入。 本文档重点介绍Spark、Spark
管理面提交作业方式不支持开启动态脱敏特性。 配置场景 Spark动态脱敏开启后,配置脱敏列的数据可以参与计算,计算结果输出时不可见,在集群内脱敏策略会根据血缘关系自动传递,更大的发挥数据的价值同时,保障数据的隐私性。 使用约束 不支持Hudi表的脱敏。 不支持非SQL使用方法的脱敏。