检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Hive常见问题 如何删除所有HiveServer中的永久函数 为什么已备份的Hive表无法执行drop操作 如何在Hive自定义函数中操作本地文件 如何强制停止Hive执行的MapReduce任务 Hive不支持复杂类型字段名称中包含哪些特殊字符 如何对Hive表大小数据进行监控
流处理等),同时存放不同类型和格式的数据。 部分用户(例如银行、政府单位等)对数据安全非常关注,不接受将自己的数据与其他用户放在一起。 这给大数据集群带来了以下挑战: 合理地分配和调度资源,以支持多种应用和作业在集群上平稳运行。 对不同的用户进行严格的访问控制,以保证数据和业务的安全。
Service提升性能 操作场景 Spark系统在运行含shuffle过程的应用时,Executor进程除了运行task,还要负责写shuffle数据,给其他Executor提供shuffle数据。当Executor进程任务过重,导致GC而不能为其他Executor提供shuffle数据时,会影响任务运行。
败的情况。 当前IAM用户名中存在空格时(例如admin 01),不支持添加作业。 单击“作业管理”,在作业列表界面单击“添加”。 “作业类型”选择“Flink”并参考表1配置Flink作业信息。 图1 添加Flink作业 表1 作业配置信息 参数 描述 示例 作业名称 作业名称
Computation):支持迭代计算,有效应对多步的数据处理逻辑。 数据挖掘(Data Mining):在海量数据基础上进行复杂的挖掘分析,可支持各种数据挖掘和机器学习算法。 流式处理(Streaming Processing):支持秒级延迟的流式处理,可支持多种外部数据源。 查询分析(Query Ana
在集群详情页的“概览”页签,单击“IAM用户同步”右侧的“单击同步”进行IAM用户同步。 单击“作业管理”,进入“作业管理”页签。 单击“添加”,添加一个Flink作业。 作业类型:Flink 作业名称:自定义,例如flink_obs_test。 执行程序路径:本示例使用Flink客户端的WordCount程序为例。
通过归档数据直读,您可以直接下载存储类别为归档存储的对象,而无需提前恢复。 关闭 企业项目 将桶加入到企业项目中统一管理。 default 标签 可选。标签用于标识OBS中的桶,以此达到对OBS中的桶进行分类的目的。 - 等待文件系统创建好,单击文件系统名称,选择“文件 > 上传文件”,将数据文件上传至OBS并行文件系统内。
INSERT:插入和CREATE TABLE AS查询。 SELECT:SELECT查询。 clientTags 可选 匹配客户端标签,每个标签都必须在用户提交任务的标签列表里,参见选择器属性的配置中--client-tags选项的配置值。 group 必选 在其中运行查询的资源组。 全局属性
提交Flink任务时launcher-job被Yarn终止如何处理? 提交Flink作业时报错slot request timeout如何处理? DistCP作业导入导出数据常见问题 如何通过Yarn WebUI查看Hive作业对应的SQL语句? 如何查看指定Yarn任务的日志? 添加Hive服务后,提交hiv
列表,单击指定的集群名称,进入集群信息页面。 如需给其他用户开通访问Manager的权限,请执行6~9,添加对应用户访问公网的IP地址为可信范围。 单击弹性公网IP后边的“添加安全组规则”如图1所示。 图1 集群详情页面 进入“添加安全组规则”页面,添加需要开放权限用户访问公网的IP地址段并
2及之后版本ClickHouse服务的节点,必须等退服成功后,才能进行退订操作。 退订包周期集群指定节点操作 关闭待退订节点集群的自动续费功能,具体请参见如何取消自动续费。 登录MRS服务控制台。 选择“现有集群”,单击待退订节点的集群名称进入集群详情页面。 在集群“概览”页单击“IAM用户同步”右侧的“同步”。
查看指定表的元数据信息。该语法目前只能显示列的元数据信息,等效于语法SHOW COLUMNS。 添加EXTENDED关键字会将表的所有元数据信息以“Thrift”序列化的格式显示出来。 添加FORMATTED关键字会将表的元数据信息以表格的形式展示。 示例 显示fruit数据表的列信息:
ADD COLUMNS 命令功能 ADD COLUMNS命令用于为现有表添加新列。 命令语法 ALTER TABLE [db_name.]table_name ADD COLUMNS (col_name data_type,...) TBLPROPERTIES(''COLUMNPROPERTIES
页面主要包括了Jobs、Stages、Storage、Environment和Executors五个部分。Streaming应用会多一个Streaming标签页。 页面入口:在YARN的Web UI界面,查找到对应的Spark应用程序。单击应用信息的最后一列“ApplicationMaster”,即可进入SparkUI页面。
页面主要包括了Jobs、Stages、Storage、Environment、Executors和SQL等部分。Streaming应用会多一个Streaming标签页。 页面入口:请参考登录MRS Manager登录MRS Manager页面,选择“服务管理 > Yarn”,单击“ResourceManager
Spark应用开发常见问题 Spark常用API介绍 structured streaming功能与可靠性介绍 如何添加自定义代码的依赖包 如何处理自动加载的依赖包 运行SparkStreamingKafka样例工程时报“类不存在”问题 SparkSQL UDF功能的权限控制机制
ight Manager页面,选择“系统 > 权限 > 用户”,添加一个人机用户sparkuser,用户组(hadoop、hive),主组(hadoop)。 参考添加Spark2x的Ranger访问权限策略章节,添加“ADD JAR操作”权限。 如果MRS集群未开启Kerberos认证,则无需创建用户。
HetuEngine访问跨集群数据源。 同时受HetuEngine端权限和数据源端权限管控(Hive场景下,依赖于HDFS)。 查询视图时,仅需给目标视图授予select权限即可;使用视图联表查询时,需要同时给两者授予select权限。 不支持GaussDB和HetuEngine数据源列脱敏。 HetuEngine服
在原有参数后继续添加参数,逗号后需要有空格,否则作业可能执行失败。 克隆的作业返回参数不含有fs.obs.access.key、fs.obs.secret.key,若需要fs.obs.access.key、fs.obs.secret.key,需在“服务配置参数”中添加。 单击“确定”下发克隆作业。
Spark应用开发常见问题 Spark常用API介绍 structured streaming功能与可靠性介绍 如何添加自定义代码的依赖包 如何处理自动加载的依赖包 运行SparkStreamingKafka样例工程时报“类不存在”问题 由于Kafka配置的限制,导致Spark Streaming应用运行失败