检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
查看Spark应用程序运行情况。 Spark主要有两个Web页面。 Spark UI页面,用于展示正在执行的应用的运行情况。 页面主要包括了Jobs、Stages、Storage、Environment、Executors和SQL等部分。Streaming应用会多一个Streaming标签页。
<arg>:为Yarn application自定义类型。 -D <property=value>:动态参数配置。 -d,--detached:关闭交互模式,启动一个分离的Flink YARN session。 -h,--help: 显示Yarn session CLI的帮助。 -id,--applicationId
properties中的group.id与命令中--group的参数均配置为待查询的group。 Kafka集群IP端口号安全模式下是21007,普通模式下是9092。 使用KafkaUI查看当前消费情况 进入KafkaUI界面。 使用具有KafkaUI页面访问权限的用户登录FusionInsight
3、本地提交 ,在本地执行应用程序,一般用来测试 * 命令行方式和远程方式安全和普通模式都支持 * 本地提交仅支持普通模式 * * 用户同时只能选择一种任务提交方式,默认命令行
source /opt/client/bigdata_env 判断集群认证模式。 安全模式,执行kinit命令进行用户认证。 例如,使用oozieuser用户进行认证。 kinit oozieuser 普通模式,执行4。 执行以下命令,进入样例目录。 cd /opt/client/
所有表的附加属性都会放到TBLPROPERTIES中来定义。 参数描述 表1 CREATE TABLE参数描述 参数 描述 db_name Database名称,由字母、数字和下划线(_)组成。 col_name data_type 以逗号分隔的带数据类型的列表。列名由字母、数字和下划线(_)组成。
所有表的附加属性都会放到TBLPROPERTIES中来定义。 参数描述 表1 CREATE TABLE参数描述 参数 描述 db_name Database名称,由字母、数字和下划线(_)组成。 col_name data_type 以逗号分隔的带数据类型的列表。列名由字母、数字和下划线(_)组成。
执行以下命令,切换到客户端安装目录,如:/opt/client。 cd /opt/client 执行以下命令配置环境变量。 source bigdata_env 若集群为安全模式,执行以下命令认证用户。 kinit MRS用户名 通过HDFS接口创建<groupid> hdfs colocationadmin -createGroup
执行以下命令,切换到客户端安装目录。 cd 客户端安装目录 执行以下命令配置环境变量。 source bigdata_env 如果集群为安全模式,执行以下命令进行用户认证。普通模式集群无需执行用户认证。 kinit 组件业务用户 在hdfs命令行显式添加要访问的OBS文件系统。 例如: 使用以下命令访问OBS文件系统。
tableinfo和.regioninfo文件。 hbase:acl表在HDFS上的目录、.tableinfo和.regioninfo文件(该表在普通模式集群默认不存在)。 告警属性 告警ID 告警级别 是否自动清除 19012 紧急 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。
通过Spark-sql创建Hudi表或者Hive表,未插入数据前,查询表统计信息为空 问题 通过spark-sql创建Hudi表或者Hive表,未插入数据之前,查询表统计信息都为空。 回答 可以通过以下两种方式生成: 手动通过analyze命令,触发统计信息收集。如果没有插入数据
1版本集群,如需了解更多参数配置请参考快速创建MRS集群)。 表1 MRS集群配置参数 参数 示例 参数说明 计费模式 按需计费 选择待创建的集群的计费模式,MRS提供“包年/包月”与“按需计费”两种计费模式。 按需计费是一种后付费模式,即先使用再付费,按照MRS集群实际使用时长计费。 区域 华北-北京四 选择区域。
硬盘、未绑定的EIP等。 计费模式优化 不同类型的业务对资源使用周期有不同的要求,为每一类业务确定合适的计费模式,灵活组合以达到最优效果。 针对长期稳定的成熟业务,使用包年/包月计费模式。 针对不能中断的短期、突增或不可预测的业务,使用按需计费模式。
Flink SQL语法增强 本章节适用于MRS 3.3.0及以后版本。 FlinkSQL DISTRIBUTEBY FlinkSQL新增DISTRIBUTEBY特性,根据指定的字段进行分区,支持单字段及多字段,解决数据仅需要分区的场景。示例如下: SELECT /*+ DISTRIBUTEBY('id')
则可以使用MapPartitions,按每个分区计算结果,如 rdd.mapPartitions(records => conn.getDBConn;for(item <- records) write(item.toString); conn.close) 使用mapPartition
则可以使用MapPartitions,按每个分区计算结果,如 rdd.mapPartitions(records => conn.getDBConn;for(item <- records) write(item.toString); conn.close) 使用mapPartition
用的内存更大,但会导致集群并发能力变小,可根据实际业务情况动态调整。 添加完成后将“立即启动”置为“是”,单击“确定”。 启用TASK容错模式后,会产生中间数据并缓存到文件系统中,过大的查询并发会对文件系统产生较大的磁盘压力。当前HetuEngine默认支持将中间数据缓冲至HDF
source /opt/client/bigdata_env 判断集群认证模式。 安全模式,执行kinit命令进行用户认证。 例如,使用oozieuser用户进行认证。 kinit oozieuser 普通模式,执行4。 执行以下命令,进入样例目录。 cd /opt/client/
source /opt/client/bigdata_env 判断集群认证模式。 安全模式,执行kinit命令进行用户认证。 例如,使用oozieuser用户进行认证。 kinit oozieuser 普通模式,执行4。 执行以下命令,进入样例目录。 cd /opt/client/
create(Path f, boolean overwrite, String groupId,String locatorId) 用colocation模式,创建一个FSDataOutputStream,从而允许用户在f路径写文件。 f为HDFS路径。 overwrite表示如果文件已存在是否允许覆盖。