检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Jar作业提交SQL样例程序开发思路 场景说明 当作业的SQL语句修改频繁时,可使用Flink Jar的方式提交Flink SQL语句,以减少用户工作量。 本场景适用于MRS 3.2.1及以后版本。 开发思路 使用当前样例提交并执行指定的SQL语句,多个语句之间使用分号分隔。 父主题:
个检查点恢复,保证数据仅被处理一次(Exactly Once)。 SavePoint Savepoint是指允许用户在持久化存储中保存某个checkpoint,以便用户可以暂停自己的任务进行升级。升级完后将任务状态设置为savepoint存储的状态开始恢复运行,保证数据处理的延续性。
置文件“hive-site.xml”中,查看Hive的数据库路径的配置,默认为“/user/hive/warehouse”。Spark服务多实例默认数据库路径为“/user/hive/warehouse”,例如“/user/hive1/warehouse”。 <property>
SparkResource2x日志 spark.log Spark2x服务初始化日志。 prestart.log prestart脚本日志。 cleanup.log 安装卸载实例时的清理日志。 spark-availability-check.log Spark2x服务健康检查日志。 spark-service-check
创建CarbonData Table的建议 操作场景 本章节根据超过50个测试用例总结得出建议,帮助用户创建拥有更高查询性能的CarbonData表。 表1 CarbonData表中的列 Column name Data type Cardinality Attribution msname
'topic' = 'input2', 'properties.bootstrap.servers' = 'Kafka的Broker实例业务IP:Kafka端口号', 'properties.group.id' = 'testGroup2', 'scan
impl”:指定使用Hive还是Spark SQL native作为SQL执行引擎来读取ORC数据,默认为hive。 配置参数 登录FusionInsight Manager系统,选择“集群 > 服务 > Spark2x > 配置”,单击“全部配置”,搜索以下参数。 参数 说明 默认值 取值范围 spark
在NodeManager中启动External shuffle Service。 通过MRS Manager页面(可参考登录MRS Manager)的“服务管理 > Yarn > 服务配置”页面的“Yarn > 自定义”在“yarn-site.xml”中添加如下配置项: <property>
ducer和consumer,以及Flink Stream SQL Join使用主要逻辑代码作为演示。 每秒钟往Kafka中生产一条用户信息,用户信息由姓名、年龄、性别组成。 下面代码片段仅为演示,完整代码参见FlinkStreamSqlJoinExample样例工程下的com.huawei
IDEA工具,请根据指导完成开发环境配置。 准备本地应用开发环境 根据场景开发工程 提供样例工程,帮助用户快速了解Kudu各部件的编程接口。 开发Kudu应用 查看程序运行结果 指导用户将开发好的程序编译提交运行并查看结果。 调测Kudu应用 父主题: Kudu应用开发概述
自定义Flink log4j日志输出级别不生效 用户问题 MRS 3.1.0集群自定义Flink log4j日志级别不生效。 问题现象 在使用MRS 3.1.0集群Flink数据分析时,将“$Flink_HOME/conf”目录下的“log4j.properties”文件中日志级别修改为INFO级别日志。
如何添加自定义代码的依赖包 问题 用户在开发Spark程序时,会添加样例程序外的自定义依赖包。针对自定义代码的依赖包,如何使用IDEA添加到工程中? 回答 在IDEA主页面,选择“File > Project Structures...”进入“Project Structure”页面。
应的代价。 这个代价是基于现实时间(wall time),而非CPU的相关时间。 对每一个计划节点,都可以看到额外的统计信息,例如每个节点实例的输入平均值,哈希碰撞(hash collisions)的平均次数。这些统计信息对于分析一条SQL语句中的数据异常情况(skewness数据倾斜,abnormal
Storm应用开发简介 目标读者 本文档提供给需要Storm二次开发的用户使用。本指南主要适用于具备Java开发经验的开发人员。 简介 Storm是一个分布式的、可靠的、容错的数据流处理系统。它会把工作任务委托给不同类型的组件,每个组件负责处理一项简单特定的任务。Storm的目标
工。 数据入库 建议使用CDL(增量实时同步)和Loader(批量同步)工具进行数据同步,也可选择HDFS外表(CK集群只支持X86平台)用户自己写调度程序进行数据导入。 父主题: ClickHouse数据库开发
引信息,可以获取当前用户表所有相关索引的定义及索引状态。 代码样例 以下代码片段在com.huawei.bigdata.hbase.examples包的“GlobalSecondaryIndexSample”类的listIndices方法中。 本样例查询了用户表user_table对应的所有索引信息。
value string) stored as RCFile; HIVE使用OBS存储。 需要在beeline里面设置指定的参数,AK/SK可登录“OBS控制台”,进入“我的凭证”页面获取。 set fs.obs.access.key=AK; set fs.obs.secret.key=SK;
'topic' = 'input2', 'properties.bootstrap.servers' = 'Kafka的Broker实例业务IP:Kafka端口号', 'properties.group.id' = 'testGroup2', 'scan
提供了Java、Python两种不同语言的样例工程,还提供了从建表、数据加载到数据查询的样例工程。 开发Hive应用 运行程序及查看结果 指导用户将开发好的程序编译提交运行并查看结果。 调测Hive应用 父主题: Hive开发指南(普通模式)
Kafka样例程序开发思路 场景说明 Kafka是一个分布式消息系统,在此系统上您可以做一些消息的发布和订阅操作,假定用户要开发一个Producer,让其每秒向Kafka集群某Topic发送一条消息,另外还需要实现一个Consumer,订阅该Topic,实时消费该类消息。 开发思路