检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
运行样例时提示Topic鉴权失败“TOPIC_AUTHORIZATION_FAILED” 问题现象 运行样例时提示Topic鉴权失败“example-metric1=TOPIC_AUTHORIZATION_FAILED”。 解决步骤 向管理员申请该Topic的访问权限。 如果拥有权限后还是无法访问该
Oozie Java接口介绍 Java API主要由org.apache.oozie.client.OozieClient提供。 表1 接口介绍 方法 说明 public String run(Properties conf) 运行job public void start(String
集群启动Yarn后产生大量作业占用资源 问题现象 MRS 2.x及之前版本集群,用户的MRS集群启动Yarn后产生大量作业,占用集群计算资源。 原因分析 集群安全组入口方向的Any协议源地址配置为0.0.0.0/0,导致集群可能遭受了外部网络攻击。 处理步骤 登录MRS集群页面,在
spark-beeline查询Hive视图报错 用户问题 MRS 3.1.2版本,spark-beeline查询Hive视图报错,报错如下: 根据提示set spark.sql.hive.manageFilesourcePartitions=false后,查不到数据(但是实际在Hive
Scala样例代码 功能简介 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 代码样例 下面代码片段仅为演示,具体代码参见com.huawei.bigdata.spark.examples.FemaleInfoCollection。 样例代码获取方式请参考获取MRS
Hudi表初始化 初始化导入存量数据通常由Spark作业来完成,由于初始化数据量通常较大,因此推荐使用API方式给充足资源来完成。 对于批量初始化后需要接Flink或Spark流作业实时写入的场景,一般建议通过对上有消息进行过滤,从一个指定的时间范围开始消费来控制数据的重复接入量(
TEXTFILE类型文件使用ARC4压缩时查询结果乱码 问题现象 Hive查询结果表做压缩存储(ARC4),对结果表做select * 查询时返回结果为乱码。 可能原因 Hive默认压缩格式不是ARC4格式或者未开启输出压缩。 解决方案 在select结果乱码时,在beeline中进行如下设置
创建Doris表 本章节介绍创建Doris表样例代码。 以下代码片段在“JDBCExample”类中。 以Java JDBC方式执行SQL语句在集群中dbName变量对应的数据库下创建tableName对应的表。 String createTableSql = "create table
Spark应用开发环境简介 在进行应用开发时,要准备的开发环境如表1所示。同时需要准备运行调测的Linux环境,用于验证应用程序运行正常。 表1 开发环境 准备项 说明 安装JDK 开发环境的基本配置。版本要求:1.7或者1.8。 说明: 基于安全考虑,MRS 服务端只支持TLS
Apache Log4j2 远程代码执行漏洞(CVE-2021-44228)公告 漏洞描述 近日,华为云关注到Apache Log4j2存在一处远程代码执行漏洞(CVE-2021-44228),在引入Apache Log4j2处理日志时,会对用户输入的内容进行一些特殊的处理,攻击者可以构造特殊的请求
Spark Spark jar包冲突列表 Jar包名称 描述 处理方案 spark-core_2.1.1-*.jar Spark任务的核心jar包。 Spark可以直接使用开源同版本的Spark包运行样例代码,但是不同版本的spark-core包在使用的时候可能导致互相序列化ID不一样
Flink应用开发流程介绍 Flink应用程序开发流程 Flink开发流程参考如下步骤: 图1 Flink应用程序开发流程 表1 Flink应用开发的流程说明 阶段 说明 参考文档 了解基本概念 在开始开发应用前,需要了解Flink的基本概念。 Flink基本概念 准备开发和运行环境
Flink应用开发流程介绍 Flink应用程序开发流程 Flink开发流程参考如下步骤: 图1 Flink应用程序开发流程 表1 Flink应用开发的流程说明 阶段 说明 参考文档 了解基本概念 在开始开发应用前,需要了解Flink的基本概念。 基本概念 准备开发和运行环境 Flink
Hudi自定义配置项样例程序 HoodieDeltaStreamer 自定义排序器 父主题: 开发Spark应用
Hudi的自定义配置项样例程序 HoodieDeltaStreamer 自定义排序器 父主题: 开发Spark应用
Storm与其他组件的关系 Storm,提供实时的分布式计算框架,它可以从数据源(如Kafka、TCP连接等)中获得实时消息数据,在实时平台上完成高吞吐、低延迟的实时计算,并将结果输出到消息队列或者进行持久化。Storm与其他组件的关系如图1所示: 图1 组件关系图 Storm和Streaming
Impala应用开发简介 Impala简介 Impala直接对存储在HDFS,HBase 或对象存储服务(OBS)中的Hadoop数据提供快速,交互式SQL查询。除了使用相同的统一存储平台之外,Impala还使用与Apache Hive相同的元数据,SQL语法(Hive SQL),
Spark2x Spark2x jar包冲突列表 Jar包名称 描述 处理方案 spark-core_2.1.1-*.jar Spark任务的核心jar包。 Spark可以直接使用开源同版本的spark包运行样例代码,但是不同版本的spark-core包在使用的时候可能互相序列化ID
MRS集群组件如何管理和使用第三方jar包 MRS集群内部分组件支持使用自定义的第三方jar包来满足组件的定制化需求,如果用户应用在使用组件时调用了第三方jar包,可放置到每个节点上指定目录中,重启组件后该目录下的jar会被相应的组件程序自动加载。 放置目录为:组件安装节点的“<集群安装目录
使用ClickHouse ZooKeeper上数据错乱导致ClickHouse启动失败问题 ClickHouse消费Kafka数据异常