检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
问题 用户提交结构流任务时,通常需要通过--jars命令指定kafka相关jar包的路径,例如--jars /kafkadir/kafka-clients-x.x.x.jar,/kafkadir/kafka_2.11-x.x.x.jar。当前版本用户除了这一步外还需要额外的配置项,否则会报class
} else { fmt.Println(err) } } 更多编程语言的SDK代码示例,请参见API Explorer的代码示例页签,可生成自动对应的SDK代码示例。 状态码 状态码 描述 200 获取指定目录文件列表成功 错误码 请参见错误码。 父主题:
PyFlink样例程序代码说明 通过Python API的方式提交Flink读写Kafka作业到Yarn上代码样例 下面列出pyflink-kafka.py的主要逻辑代码作为演示,在提交之前需要确保“file_path” 为要运行的SQL的路径,建议写全路径。 完整代码参见“flink-
cies”字段的Jar包放进该路径下,并在该目录下创建子目录“src/main/resources"。将hive-rest-client-example工程resources目录下的所有文件复制到“resources”下。 执行以下命令启动SpringBoot服务: 在Windows环境下执行:
<pid>命令查看进程的详细信息,其中pid为查询出的实际进程ID。 发现占用端口的进程为worker进程,该进程为另一个拓扑业务进程。同时根据进程详细信息发现,分配给该进程的端口为29122。 通过lsof -i:<port>命令,查看连接详细信息。其中port为实际端口号。 发现29101端口连接对端端口为210
准备Spark应用开发环境 准备Spark本地应用开发环境 准备Spark连接集群配置文件 导入并配置Spark样例工程 新建Spark样例工程(可选) 配置Spark Python3样例工程 父主题: Spark2x开发指南(普通模式)
Loader作业 操作场景 该任务指导用户通过Hue界面提交Loader类型的Oozie作业。 操作步骤 创建工作流,请参考使用Hue创建工作流。 在工作流编辑页面,选择“Loader”按钮,将其拖到操作区中。 在弹出的“Loader”窗口中配置“Job id”的值,例如“1”。然后单击“添加”。
Loader作业 操作场景 该任务指导用户通过Hue界面提交Loader类型的Oozie作业。 操作步骤 创建工作流,请参考使用Hue创建工作流。 在工作流编辑页面,选择“Loader”按钮,将其拖到操作区中。 在弹出的“Loader”窗口中配置“Job id”的值,例如“1”。然后单击“添加”。
管理MRS集群客户端 服务端配置过期后更新MRS集群客户端 查看已安装的MRS集群客户端 批量升级MRS集群客户端 父主题: 管理MRS集群
插入HBase数据 功能简介 HBase是一个面向列的数据库,一行数据,可能对应多个列族,而一个列族又可以对应多个列。通常,写入数据的时候,需要指定要写入的列(含列族名称和列名称)。HBase通过HTable的put方法来Put数据,可以是一行数据也可以是数据集。 代码样例 以下代码片段在com
0-LTS及之后的版本中,Spark2x服务改名为Spark,服务包含的角色名也有差异,例如JobHistory2x变更为JobHistory。 相关涉及服务名称、角色名称的描述和操作请以实际版本为准。 Spark是一个开源的,并行数据处理框架,能够帮助用户简单、快速的开发大数据应用
方法 说明 public void setFileColumn() 设置这个列族为存储文件的列族。 public void setFileThreshold(int fileThreshold) 设置存储文件大小的阈值。 org.apache.hadoop.hbase.filestream
漏洞公告 Apache Log4j2 远程代码执行漏洞(CVE-2021-44228)公告 Apache Log4j2 远程代码执行漏洞(CVE-2021-44228)修复指导 MRS Fastjson漏洞修复指导
使用REST接口操作HBase表 功能简介 使用REST服务,传入对应host与port组成的url以及指定的tableName和jsonHTD,通过HTTPS协议,进行查询表信息,修改表,创建表以及删除表的操作。 代码样例 方法调用 // Add a table with specified
配置MRS租户 添加MRS租户 添加MRS子租户 为MRS集群用户绑定租户 添加MRS租户资源池 配置资源池的队列容量策略 配置MRS租户队列 父主题: 管理MRS集群租户
of(5)))中pane的大小为5秒,假设这个窗口为[100, 120),则包含的pane为[100, 105), [105, 110), [110, 115), [115, 120)。 图2 窗口重构示例 当某个数据到来时,并不分配到具体的窗口中,而是根据自己的时间戳计算出该数据所属的pane,并将其保存到对应的pane中。
Yarn是一个分布式的资源管理系统,用于提高分布式的集群环境下的资源利用率,这些资源包括内存、IO、网络、磁盘等。其产生的原因是为了解决原MapReduce框架的不足。最初MapReduce的committer还可以周期性的在已有的代码上进行修改,可是随着代码的增加以及原MapRe
Spark是内存计算框架,计算过程中内存不够对Spark的执行效率影响很大。可以通过监控GC(Garbage Collection),评估内存中RDD的大小来判断内存是否变成性能瓶颈,并根据情况优化。 监控节点进程的GC情况(在客户端的conf/spark-default.conf配置文件中,在spark
致数据膨胀的算子时,使用该特性可以有效减少数据的膨胀倍数,且减少shuffle落盘的数据,从而获得性能提升。开启后,count(distinct)算子的实现,将由原来的expand+多轮聚合,变成普通的count_distinct聚合函数。 使用约束 作业已配置足够的内存。 配置参数
00。 原因分析 用户没有创建集群的权限。 处理步骤 检查是否拥有创建MRS集群的权限,可参考文档权限管理。 父主题: API使用类