检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
接口参见表1。 FileStatus:记录文件和目录的状态信息。常用接口参见表2。 DFSColocationAdmin:管理colocation组信息的接口。常用接口参见表3。 DFSColocationClient:操作colocation文件的接口。常用接口参见表4。 系统
写Kudu数据 功能简介 通过KuduClient.newSession()方法生成一个KuduSession对象,然后再把插入记录动作执行到Kudu表里。 代码样例 如下是写数据的代码片段: // Create a KuduSession. KuduSession session = client
写Kudu数据 功能简介 通过KuduClient.newSession()方法生成一个KuduSession对象,然后再把插入记录动作执行到Kudu表里。 代码样例 如下是写数据的代码片段: // Create a KuduSession. KuduSession session = client
由于管理控制台的作业管理功能是由集群管理模块Executor来负责调度执行,因此作业未提交到Yarn上,根因需要查看Executor。而管理控制台的作业管理功能,正常情况添加作业后会自动在Yarn上启动两个任务,一个提交到launcher-job队列,该队列为辅助作业队列。另外一个是作业实际执行的队列,如默认的default队列。
管理MRS集群组件 查看MRS集群组件运行状态 启动停止MRS集群组件 重启MRS集群组件 添加删除MRS集群组件 修改MRS集群组件配置参数 查看MRS集群已修改的组件配置参数 同步MRS集群组件配置参数 添加MRS组件自定义参数 管理MRS角色实例 管理MRS角色实例组 修改MRS角色实例参数
参数 描述 是否必填 table 需要查询表的表名,支持database.tablename格式 是 log_file_path_pattern log file的路径,支持正则匹配 否 merge 执行show_logfile_records时,通过merge控制是否将多个log file中的record合并在一起返回
OK”,从而完成资源目录的设置。如图“图7”所示。 图7 设置工程资源目录 将工程依赖的jar包添加到类路径。 如果通过开源镜像站方式获取的样例工程代码,在配置好Maven后(配置方式参考配置华为开源镜像仓), 相关依赖jar包将自动下载,不需手动添加。 设置IntelliJ IDEA的文本文件编码格式,解决乱码显示问题。
接口参见表1。 FileStatus:记录文件和目录的状态信息。常用接口参见表2。 DFSColocationAdmin:管理colocation组信息的接口。常用接口参见表3。 DFSColocationClient:操作colocation文件的接口。常用接口参见表4。 系统
rk2x/hbase /user/developuser/myjobs/apps/spark2x/hive 将表格中的文件上传到对应目录,请参考表2。 表2 文件上传列表 初始文件路径 文件 上传目标目录 Spark客户端目录(如“/opt/client/Spark2x/spark/conf”)
记录公网IP和私网IP的对应关系将hosts文件中的私网IP改为对应的公网IP。 配置集群安全组规则。 在集群“概览”界面,选择“添加安全组规则 > 管理安全组规则”。 在“入方向规则”页签,选择“添加规则”,在“添加入方向规则”窗口配置Windows的IP和10000端口。 。 在Manager界面选择“集群 >
的记录。 查看执行日志 如果需要查看引导操作的执行日志,请在添加引导操作时将“失败操作”配置为“继续”,然后登录到各个节点上查看运行日志,运行日志在/var/log/Bootstrap目录下。 如果您对组件启动前后都添加了引导操作,可通过时间戳前后关系来区分两个阶段引导操作的日志。
果发现平均文件大小小于16MB,则认为分区下有小文件,Spark会启动一个Job合并这些小文件,并将合并后的大文件写入到最终的表目录下。 使用约束 写入表的类型为:Hive、Datasource 支持的数据格式:parquet、orc 配置参数 在Spark客户端的“{客户端安装
ImportTSV是一个HBase的表数据加载工具。 本章节适用于MRS 3.x及之后版本。 前提条件 在执行批量加载时需要通过“Dimporttsv.bulk.output”参数指定文件的输出路径。 操作步骤 参数入口:执行批量加载任务时,在BulkLoad命令行中加入如下参数。 表1 增强BulkLoad效率的配置项
在Beeline/JDBCServer模式下使用非Spark用户操作。 操作步骤 可对INSERT...SELECT操作做如下的调优操作。 如果建的是Hive表,将存储类型设为Parquet,从而减少执行INSERT...SELECT语句的时间。 建议使用spark-sql或者在Beeline/JD
都不要超过40个,否则可能导致界面响应时间过长。 表1 Flume角色服务端所需修改的参数列表 参数名称 参数值填写规则 参数样例 名称 不能为空,必须唯一。 test kafka.topics 订阅的Kafka topic列表,用逗号分隔,此参数不能为空。 test1 kafka
导入配置文件时,建议配置source/channel/sink的各自的个数都不要超过40个,否则可能导致界面响应时间过长。 表1 Flume角色客户端所需修改的参数列表 参数名称 参数值填写规则 参数样例 名称 不能为空,必须唯一。 test spoolDir 待采集的文件所在的目录路
TTL能力适用于MRS 3.5.0及之后的版本。 TTL能力目前只支持分区级别的TTL。 TTL(Time To Live)能力可以控制Hudi表中数据的生存周期,也称为数据老化。考虑到如下两个场景: 场景1:如果需要在流场景中去删除老化的分区,只能停止流任务执行DDL命令去删除分区。
系统域名:登录FusionInsight Manager后,选择“系统 > 权限 > 域和互信”,查看“本端域”参数,即为当前系统域名。 在Linux环境中添加样例工程运行所需的classpath,例如: export YARN_USER_CLASSPATH=/opt/client/conf:/o
URI GET /v2/{project_id}/clusters/{cluster_id}/sql-execution/{sql_id} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 参数解释: 项目编号。获取方法,请参见获取项目ID。 约束限制:
在Beeline/JDBCServer模式下使用非Spark用户操作。 操作步骤 可对INSERT...SELECT操作做如下的调优操作。 如果建的是Hive表,将存储类型设为Parquet,从而减少执行INSERT...SELECT语句的时间。 建议使用spark-sql或者在Beeline/JD