检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
将“主机IP”设置为ECS的IP地址,设置“主机端口”为“22”,并将“存放路径”设置为“/tmp”。 如果使用SSH登录ECS的默认端口“22”被修改,请将“主机端口”设置为新端口。 “存放路径”最多可以包含256个字符。 “登录用户”设置为“root”。 如果使用其他用户,请确保该用户对保存目录拥有读取、写入和执行权限。
也可能会被清除。 例如,对象存储(支持S3协议)中,通过rename操作将一个目录中的最后一个文件移走后,该目录也会被删除。如果该目录没有被清除,可以手动清除。 当Export运行完成后(成功或失败),FE发生重启或主备倒换,则SHOW EXPORT展示的作业的部分信息会丢失,无法查看。
将“主机IP”设置为待安装客户端节点的IP地址,设置“主机端口”为“22”,并将“存放路径”设置为“/tmp”。 如果节点的SSH登录默认端口被修改,请将“主机端口”设置为新端口。 “登录用户”设置为“root”。 如果使用其他用户,请确保该用户对保存目录拥有读取、写入和执行权限。
断空值。 不建议将含有Strcuct、Map和Seq三种复杂类型的表数据直接同步到HBase表中,这些类型无法直接转换为byte数组,会先被转为String,再存储到HBase中,可能会导致无法还原数据。 该章节内容仅适用于MRS 3.5.0及之后版本。 表1 数据类型转换对应关系
配置弹性伸缩规则 功能介绍 对弹性伸缩规则进行编辑。 在创建集群并执行作业接口中也可以创建弹性伸缩规则。 接口约束 无 调用方法 请参见如何调用API。 URI POST /v1.1/{project_id}/autoscaling-policy/{cluster_id} 表1 路径参数
am的操作会导致无法并行,例如WindowAll。 keyBy尽量不要使用String。 设置并行度 并行度控制任务的数量,影响操作后数据被切分成的块数。调整并行度让任务的数量和每个任务处理的数据与机器的处理能力达到最优。 查看CPU使用情况和内存占用情况,当任务和数据不是平均分
constructorArgs: - "output" #构造函数入参使用引用,使用`ref`标志来说明引用 #在使用引用时请确保被引用对象在前面定义 - id: "stringMultiScheme" className: "org.apache.storm.spout
盘中。 Dependency(RDD的依赖) RDD的依赖分别为:窄依赖和宽依赖。 图1 RDD的依赖 窄依赖:指父RDD的每一个分区最多被一个子RDD的分区所用。 宽依赖:指子RDD的分区依赖于父RDD的所有分区。 窄依赖对优化很有利。逻辑上,每个RDD的算子都是一个fork/
从高到低依次为:本地资源的申请、同机架的申请,任意机器的申请。 图2 资源分配模型 YARN原理 新的Hadoop MapReduce框架被命名为MRv2或YARN。YARN主要包括ResourceManager、ApplicationMaster与NodeManager三个部分。
constructorArgs: - "output" #构造函数入参使用引用,使用`ref`标志来说明引用 #在使用引用时请确保被引用对象在前面定义 - id: "stringMultiScheme" className: "org.apache.storm.spout
一个用于缩放、并行化和容错性的分区(Partition)。每个分区是一个有序、不可变的消息序列,并不断追加到提交日志文件。分区的消息每个也被赋值一个称为偏移顺序(Offset)的序列化编号。 图1 Kafka结构 操作流程 本实践操作流程如下所示: 步骤1:创建MRS集群:创建一个包含有Kafka组件的MRS集群。
constructorArgs: - "output" #构造函数入参使用引用,使用`ref`标志来说明引用 #在使用引用时请确保被引用对象在前面定义 - id: "stringMultiScheme" className: "org.apache.storm.spout
/opt/client”目录,再安装其他服务的客户端时,需要使用不同的目录。 卸载客户端请删除客户端安装目录。 如果要求安装后的客户端仅能被该安装用户(如“user_client”)使用,请在安装时加“-o”参数,即执行./install.sh /opt/client -o命令安装客户端。
(可选)如果需要立即进行作业开发,可以在作业开发界面进行作业配置。 进行作业开发时,系统支持对作业添加锁的功能,锁定作业的用户具备该作业的所有权限,其他用户不具备被锁定的作业的开发、启动和删除等权限,但可通过强制获取锁来具备作业的所有权限。开启该功能后,可直接通过单击“锁定作业”、“解锁作业”、“强制获取锁”来获取相应的权限。
在Spark结构流应用中,跨批次统计每个session期间发生了多少次event以及本session的开始和结束timestamp;同时输出本批次被更新状态的session。
true:开启Join下推。 false(默认值):关闭Join下推。 false join-pushdown.strategy 用于评估Join操作是否被下推的策略。 AUTOMATIC(默认值):启用基于成本的连接下推。 EAGER:尽可能下推Join。即使表统计信息不可用,EAGER也可以
读”的特征,而数据“写”操作是顺序写,也就是在文件创建时的写入或者在现有文件之后的添加操作。HDFS保证一个文件在一个时刻只被一个调用者执行写操作,而可以被多个调用者执行读操作。 HDFS基本原理 Hive组件 Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工
> 配置”。 在搜索框中搜索“obs_cooldown_enable”参数,修改该参数值为“true”。 (可选)如果本地磁盘的数据冷却并被存储到OBS上后,在某个时间段又需要将相关数据存储到本地磁盘上,可选择“全部配置 > BE(角色) > 自定义”,在自定义参数“be.conf
入数据时,在数据转换步骤中,建议“CHAR”或“VARCHAR”类型字段设置数据长度为“-1”,使全部数据正常导入,避免实际数据字符太长时被部分截取,出现缺失。 使用generic-jdbc-connector导入数据时,在数据转换步骤中,需要将原数据中时间类型数值对应的字段,设
入数据时,在数据转换步骤中,建议“CHAR”或“VARCHAR”类型字段设置数据长度为“-1”,使全部数据正常导入,避免实际数据字符太长时被部分截取,出现缺失。 使用generic-jdbc-connector导入数据时,在数据转换步骤中,需要将原数据中时间类型数值对应的字段,设