检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
访问Storm的WebUI 操作场景 用户可以通过Storm的WebUI,在图形化界面使用Storm。 Storm的WebUI支持查看以下信息: Storm集群汇总信息 Nimbus汇总信息 拓扑汇总信息 Supervisor汇总信息 Nimbus配置信息 前提条件 获取用户“a
示信息。如果文件为第一次查看,则将当前文件大小与0作比较,如果大于0则读取该文件。 分组的情况下,如果执行的app没有job处于执行状态,则part文件为空,即JobHistory服务不会读取该文件,此app也不会显示在JobHistory页面上。但如果part文件大小之后有更新
Netty网络通信参数 操作场景 Flink通信主要依赖netty网络,所以在Flink应用执行过程中,netty的设置尤为重要,网络通信的好坏直接决定着数据交换的速度以及任务执行的效率。 操作步骤 以下配置均可在客户端的“conf/flink-conf.yaml”配置文件中进行修
必须保证“flume-env.sh”生效之后,再执行5配置“properties.properties”文件。 如果在本地配置该文件,配置完成后可参考如下步骤在Manager界面上传配置文件。如果操作顺序不规范,可能造成用户自定义环境变量丢失。 登录FusionInsight Manager。
SparkSQL在往动态分区表中插入数据时,分区数越多,单个Task生成的HDFS文件越多,则元数据占用的内存也越多。这就导致程序GC(Gabage Collection)严重,甚至发生OOM(Out of Memory)。 经测试证明:10240个Task,2000个分区,在执行HDFS文件从临时目
创建Hive表 功能介绍 本小节介绍了如何使用HQL创建内部表、外部表的基本操作。创建表主要有以下三种方式: 自定义表结构,以关键字EXTERNAL区分创建内部表和外部表。 内部表,如果对数据的处理都由Hive完成,则应该使用内部表。在删除内部表时,元数据和数据一起被删除。 外部
根据源集群与目标集群分别所处的区域及网络连通性,可分为以下几种数据复制场景。 同Region 当源集群与目标集群处于同一Region时,根据打通数据传输通道进行网络配置,打通网络传输通道。使用Distcp工具执行如下命令将源集群的HDFS、HBase、Hive数据文件以及Hive元数据备份文件复制至目的集群。
-config job.properties文件所在路径 -run 参数列表: 表2 参数列表 参数 含义 job 表示执行的是job任务 -oozie Oozie服务器地址(任意节点) -config “job.properties”文件所在路径 -run 表示启动流程 例如: oozie job
ClickHouse通过HDFS引擎表写入数据到HDFS时,如果HDFS上数据文件不存在,会生成对应的数据文件。 ClickHouse不支持删除修改和追加写HDFS引擎表数据,只能一次性写入数据。 ClickHouse删除HDFS引擎表以后对HDFS上的数据文件没有影响。 父主题: ClickHouse数据导入
创建用于存放数据的OBS文件夹。 登录OBS控制台。 单击“并行文件系统”进入并行文件系统页面。 在OBS控制台并行文件系统列表中,单击已新建的文件系统名称进入详情页面。 在左侧导航栏选择“文件 > 新建文件夹”新建“testFlumeOutput”文件夹。 使用root用户登录安装Flume客户端的节点。
Netty网络通信参数 操作场景 Flink通信主要依赖netty网络,所以在Flink应用执行过程中,netty的设置尤为重要,网络通信的好坏直接决定着数据交换的速度以及任务执行的效率。 操作步骤 以下配置均可在客户端的“conf/flink-conf.yaml”配置文件中进行修
HBase系统管理员,用户权限: 集群管理权限: 表的Enable、Disable操作,触发MajorCompact,ACL操作 授权或回收权限,集群关闭等操作相关的权限 表管理权限: 建表、修改表、删除表等操作权限 数据管理权限:表级别、列族级别以及列级别的数据读写权限 访问HBase
一致。 执行流程文件 命令: oozie job -oozie https://oozie server hostname:port/oozie -config job.properties文件所在路径 -run 参数列表: 表2 参数列表 参数 含义 job 表示执行的是job任务
必须保证“flume-env.sh”生效之后,再执行6配置“properties.properties”文件。 若在本地配置该文件,配置完成后可参考如下步骤在Manager界面上传配置文件。若操作顺序不规范,可能造成用户自定义环境变量丢失。 登录FusionInsight Manager。
save(basePath) 示例中各参数介绍请参考表1。 使用spark datasource接口更新Mor表,Upsert写入小数据量时可能触发更新数据的小文件合并,使在Mor表的读优化视图中能查到部分更新数据。 当update的数据对应的base文件是小文件时,insert中的数据和upda
系数:指定取模的数值。 map 是 无 数据处理规则 生成新字段,值为取模后的值。 字段的值须为整数,否则当前行会成为脏数据。 样例 通过“CSV文件输入”算子,生成两个字段A和B。 源文件如下图: 配置“取模转换”算子,生成两个新字段C和D: 转换后,依次输出A、B、C和D,结果如下:
系数:指定取模的数值。 map 是 无 数据处理规则 生成新字段,值为取模后的值。 字段的值须为整数,否则当前行会成为脏数据。 样例 通过“CSV文件输入”算子,生成两个字段A和B。 源文件如下图: 配置“取模转换”算子,生成两个新字段C和D: 转换后,依次输出A、B、C和D,结果如下:
令调用。 场景说明 假设存在这样的业务需求: 每天需要对网站的日志文件进行离线分析,统计出网站各模块的访问频率(日志文件存放在HDFS中)。 通过客户端中模板与配置文件提交任务。 父主题: 开发Oozie配置文件
如下通过一个MapReduce工作流的示例演示如何配置文件,并通过Shell命令调用。 场景说明 假设存在这样的业务需求: 每天需要对网站的日志文件进行离线分析,统计出网站各模块的访问频率(日志文件存放在HDFS中)。 通过客户端中模板与配置文件提交任务。 父主题: 开发Oozie配置文件
Hudi在upsert时占用了临时文件夹中大量空间 问题 Hudi在upsert时占用了临时文件夹中大量空间。 回答 当UPSERT大量输入数据时,如果数据量达到合并的最大内存时,Hudi将溢出部分输入数据到磁盘。 如果有足够的内存,请增加spark executor的内存和添加“hoodie