检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
情况,比如集群中添加新数据节点的场景。如果HDFS出现数据不平衡的状况,可能导致多种问题,比如MapReduce应用程序无法很好地利用本地计算的优势、数据节点之间无法达到更好的网络带宽使用率或节点磁盘无法利用等等。所以MRS集群管理员需要定期检查并保持DataNode数据平衡。
"obs://obs-test/program/hadoop-mapreduce-examples-x.x.x.jar", "wordcount", "obs://obs-test/input/", "obs://obs-tes
WebUI”后的链接,进入HSConsole界面。 单击“计算实例”,选择对应租户名下待操作的计算实例。单击“LogUI”列的“Coordinator”或“Worker”,将在Yarn WebUI展示Coordinator和Worker日志。 父主题: 管理HetuEngine计算实例
HBase常见问题 结束BulkLoad客户端程序,导致作业执行失败 如何修复长时间处于RIT状态的Region HMaster等待NameSpace表上线时超时退出 客户端查询HBase出现SocketTimeoutException异常 在启动HBase shell时报错“java
ctions操作的时候才会真正启动计算过程进行计算。Actions操作会返回结果或把RDD数据写到存储系统中。Actions是触发Spark启动计算的动因。 图11 RDD操作示例 RDD看起来与Scala集合类型没有太大差别,但数据和运行模型大相迥异。 val file = sc
附录 MRS所使用的弹性云服务器规格 MRS所使用的裸金属服务器规格 状态码 错误码 获取项目ID 获取账号ID 获取MRS集群信息 MRS支持的角色与组件对应表
0时报数据格式错误 通过sqoop import命令从PgSQL导出数据到Hive时报错 通过Sqoop读取MySQL数据并写parquet文件到OBS时失败 通过Sqoop迁移数据库数据时报错
重启HetuEngine计算实例。 在概览页签下的“基本信息”区域,单击“HSConsole WebUI”后的链接,进入HSConsole界面。 停止正在运行的计算实例,然后单击待操作实例所在行的“操作”列的“启动”,启动HetuEngine计算实例。 查看Coordinator运行的节点范围。
DataNode的容量计算出错如何处理 问题 当多个data.dir被配置在一个磁盘分区内,DataNode的容量计算将会出错。 回答 目前容量计算是基于磁盘的,类似于Linux里面的df命令。理想状态下,用户不会在同一个磁盘内配置多个data.dir,否则所有的数据都将写入一个磁盘,在性能上会有很大的影响。
DataNode的容量计算出错如何处理 问题 当多个data.dir被配置在一个磁盘分区内,DataNode的容量计算将会出错。 回答 目前容量计算是基于磁盘的,类似于Linux里面的df命令。理想状态下,用户不会在同一个磁盘内配置多个data.dir,否则所有的数据都将写入一个磁盘,在性能上会有很大的影响。
当作业提交后未执行完成时,手动终止作业。API的调用方法请参见如何调用API。 约束限制 集群已创建成功并处于“运行中”。 已获取待创建集群区域的项目ID,请参考获取项目ID获取。 已获取集群ID,即创建集群成功后返回结果中的“cluster_id” 或参考获取集群ID获取。 已获取作业ID,即作
注册一个全类名为“com.xxx.bigdata.iotdb.UDTFExample”的UDF可以按如下流程进行: 将项目打成Jar包,如果使用Maven管理项目,可参考以下章节的“构建Jar包”部分: 开启Kerberos认证的集群请参考注册UDF。 关闭Kerberos认证的集群请参考注册UDF。
HetuEngine故障排除 HetuEngine计算实例启动失败报错Python不存在 HetuEngine计算实例启动后状态为故障 父主题: 使用HetuEngine
当使用Flink的Full outer Join算子实现宽表拼接功能时,由于状态会被多次重复存储导致状态后端压力大,计算性能差。使用MultiJoin算子进行宽表拼接计算性能可以提升1倍。 FlinkSQL支持MultiJoin算子使用限制 MultiJoin算子只支持FULL OUTER
据源 创建HetuEngine计算实例 添加HetuEngine数据源 配置HetuEngine物化视图 配置HetuEngine SQL诊断功能 开发和部署HetuEngine UDF 管理HetuEngine数据源 管理HetuEngine计算实例 HetuEngine性能调优
10.10 hadoop.hadoop.com”),否则HetuEngine无法根据主机名称连接到非本集群节点。 已创建HetuEngine计算实例。 数据源所在集群与HetuEngine所在集群上ZooKeeper的SSL通信加密配置需保持一致。 登录FusionInsight Manager,选择“集群
V1.1 作业管理接口(废弃) 新增作业并执行(废弃) 查询作业exe对象列表(废弃) 查询作业exe对象详情(废弃) 删除作业执行对象(废弃) 父主题: 历史API
Hudi是否应该基于最后24个提交的元数据动态计算insertSplitSize,默认关闭。 true hoodie.copyonwrite.record.size.estimate 平均记录大小。如果指定,Hudi将使用它,并且不会基于最后24个提交的元数据动态地计算。 没有默认值设置。这对于计算插入并行度以及将插入打包到小文件中至关重要。
通过Flink作业处理OBS数据 本实践指导使用MRS集群内置的Flink WordCount作业程序,来分析OBS文件系统中保存的源数据,以统计源数据中的单词出现次数。 MRS支持在大数据存储容量大、计算资源需要弹性扩展的场景下,用户将数据存储在OBS服务中,使用MRS集群仅做数据计算处理的存算分离模式。
MemArtsCC是一款面向存算分离架构的分布式计算侧缓存系统,采用极轻量化的架构设计,部署在计算侧的集群中,通过智能预取远端对象存储上的数据提供高速缓存能力,从而来加速计算任务执行。 MemArtsCC在存储层面将远端对象存储(OBS)上的对象进行切片,并建立索引,大幅提升缓存数据的读