检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
HBase对外接口介绍 HBase Shell接口介绍 HBase Java API接口介绍 Sqlline接口介绍 HBase JDBC API接口介绍 HBase Web UI接口介绍 父主题: HBase应用开发常见问题
HBase ThriftServer连接样例程序 通过ThriftServer实例操作HBase表 通过ThriftServer实例向HBase表中写入数据 通过ThriftServer实例读HBase表数据 父主题: 开发HBase应用
程的垃圾回收时间过长,影响ResourceManager进程正常提供服务,在访问YARN的原生界面时异常。 此时建议修改实例的内存。 处理步骤 登录FusionInsight Manager,选择“集群 > 服务 > Yarn > 配置 > 全部配置 > ResourceManager
配置Yarn模式下Spark动态资源调度 操作场景 对于Spark应用来说,资源是影响Spark应用执行效率的一个重要因素。当一个长期运行的服务(比如JDBCServer),如果分配给它多个Executor,可是却没有任何任务分配给它,而此时有其他的应用却资源紧张,这就造成了很大的资源浪费和资源不合理的调度。
优化数据倾斜场景下的Spark SQL性能 配置场景 在Spark SQL多表Join的场景下,会存在关联键严重倾斜的情况,导致Hash分桶后,部分桶中的数据远高于其他分桶。最终导致部分Task过重,运行很慢;其他Task过轻,运行很快。一方面,数据量大Task运行慢,使得计算性
优化小文件场景下的Spark SQL性能 配置场景 Spark SQL的表中,经常会存在很多小文件(大小远小于HDFS块大小),每个小文件默认对应Spark中的一个Partition,也就是一个Task。在很多小文件场景下,Spark会起很多Task。当SQL逻辑中存在Shuff
使用Hash shuffle出现任务失败 问题 使用Hash shuffle运行1000000(map个数)*100000(reduce个数)的任务,运行日志中出现大量的消息发送失败和Executor心跳超时,从而导致任务失败。 回答 对于Hash shuffle,在shuffl
登录FusionInsight Manager,选择“集群 > 服务 > Hive > 配置 > 全部配置”。 修改Hive配置: 选择“WebHCat > 安全”,在该界面选择HTTPS或者HTTP,修改后重启Hive服务即可使用对应的协议。 父主题: Hive企业级能力增强
建库、表脚本迁移、重建元数据操作时需要特别注意,防止错误。 操作步骤 登录FusionInsight Manager页面,选择“集群 > 服务 > Hive > 配置 > 全部配置”。 选择“HiveServer(角色) > 自定义”,对参数文件“hive-site.xml”添加自定义参数,设置“名称”为“hive
用户可以设置参数use_metadata_cache值为1或者为true,通过RocksDB将元数据预先缓存到内存。 使用ClickHouse客户端连接到ClickHouse服务端,具体请参考ClickHouse客户端使用实践。 设置表元数据预先缓存能力。 对历史表设置元数据缓存: ALTER TABLE <table
如'<','<=','>','>=','!>','!<'。 配置参数 登录FusionInsight Manager系统,选择“集群 > 服务 > Spark2x > 配置”,单击“全部配置”,搜索以下参数。 参数 说明 默认值 spark.sql.dropPartitionsInBatch
Manager内所有集群全部组件的运行状态均为“良好”。 Manager内所有集群的ZooKeeper服务的“acl.compare.shortName”参数需确保为默认值“true”。否则请修改该参数为“true”后重启ZooKeeper服务。 修改MRS集群系统域名 登录FusionInsight Manager。
x及之后版本。 配置Spark数据传输加密 参数修改入口:登录Manager页面,选择“集群 > 服务 > Spark > 配置”,展开“全部配置”页签,在搜索框中输入相关参数名称。 配置后应重启对应服务使参数生效。 表1 参数说明 配置项 描述 默认值 spark.authenticate
关闭授权后将导致集群状态变更为“网络通道未授权”,集群部分功能不可用,请谨慎操作。 图3 关闭通信安全授权 若用户已开启敏感操作保护(详见IAM服务的敏感操作),则输入选择的对应验证方式获取的验证码进行进行验证,避免误操作带来的风险和损失。 图4 身份验证 为关闭安全通信的集群开启安全通信
MapReduce任务长时间无进展 问题 MapReduce任务长时间无进展。 回答 一般是因为内存太少导致的。当内存较小时,任务中拷贝map输出的时间将显著增加。 为了减少等待时间,您可以适当增加堆内存空间。 任务的配置可根据mapper的数量和各mapper的数据大小来进行优
ClickHouse日志管理规则 日志路径 ClickHouse相关日志的默认存储路径为:“${BIGDATA_LOG_HOME}/clickhouse”。 ClickHouseServer运行相关日志:“/var/log/Bigdata/clickhouse/clickhouseServer/
API或者Flin写Hudi表的场景,通过这两种方式写Hudi时需要增加向Hive同步元数据的配置项;该配置的目的是将Hudi表的元数据统一托管到Hive元数据服务中,为后续的跨引擎操作数据以及数据管理提供便利。 父主题: Hudi数据表设计规范
Spark SQL企业级能力增强 配置矢量化读取ORC数据 配置过滤掉分区表中路径不存在的分区 配置Hive表分区动态覆盖 配置Spark SQL开启Adaptive Execution特性 配置SparkSQL的分块个数 父主题: 使用Spark2x(MRS 3.x及之后版本)
配置Yarn模式下Spark动态资源调度 操作场景 对于Spark应用来说,资源是影响Spark应用执行效率的一个重要因素。当一个长期运行的服务(比如JDBCServer),若分配给它多个Executor,可是却没有任何任务分配给它,而此时有其他的应用却资源紧张,这就造成了很大的资源浪费和资源不合理的调度。
Start参数值小于1,比如0.8,则Reduce就可以利用集群剩余资源。 操作步骤 参数入口: 进入Mapreduce服务参数“全部配置”界面,在搜索框中输入参数名称。具体操作请参考修改集群服务配置参数章节。 参数 描述 默认值 mapreduce.job.reduce.slowstart.completedmaps