检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
败问题。 MRS大数据组件 MRS Hive解决hive server内存泄露问题:HIVE-10970、HIVE-22275。 补丁兼容关系 MRS 2.1.0.10补丁包中包含MRS 2.1.0版本发布的所有补丁内容。 已修复漏洞披露 解决Spark远程代码执行漏洞,漏洞详细请参考CVE-2020-9480
--command-config ../config/client.properties --topic 主题名称 执行以下命令,查询Broker_ID和IP对应关系。 ./kafka-broker-info.sh --zookeeper ZooKeeper的quorumpeer实例业务IP:ZooKeeper客户端端口号/kafka
数据量非常小的事实表 这种可以在预估很长一段时间的数据增长量的前提下使用非分区表预留稍宽裕一些的桶数来提升读写性能。 确认表内桶数 Hudi表的桶数设置,关系到表的性能,需要格外引起注意。 以下几点,是设置桶数的关键信息,需要建表前确认。 非分区表 单表数据总条数 = select count(1)
这增强了首次查询性能 carbon.enable.compact.autoclean false 在设置为true时,会在执行compact成功后调用clean files命令来清理废弃文件。 说明: MRS 3.2.0及之后版本支持才支持该功能。 查询配置 max.query.execution
执行以下命令,切换到IoTDB客户端运行脚本所在目录。 cd /opt/client/IoTDB/iotdb/sbin 集群未启用Kerberos认证(普通模式)需先调用“alter-cli-password.sh”脚本修改默认用户root的默认密码: sh alter-cli-password.sh IoTDBServer实例节点IP
小文件(10MB以下),同时又需要存放一些比较大的文件(10MB以上)。 HFS为以上场景提供了统一的操作接口,这些操作接口与HBase的函数接口类似。 HBase开源增强特性:HBase双读 在HBase存储场景下,因为GC、网络抖动、磁盘坏道等原因,很难保证99.9%的查询稳
持创建任务手动恢复数据。 ClickHouse备份恢复功能不支持识别用户的ClickHouse表、索引、视图等对象在业务和结构上存在的关联关系。用户在执行备份恢复任务时,需要根据业务场景管理统一的恢复点,防止影响业务正常运行。 该功能仅MRS 3.1.0及之后版本支持。 只支持进
e -Djava.io.tmpdir=${Bigdata_tmp_dir} NameNode文件数量和NameNode使用的内存大小成比例关系,文件对象变化时请修改默认值中的“-Xms2G -Xmx4G -XX:NewSize=128M -XX:MaxNewSize=256M”。参考值如下表所示。
实时OLAP场景化方案 实时OLAP场景化方案如图1所示。 图1 实时OLAP场景化方案 数据源:业务系统产生的数据,可以是离线的文件数据,关系型数据库数据,或者实时采集的流式数据等。 大数据平台:实时OLAP的核心数据处理平台,包含离线数据加工、实时数据加工、实时OLAP等模块。
界面显示以下信息表示用户名或者密码错误: login manager failed,Incorrect username or password. 该脚本会自动连接到集群并调用refreshConfig.sh脚本下载并刷新客户端配置文件。 客户端默认使用安装目录下文件Version中的“wsom=xxx”所配置的
hetu-updateKrb5.log 部署Hive集群更换域后,Hive数据源配置自动刷新时打印的日志。 hetu_utils.log 启动时预处理脚本调用工具类上传文件到HDFS时打印的日志。 日志级别 HetuEngine中提供了如表2所示的日志级别。日志级别优先级从高到低分别是OFF、E
HDFS block的大小很重要,需要在提高并行性,进行shuffle操作的数据量和聚合表的大小之间达到平衡。 分割和Executors的关系 如果分割数小于等于Executor数乘以Executor核数,那么任务将以并行方式运行。否则,某些任务只有在其他任务完成之后才能开始。因
败问题。 MRS大数据组件 MRS Hive解决hive server内存泄露问题:HIVE-10970、HIVE-22275。 补丁兼容关系 MRS 2.1.0.11补丁包中包含MRS 2.1.0版本发布的所有补丁内容。 已修复漏洞披露 解决Spark远程代码执行漏洞,漏洞详细请参考CVE-2020-9480
HDFS block的大小很重要,需要在提高并行性,进行shuffle操作的数据量和聚合表的大小之间达到平衡。 分割和Executors的关系 如果分割数小于等于Executor数乘以Executor核数,那么任务将以并行方式运行。否则,某些任务只有在其他任务完成之后才能开始。因
该服务中所有角色实例状态为“未知”。 正在恢复 后台系统正在尝试自动启动服务。 亚健康 该服务所依赖的服务状态不正常,异常服务的相关接口无法被外部调用,此时与状态不正常服务相关的上层业务会受到影响。 HBase、Hive、Spark和Loader组件可显示“亚健康”(Subhealthy)状态。
表分区个数 Hive所有表分区个数监控,返回值的格式为:数据库#表名,表分区个数。 HQL的Map数 Hive周期内执行的HQL与执行过程中调用的Map数统计,展示的信息包括:用户、HQL语句、Map数目。 HQL访问次数 周期内HQL访问次数统计信息。 Kafka Kafka磁盘使用率分布
应用部分临时数据无法清空。 运行DataStream样例程序(Scala和Java语言)。 在终端另开一个窗口,进入Flink客户端目录,调用bin/flink run脚本运行代码,例如: bin/flink run --class com.huawei.flink.example
// Hive会将sql查询封装成另一个MapReduce任务并提交 // 所以不建议在MapReduce作业中调用Hive final String driver = "org.apache.hive.jdbc.HiveDriver";
创建Python任务 登录到集群Manager界面,在Yarn的WebUI页面上查看提交的pyspark应用。 图5 查看任务运行情况 验证pandas库调用。 图6 验证pandas 对接Jupyter常见问题 pandas本地import使用时,报错如下: 参考以下步骤进行处理: 执行命令python
// Hive会将sql查询封装成另一个MapReduce任务并提交 // 所以不建议在MapReduce作业中调用Hive final String driver = "org.apache.hive.jdbc.HiveDriver";