检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
psert写入小数据量时可能触发更新数据的小文件合并,使在Mor表的读优化视图中能查到部分更新数据。 当update的数据对应的base文件是小文件时,insert中的数据和update中的数据会被合在一起和base文件直接做合并产生新的base文件,而不是写log。 分区设置操作
Hive表的Location支持跨OBS和HDFS路径吗 问题 Hive表的location支持跨OBS和HDFS路径吗? 回答 Hive存储在OBS上的普通表,支持表location配置为hdfs路径。 同一个Hive服务中可以分别创建存储在OBS上的表和存储在HDFS上的表。 H
在建表设计时指定主键字段的建议:按查询时最常使用且过滤性最高的字段作为主键。依次按照访问频度从高到低、维度基数从小到大来排列。数据是按照主键排序存储的,查询的时候,通过主键可以快速筛选数据,合理的主键设计,能够大大减少读取的数据量,提升查询性能。例如所有的分析,都需要指定业务的id,则可以将业务id字段作为主键的第一个字段顺序。
Loader常见问题 使用IE浏览器配置Loader作业时无法保存数据 将Oracle数据库中的数据导入HDFS时各连接器的区别 SQLServer全数据类型导入HDFS数据跳过 Loader作业导入大量数据至HDFS时报错 sftp-connector连接器相关作业运行失败 父主题:
在启用Adaptive Execution特性前,Spark SQL根据RBO和CBO的优化结果创建执行计划,此种方法忽略了数据在运行过程中的结果集变化。比如基于某个大表创建的视图,与其他大表join时,即便视图的结果集很小,也无法将执行计划调整为BroadcastJoin。启用Adaptive
在启用Adaptive Execution特性前,Spark SQL根据RBO和CBO的优化结果创建执行计划,此种方法忽略了数据在运行过程中的结果集变化。比如基于某个大表创建的视图,与其他大表join时,即便视图的结果集很小,也无法将执行计划调整为BroadcastJoin。启用Adaptive
是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 备Manager的配置文件没有更新。当发生主备倒换时,同步异常的配置文件可能会丢失。Manager及部分组件可能无法正常运行。
使用Hcatalog方式同步Hive和MySQL之间的数据,timestamp和data类型字段会报错 问题 使用Hcatalog方式同步Hive和MySQL之间的数据,timestamp和data类型字段会报错: 回答 调整Sqoop源码包中的代码,将timestamp强制转换类型和Hive保持一致。
心跳和数据判齐功能用于统计CDL同步任务的全链路信息, 包括从数据库管理系统RDBMS到Kafka的数据耗时、从Kafka消费数据写入到Hudi的数据耗时和数据条数等一系列信息,并将其写入到特定的Topic(cdl_snapshot_topic)中,用户可自行消费Topic中的数据并写入到某个特定H
如何获取MRS集群ZooKeeper的IP地址和端口? ZooKeeper的IP地址和端口可以通过MRS控制台或登录Manager界面获取。 方法一:通过MRS控制台获取 在MRS集群详情页的“概览”页签,单击“IAM用户同步”右侧的“同步”进行IAM用户同步。 选择“组件管理 >
接收到的数据都是相同的,而“multiplexing”表示根据event中header的value来选择特定的channel,每个channel中的数据是不同的。 interceptors - 拦截器。多个拦截器用空格分开。 inputCharset UTF-8 读取文件的编码格
通过选择集群所建的区域及使用的云资源规格,一键式购买适合企业业务的MRS集群。MRS服务会根据用户选择的集群类型、版本和节点规格,帮助客户自动完成华为云企业级大数据平台的安装部署和参数调优。 MRS服务为客户提供完全可控的大数据集群,客户在创建时可设置虚拟机的登录方式(密码或者
ash技术的函数。 MinHash用于估计两个集合的Jaccard相似系数。它通常用于数据挖掘,用于大规模检测近乎相同的网页。通过使用这些信息,搜索引擎有效地避免了在搜索结果中显示两个几乎相同的网页。 以下示例展示了如何使用Set Digest函数来简单估计文本之间的相似性。通过
指定导出数据的分隔符,与需要导出的HDFS中的数据表中的分隔符保持一致。 -m或-num-mappers <n> 启动n个map来并行导入数据,默认是4个,该值请勿高于集群的最大Map数。 -direct 快速模式,利用了数据库的导入工具,如MySQL的mysqlimport,可以比jdbc连接的方式更为高效的将数据导入到关系数据库中。
备Manager的配置文件没有更新。主备倒换之后,一些配置可能会丢失。Manager及部分组件可能无法正常运行。 可能原因 主备Manager节点间链路中断。 处理步骤 检查主备Manager服务器间的网络是否正常。 打开MRS集群详情页面,在告警管理页签的告警列表中,单击此告警所在行,在
Sqlline接口介绍 可以直接使用sqlline.py在服务端对HBase进行SQL操作。Phoenix的sqlline接口与开源社区保持一致,请参见http://phoenix.apache.org/。 Sqlline常用语法见表1,常用函数见表2,命令行使用可以参考Phoenix命令行操作介绍章节。
机架 一组包含使用相同交换机的多个主机集合的物理实体。 例如Rack1,包含Host1~Host5。 集群 由多台主机组成的可以提供多种服务的逻辑实体。 例如名为Cluster1的集群由(Host1~Host5)5个主机组成,提供了KrbServer和LdapServer等服务。
Kafka是一个分布式的、分区的、多副本的消息发布-订阅系统,它提供了类似于JMS的特性,但在设计上完全不同,它具有消息持久化、高吞吐、分布式、多客户端支持、实时等特性,适用于离线和在线的消息消费,如常规的消息收集、网站活性跟踪、聚合统计系统运营数据(监控数据)、日志收集等大量数据的互联网服务的数据收集场景。
集群内用户密码的过期时间如何查询和修改? 查询密码有效期 查询组件运行用户(人机用户、机机用户)密码有效期: 以客户端安装用户,登录安装了客户端的节点。 执行以下命令,切换到客户端目录,例如“/opt/Bigdata/client”。 cd /opt/Bigdata/client
Sqlline接口介绍 可以直接使用sqlline.py在服务端对HBase进行SQL操作。Phoenix的sqlline接口与开源社区保持一致,请参见http://phoenix.apache.org/。 Sqlline常用语法见表1,常用函数见表2,命令行使用可以参考Phoenix命令行操作介绍章节。