检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
通过该接口可查找指定文件在HDFS集群上块的位置,其中“file”为文件的完整路径,“start”和“len”来标识查找文件的块的范围。 public FSDataInputStream open(Path f) 通过该接口可以打开HDFS上指定文件的输出流,并可通过FSDataInpu
Doris数据备份支持最小分区(Partition)级别的操作,当表的数据量很大时,建议按分区分别执行,以降低失败重试的代价。 因为备份恢复操作,操作的都是实际的数据文件,所以当一个表的分片过多,或者一个分片有过多的小版本时,可能即使总数据量很小,依然需要备份很长时间。 当通过SHOW
产生告警的主机名。 Details 对告警信息的补充。 对系统的影响 无法使用Oozie服务调度任务。 可能原因 DBService服务异常或者Oozie存储在DBService中的数据遭到破坏,导致Oozie服务不可用。 HDFS服务异常或者Oozie存储在HDFS中的数据遭到破坏时,导致Oozie服务不可用。
txt文件在Alluxio中,各参数含义为文件的大小、是否被持久化、创建日期、Alluxio中这个文件的缓存占比、文件名。 使用cat命令打印文件的内容。 alluxio fs cat /test_input.txt 命令执行后回显: Test Alluxio Alluxio中的挂载功能 Alluxio
开发Hive用户自定义函数 当Hive的内置函数不能满足需要时,可以通过编写用户自定义函数UDF(User-Defined Functions)插入自己的处理代码并在查询中使用它们。 按实现方式,UDF分为有如下分类: 普通的UDF,用于操作单个数据行,且产生一个数据行作为输出。
信息”中的“主机名”信息可知发出该告警的NameNode节点主机名;从“定位信息”中的NameServiceName信息可知发出该告警的NameService名称。 查看是否阈值设置过低。 查看依赖于HDFS的业务的运行状态是否正常运行。查看是否存在运行慢、执行任务超时的情况。 是,执行8。
在弹窗“IAM用户同步”的“待同步”页面,搜索需要同步IAM用户所在的用户组,单击对应的用户组名称。在“用户”中勾选需要同步的IAM用户,单击“同步”。 如需同步所有的用户,在“待同步”中勾选“全部同步”即可。 如只勾选“用户组”,该用户组下的用户不会同步,必须勾选“用户组”下对应的用户名称才能同步。
0版本引入了创建幂等性Producer的功能,开启此特性后,Producer自动升级成幂等性Producer,当Producer发送了相同字段值的消息后,Broker会自动感知消息是否重复,继而避免数据重复。需要注意的是,这个特性只能保证单分区上的幂等性,即一个幂等性Producer能够保证某个主题的一个分区
根据业务需求确定是否要创建具有ClickHouse管理员权限的角色。 ClickHouse管理员权限为:除去对user/role的创建、删除和修改之外的所有数据库操作权限。 对于用户和角色的管理,仅有ClickHouse的内置用户clickhouse具有权限。 是,执行3。 否,执行4。
Source在按行读取过程中,会忽略掉每一个Event的最后一个换行符,该换行符所占用的数据量指标不会被Flume统计。 Kafka Source Kafka Source从Kafka的topic中消费数据,可以设置多个Source消费同一个topic的数据,每个Source会消费topic的不同partitions。常用配置如表
ZooKeeper是一个开源的,高可靠的,分布式一致性协调服务。ZooKeeper设计目标是用来解决那些复杂,易出错的分布式系统难以保证数据一致性的。不必开发专门的协同应用,十分适合高可用服务保持数据一致性。 背景信息 在使用客户端前,除主管理节点以外的客户端,需要下载并更新客户端配置文件。
lume内建拦截器的类名列表,也可以开发自定义的拦截器来实现Event的修改或丢弃。Flume内建支持的拦截器如下表所示,本章节会选取一个较为复杂的作为示例。其余的用户可以根据需要自行配置使用。 拦截器用在Flume的Source、Channel之间,大部分的Source都带有I
和被更新的数据进行标记删除,同时将新的数据写入新的文件。在查询时,所有被标记删除的数据都会在文件级别被过滤,读取出的数据就都是最新的数据,消除了读时合并中的数据聚合过程,并且能够在很多情况下支持多种谓词的下推。因此在许多场景都能带来比较大的性能提升,尤其是在有聚合查询的情况下。 Duplicate模型
1.0.5补丁安装后,需要重新下载安装全量的客户端,包含Master节点的原始客户端和虚拟私有云的其他节点使用的客户端(即您自行搭建的客户端)。 主备Master节点的原始客户端全量更新,请参见更新客户端配置(2.x及之前版本)。 自行搭建的客户端全量安装方法,请参见安装客户端(2
Streaming提供的抽象概念。 DStream表示一个连续的数据流,是从数据源获取或者通过输入流转换生成的数据流。从本质上说,一个DStream表示一系列连续的RDD。RDD一个只读的、可分区的分布式数据集。 DStream中的每个RDD包含了一个区间的数据。如图4所示。 图4 DStream与RDD关系
在异构集群中,需要分配一些特定的具有高可靠性的节点用以存放重要的商业数据,可以通过标签表达式指定副本位置,指定文件数据块的其中一个副本存放到高可靠性的节点上。 “/data”目录下的数据块,默认三副本情况下,其中至少有一个副本会被存放到RACK1或RACK2机架的节点上(RACK1和RA
其中“total”表示总资源,不是调度策略。 同开源的调度器相比,Superior Scheduler同时提供了租户级百分比和绝对值的混配策略,可以很好的适应各种灵活的企业级租户资源调度诉求。例如,用户可以在一级租户提供最大绝对值的资源保障,这样租户的资源不会因为集群的规模改变而受影响。但在下层的子租户之间,可以提
在异构集群中,需要分配一些特定的具有高可靠性的节点用以存放重要的商业数据,可以通过标签表达式指定副本位置,指定文件数据块的其中一个副本存放到高可靠性的节点上。 “/data”目录下的数据块,默认三副本情况下,其中至少有一个副本会被存放到RACK1或RACK2机架的节点上(RACK1和RA
JDK,不支持在Windows环境中直接运行应用程序。 需要在运行样例代码的本机hosts文件中设置访问节点的主机名和公网IP地址映射,主机名和公网IP地址请保持一一对应。 在本地Windows环境中调测Doris应用 单击IDEA右边Maven窗口的“Reimport All Maven Projec
S组件的该配置项的值保持一致。 需修改Doris所在集群的DBroker的“BROKER_GC_OPTS”配置项的“-Djava.security.krb5.conf”参数,值为拷贝Hive所在集群的任一HiveServer实例节点的“$BIGDATA_HOME/FusionIn