检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
导出Doris查询结果集 本章节主要介绍如何使用SELECT INTO OUTFILE命令,将Doris查询结果集使用指定的文件格式导出到指定的存储系统中。 导出命令不会检查文件及文件路径是否存在、是否会自动创建路径、或是否会覆盖已存在文件,由远端存储系统的语义决定。 如果在导出
MRS集群内的节点中可以部署爬虫服务吗? 问: MRS集群内的节点中可以部署爬虫服务吗? 答: 为正常保障集群稳定运行,MRS集群内节点中不能部署爬虫服务或其他第三方服务。 父主题: 周边生态对接类
是否可以手动调整DataNode数据存储目录 问题 数据块在DataNode上的存储目录由“dfs.datanode.data.dir”配置项指定,是否可以修改该配置项来修改数据存储目录? 是否可以手动拷贝数据存储目录下的文件? 回答 “dfs.datanode.data.dir
是否可以手动调整DataNode数据存储目录 问题 数据块在DataNode上的存储目录由“dfs.datanode.data.dir”配置项指定,是否可以修改该配置项来修改数据存储目录? 是否可以手动拷贝数据存储目录下的文件? 回答 “dfs.datanode.data.dir
配置MRS集群间互信 当不同的两个Manager系统下安全模式的集群需要互相访问对方的资源时,系统管理员可以设置互信的系统,使外部系统的用户可以在本系统中使用。 如果未配置跨集群互信,每个集群资源仅能被本集群用户访问。每个系统用户安全使用的范围定义为“域”,不同的Manager系
和数据不是平均分布在各节点,而是集中在个别节点时,可以增大并行度使任务和数据更均匀的分布在各个节点。增加任务的并行度,充分利用集群机器的计算能力。 操作步骤 任务的并行度可以通过以下四种层次(按优先级从高到低排列)指定,用户可以根据实际的内存、CPU、数据以及应用程序逻辑的情况调整并行度参数。
引擎,提供IUD接口,在 HDFS的数据集上提供了插入更新和增量拉取的流原语。 商用 Hudi基本原理 Hudi快速入门 2 ClickHouse组件版本升级到21.3.4.25,支持数据重分布 ClickHouse节点扩容后,数据迁移可以使得ClickHouse集群内数据达到均衡。
DB等组件,可以根据不同集群版本选择不同的组件,具体各版本集群的组件详情可以参考MRS组件版本一览表和组件操作指南。 MRS集群版本选择建议 LTS版集群支持版本升级能力,如果您需要使用版本升级能力,您可以选择购买LTS版集群。 LTS版集群具备多可用区部署能力,可以实现集群可用
igint类型的值转换为varchar类型。 如果有必要,可以将值显式转换为指定类型。 cast(value AS type) → type 显式转换一个值的类型。可以将varchar类型的值转为数字类型,反过来转换也可以。 select cast('186' as int );
使用scan命令仍然可以查询到已修改和已删除的数据 问题 为什么使用如下scan命令仍然可以查询到已修改和已删除的数据? scan '<table_name>',{FILTER=>"SingleColumnValueFilter('<column_family>','column'
di的调优和Spark比较类似。 推荐资源配置 mor表: 由于其本质上是写增量文件,调优可以直接根据Hudi的数据大小(dataSize)进行调整。 dataSize如果只有几个G,推荐跑单节点运行spark,或者yarn模式但是只分配一个container。 入湖程序的并行度p设置:建议p
添加集群到KafkaManager的WebUI界面 首次创建Kafka集群后会在KafkaManager的WebUI界面创建名为my-cluster的默认Kafka集群,用户也可以在KafkaManager的WebUI界面自行添加已经通过MRS控制台创建的Kafka集群,用于管理多个Kafka集群。 登录KafkaManager的WebUI界面。
考Spark Core性能调优。 推荐资源配置 mor表: 由于其本质上是写增量文件,调优可以直接根据hudi的数据大小(dataSize)进行调整。 dataSize如果只有几个G,推荐跑单节点运行spark,或者yarn模式但是只分配一个container。 入湖程序的并行度p设置:建议
使用scan命令仍然可以查询到已修改和已删除的数据 问题 为什么使用如下scan命令仍然可以查询到已修改和已删除的数据? scan '<table_name>',{FILTER=>"SingleColumnValueFilter('<column_family>','column'
设置会导致任务提交失败。 回答 部分时区存在适配问题,建议时区选择“Asia/Shanghai”,如图1所示。 图1 时区选择 支持的时区可以参考Oozie WebUI页面“Settings”页签的“Timezone”,如图2。 图2 时区参考 父主题: Hue常见问题
ClickHouse集群名] ON CLUSTER ClickHouse集群名的语法,使得该DDL语句执行一次即可在集群中所有实例上都执行。集群名信息可以使用以下语句的cluster字段获取: select cluster,shard_num,replica_num,host_name from
DataArts Studio调度Spark作业偶现失败如何处理? 问题现象 DataArts Studio调度spark作业,偶现失败,重跑失败,作业报错: Caused by: org.apache.spark.SparkException: Application appli
使用Flume搜集日志时,需要在日志主机上安装Flume客户端。用户可以创建一个新的ECS并安装Flume客户端。 前提条件 已创建包含Flume组件的集群。 日志主机需要与MRS集群在相同的VPC和子网。 已获取日志主机的登录方式。 安装目录可以不存在,会自动创建。但如果存在,则必须为空。目录路径不能包含空格。
的数据滞后性的问题,因此物化视图推荐在如下场景中使用: 执行频次高的查询。 查询包含非常耗时的操作,比如聚合、连接操作等。 对查询结果数据可以允许有一定的滞后性。 物化视图仅支持对接共部署Hive和外接Hive数据源,并且数据源表的存储格式为ORC或者PARQUET,不支持跨源跨域场景。
启动停止MRS集群 当不再需要使用MRS集群或对集群进行故障修复时,用户可以通过在MRS管理控制台或Manager中停止集群,集群停止后,集群内的组件将无法对外提供服务。 用户也可以将已停止的集群再次启动。 前提条件 如果通过MRS管理控制台操作,需要已完成IAM用户同步(在集群