检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
210-1446519981645 (Datanode Uuid bcada350-0231-413b-bac0-8c65e906c1bb) service to vm-210/10.91.8.210:8020 | BPServiceActor.java:824 java.lang.Il
210-1446519981645 (Datanode Uuid bcada350-0231-413b-bac0-8c65e906c1bb) service to vm-210/10.91.8.210:8020 | BPServiceActor.java:824 java.lang.Il
t操作后,会在外表数据路径下生成新的数据文件,且文件属组是userB,当userA查询tableA时,会读取外表数据目录下的所有的文件,此时会因没有userB生成的文件的读取权限而查询失败。 实际上,不只是查询场景,还有其他场景也会出现问题。例如:inset overwrite操
Hdfs Content-Length: 0 Connection: close 打开“/huawei/testHdfs”文件,并读取文件中上传写入的内容。 执行如下命令访问HTTP: linux1:/opt/client # curl -L --negotiate -u: "h
TABLE ddltest ALTER COLUMN string TYPE decimal(20,10); 在源数据库中插入数据,数据可以正常写入Hudi。 在源数据库侧,将数据类型VARCHAR修改为NUMBER。 在CDL WebUI界面启动任务,源数据库更新数据。 将数据类型NUMBER修改为VARCHAR
Hdfs Content-Length: 0 Connection: close 打开“/huawei/testHdfs”文件,并读取文件中上传写入的内容。 执行如下命令访问HTTP: linux1:/opt/client # curl -L --negotiate -u: "h
Spark SQL企业级能力增强 配置矢量化读取ORC数据 配置过滤掉分区表中路径不存在的分区 配置Hive表分区动态覆盖 配置Spark SQL开启Adaptive Execution特性 配置SparkSQL的分块个数 父主题: 使用Spark2x(MRS 3.x及之后版本)
nonstrict模式是按照表进行拦截的,即对提交的SQL任务判断是否存在查询的表和写入的表是同一张表,如果存在就进行拦截,否则不拦截。nonstrict模式的拦截逻辑是在SQL编译阶段完成的,该模式优点是拦截效率高,缺点是查询和写入分区所对应的表相同,分区不同时也会被拦截。 strict模式是按照
t操作后,会在外表数据路径下生成新的数据文件,且文件属组是userB,当userA查询tableA时,会读取外表数据目录下的所有的文件,此时会因没有userB生成的文件的读取权限而查询失败。 实际上,不只是查询场景,还有其他场景也会出现问题。例如:inset overwrite操
_size表示,也可以使用多磁盘相关的参数表示。volume_type和volume_size这两个参数如果与多磁盘参数同时出现,系统优先读取volume_type和volume_size参数。建议使用多磁盘参数。 约束限制: 不涉及 取值范围: SATA:普通IO SAS:高IO
ALTER TABLE修改表结构 ALTER TABLE修改表数据 DESC查询表结构 DROP删除表 SHOW显示数据库和表信息 Upsert数据写入 父主题: 使用ClickHouse
设置客户端访问Jobhistory的最大并发数量。 5000 EventLog Spark应用在运行过程中,实时将运行状态以JSON格式写入文件系统,用于HistoryServer服务读取并重现应用运行时状态。 表16 参数说明 参数 描述 默认值 spark.eventLog.enabled 是否记
MRS提供多种主流计算引擎:MapReduce(批处理)、Tez(DAG模型)、Spark(内存计算)、SparkStreaming(微批流计算)、Storm(流计算)、Flink(流计算),满足多种大数据应用场景,将数据进行结构和逻辑的转换,转化成满足业务目标的数据模型。 基于预设的数据模型,使用易用的SQL数据
使用Spark2x(MRS 3.x及之后版本) Spark用户权限管理 Spark客户端使用实践 配置Spark读取HBase表数据 配置Spark任务不获取HBase Token信息 Spark Core企业级能力增强 Spark SQL企业级能力增强 Spark Streaming企业级能力增强
设置客户端访问Jobhistory的最大并发数量。 5000 EventLog Spark应用在运行过程中,实时将运行状态以JSON格式写入文件系统,用于HistoryServer服务读取并重现应用运行时状态。 表16 参数说明 参数 描述 默认值 spark.eventLog.enabled 是否记
由于SQL的KeyGenerator默认是org.apache.hudi.keygen.ComplexKeyGenerator,要求DataSource方式写入时KeyGenerator与SQL设置的一致。 父主题: Hudi SQL语法参考
数据分布设计 Shard数据分片均匀分布 建议用户的数据均匀分布到集群中的多个shard分片,如图1所示有3个分片。 假如有30 GB数据需要写入到集群中,需要将30 GB数据均匀切分后分别放到shard-1、shard-2和shard-3的3个分片节点中,以充分发挥MPP查询时并行
Hive用户权限管理 Hive客户端使用实践 快速使用Hive进行数据分析 Hive数据存储及加密配置 Hive on HBase 配置Hive读取关系型数据库数据 Hive企业级能力增强 Hive性能调优 Hive运维管理 Hive常见SQL语法说明 Hive常见问题 Hive故障排除
Spark on Hudi开发规范 SparkSQL建表参数规范 Spark增量读取Hudi参数规范 Spark异步任务执行表compaction参数设置规范 Spark on Hudi表数据维护规范 Spark并发写Hudi建议 Spark读写Hudi资源配置建议 Spark On
Spark使用说明 Spark用户权限管理 Spark客户端使用实践 访问Spark WebUI界面 使用代理用户提交Spark作业 配置Spark读取HBase表数据 配置Spark任务不获取HBase Token信息 Spark Core企业级能力增强 Spark SQL企业级能力增强