检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置Spark读写Doris数据 Spark Doris Connector可以支持通过Spark读取Doris中存储的数据,也支持通过Spark写入数据到Doris中。 支持从Doris中读取数据 支持Spark DataFrame批量/流式写入Doris。 可以将Doris表
Flink支持ignoreDelete特性。 Yarn NodeManager支持优雅退服。 Kafka支持数据加密。 Spark支持子查询字段不带聚合函数语法(设置spark.sql.legacy.correlated.scalar.query.enabled参数值为true)。 Spark支持视图表
数组函数和运算符 下标操作符:[] 描述:下标操作符用于访问数组中的元素,并从1开始建立索引。 select myarr[5] from (values array [1,4,6,78,8,9],array[2,4,6,8,10,12]) as t(myarr); _col0
env = StreamExecutionEnvironment.getExecutionEnvironment(); // 设置并发度 env.setParallelism(1); // 解析运行参数 ParameterTool
env = StreamExecutionEnvironment.getExecutionEnvironment(); // 设置并发度 env.setParallelism(1); // 解析运行参数 ParameterTool
env = StreamExecutionEnvironment.getExecutionEnvironment(); // 设置并发度 env.setParallelism(1); // 解析运行参数 ParameterTool
Manager界面,选择“运维 > 日志 > 下载”。 在“服务”中勾选“NodeAgent”、“OmmServer”,单击“确定”。设置“主机”为告警所在节点和主OMS节点。 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后30分钟,单击“下载”。 请联系运维人员,并发送已收集的故障日志信息。
SavePoint Savepoint是指允许用户在持久化存储中保存某个checkpoint,以便用户可以暂停自己的任务进行升级。升级完后将任务状态设置为savepoint存储的状态开始恢复运行,保证数据处理的延续性。 Flink样例工程介绍 MRS样例工程获取地址为https://github
SavePoint Savepoint是指允许用户在持久化存储中保存某个checkpoint,以便用户可以暂停自己的任务进行升级。升级完后将任务状态设置为savepoint存储的状态开始恢复运行,保证数据处理的延续性。 样例工程介绍 MRS样例工程获取地址为https://github.c
env = StreamExecutionEnvironment.getExecutionEnvironment(); // 设置并发度 env.setParallelism(1); // 解析运行参数 ParameterTool
修改MRS集群LDAP普通用户密码 该任务指导用户定期修改MRS集群的LDAP管理员用户和LDAP用户的密码,以提升系统运维安全性。 MRS 3.1.0版本用户名称: LDAP管理员用户:cn=root,dc=hadoop,dc=com LDAP用户:cn=pg_search_dn
MRS集群版本生命周期 版本号说明 MRS当前提供两种版本集群的创建:普通版和LTS版。 MRS普通版集群版本号:格式为a.b.c.d,其中a.b为大版本号,c为小版本号,d为补丁版本,例如 MRS 3.1.5.1。 a:代表了版本有较大的变动。 b:代表了版本有一些组件的变动。
配置Spark多租户模式 配置场景 多租户模式是将JDBCServer和租户绑定,每一个租户对应一个或多个JDBCServer,一个JDBCServer只给一个租户提供服务。不同的租户可以配置不同的Yarn队列,从而达到资源隔离。 配置描述 登录Manager,选择“集群 > 服务
访问Hue WebUI界面 操作场景 MRS集群安装Hue组件后,用户可以通过Hue的WebUI,在图形化界面使用Hadoop生态相关组件。 该任务指导用户在MRS集群中打开Hue的WebUI。 Internet Explorer浏览器可能存在兼容性问题,建议更换兼容的浏览器访问Hue
调整HetuEngine INSERT写入优化 HetuEngine向Hive数据源分区表写入数据时,需要根据实际业务的查询结果中分区列数量添加相关自定义配置,以获得最佳的性能效果。 调整HetuEngine INSERT写入步骤 使用HetuEngine管理员用户登录FusionInsight
下图清晰地描述了MapReduce算法的整个流程。 图3 算法流程 概念上shuffle就是一个沟通数据连接的桥梁,实际上shuffle这一部分是如何实现的呢,下面就以Spark为例讲一下shuffle在Spark中的实现。 Shuffle操作将一个Spark的Job分成多个Stage,
AL机制,对可重放的sources,以及支持重复处理的幂等性sinks,可以提供端到端的exactly-once容错语义。 用户可在程序中设置option("checkpointLocation", "checkpoint路径")启用checkpoint。 从checkpoint
ble”为“*”的策略。 级联授权生成的HDFS/OBS存储源端的权限弱于HDFS Ranger策略的权限,即如果已经对表的HDFS存储源设置了HDFS Ranger权限,则级联权限将不会生效。 不支持对存储源为OBS的表级联授权后直接进行alter操作,需要给对应用户组额外授予
更换CA证书 操作场景 MRS CA证书用于组件客户端与服务端在通信过程中加密数据,实现安全通信。该任务指导集群用户通过FusionInsight Manager完成CA证书替换工作,以确保产品安全使用。适用于以下场景: 首次安装好集群以后,需要更换企业证书。 企业证书有效时间已过期或安全性加强,需要更换为新的证书。
AL机制,对可重放的sources,以及支持重复处理的幂等性sinks,可以提供端到端的exactly-once容错语义。 用户可在程序中设置option("checkpointLocation", "checkpoint路径")启用checkpoint。 从checkpoint