检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Project对话框中选择样例工程文件夹“hdfs-example-security”,单击“OK”。 将工程依赖的jar包添加到类路径。 如果通过开源镜像站方式获取的样例工程代码,在配置好Maven后(配置方式参考配置华为开源镜像仓), 相关依赖jar包将自动下载,不需手动添加。 将工程中的conf目录添加到资源路径。
credentials (49); Account locked 前提条件 已确认主管理节点IP地址。 修改LDAP管理账户密码 以omm用户通过管理节点IP登录主管理节点。 执行以下命令,切换到目录。 cd ${BIGDATA_HOME}/om-server/om/meta-0.0
commits个Instant不会被归档,以此保证有足够的Instant去触发compation schedule。 系统响应 可在driver日志和客户端中查看命令运行成功或失败。 父主题: Hudi DML语法说明
where column1 = 'xxx'); 示例5: delete from h0; 系统响应 可在driver日志和客户端中查看命令运行成功或失败。 父主题: Hudi DML语法说明
存量avro格式表,查询avro表之前设置参数spark.sql.forceConvertSchema.enabled=true,如果查询失败,可能avro格式表schema被缓存,执行refresh table命令,清除缓存后再设置参数进行查询,会将avro表格式强转指定数据类型,客户端临时修改schema。
字符的长度为“3”,从而导致在Impala SQL中使用substr(),substring(),strleft()等函数截取中文字符时,不能把中文当做1个字符长度来处理,导致报编码问题。 处理步骤 登录Impala客户端安装节点,执行以下命令。 cd 客户端安装目录 source
开发环境的基本配置。 安装Maven 开发环境的基本配置。用于项目管理,贯穿软件开发生命周期。 华为提供开源镜像站,各服务样例工程依赖的Jar包通过华为开源镜像站下载,剩余所依赖的开源Jar包请直接从Maven中央库或者其他用户自定义的仓库地址下载,详情请参考配置华为开源镜像仓。 7-zip
CALLED ON NULL INPUT ] [ SYMBOL class_name ] [ URI hdfs_path_to_jar ] 描述 通过给定的定义创建一个新的函数。 每一个函数都由其限定函数名称和参数类型列表唯一标识。“qualified_function_name”的格式需要为“catalog
如何采用Java命令提交Spark应用 SparkSQL UDF功能的权限控制机制 由于kafka配置的限制,导致Spark Streaming应用运行失败 如何使用IDEA远程调试 使用IBM JDK产生异常,提示“Problem performing GSS wrap”信息 Spark on
如果集群启用了安全服务,按登录方式需要进行以下配置: keytab方式:需要从管理员处获取一个“人机”用户,用于登录FusionInsight Manager平台并通过认证,并且获取到该用户的keytab文件。 票据方式:从管理员处获取一个“人机”用户,用于后续的安全登录,开启Kerberos服务的ren
//源表数据结构转换为目标表的数据结构。该源表如果需要和Hive进行关联操作,可以直接在SQL中通过表名来进行关联操作;该源表如果需要和Hudi表关联操作,需要先指定Hudi表的路径,然后在SQL中通过表名来进行关联操作。 父主题: Hudi写操作
产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 用户提交的Spark任务执行失败。 可能原因 KrbServer服务异常。 LdapServer服务异常。 ZooKeeper服务异常。 HDFS服务异常。 Yarn服务异常。
以采用限定长度内的任意可见字符进行组合作为分隔符来导入数据文件。 该章节内容仅适用于MRS 3.2.0及之后版本。 使用约束 自定义分隔符不能为空字符串。 自定义分隔符长度必须小于等于16个字符。 自定义分隔符过长会影响解析效率,降低数据导入速度,且会导致有效数据占比率降低,使得
DataNode磁盘到80%,即需要及时扩容,请参考扩容集群。扩容完成后需进行数据均衡,请参考配置HDFS DataNode数据均衡。 如不能及时扩容,需要删除HDFS中的不需要数据,释放磁盘空间。 父主题: 使用HDFS
操作步骤 Spark程序运行时,在shuffle和RDD Cache等过程中,会有大量的数据需要序列化,默认使用JavaSerializer,通过配置让KryoSerializer作为数据序列化器来提升序列化性能。 在开发应用程序时,添加如下代码来使用KryoSerializer作为数据序列化器。
执行show functions操作后的结果 回答 问题根因: 上述两个问题是由于多主实例模式或者多租户模式下,使用spark-beeline通过add jar的方式创建function,此function在各个JDBCServer实例之间是不可见的。执行drop function时
操作步骤 Spark程序运行时,在shuffle和RDD Cache等过程中,会有大量的数据需要序列化,默认使用JavaSerializer,通过配置让KryoSerializer作为数据序列化器来提升序列化性能。 在开发应用程序时,添加如下代码来使用KryoSerializer作为数据序列化器。
建表属性中指定hoodie.merge-engine=aggregate开启hudi表的聚合引擎功能。开启聚合引擎后,每个非主键字段都可以被赋予一个聚合函数,通过字段的fields.<field-name>.aggregate-function表属性来指定。例如,考虑以下表定义。 create table
把结果输入给reduce任务,最后返回给客户端。通常作业的输入和输出都会被存储在文件系统中。整个框架负责任务的调度和监控,以及重新执行已经失败的任务。 MapReduce主要特点如下: 大规模并行计算 适用于大型数据集 高容错性和高可靠性 合理的资源调度 父主题: MapReduce应用开发概述
增量视图,需设置set hoodie.hudicow.consume.mode = INCREMENTAL;,但该参数仅限于增量视图查询,不能用于Hudi表的其他类型查询,和其他表的查询。 恢复配置可设置set hoodie.hudicow.consume.mode = SNAPSHOT;或任意值。