检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
本章节介绍如何使用Spark操作Hudi执行插入数据、查询数据、更新数据、增量查询、特定时间点查询、删除数据等操作。 详细代码请参考样例代码。 打包项目 将user.keytab、krb5.conf 两个文件上传客户端所在服务器上。 通过IDEA自带的Maven工具,打包项目,生成
执行CDL同步数据到Hudi任务报错当前用户无权限创建表 现象描述 执行CDL同步数据到Hudi任务后,在Manager界面,选择“集群 > 服务 > Yarn”,单击“ResourceManager Web UI”后的超链接进入Yarn WebUI界面,在任务列表中单击该任务I
执行以下命令配置环境变量。 source bigdata_env 如果当前集群已启用Kerberos认证,执行以下命令认证当前用户,当前用户需要具有创建ClickHouse表的权限,具体请参见创建ClickHouse角色章节,为用户绑定对应角色。如果当前集群未启用Kerberos认证,则无需执行本步骤。
表示在指定资源标签(Label)的节点上执行任务。 Active状态 ACTIVE表示当前队列可接受并执行任务。 INACTIVE表示当前队列可接受但不执行任务,如果提交任务,任务将处于挂起状态。 Open状态 OPEN表示当前队列处于打开状态。 CLOSED表示当前队列处于关闭状态,如果提交任务,任务直接会被拒绝。
如何通过集群外的节点访问MRS集群? 创建集群外Linux操作系统ECS节点访问MRS集群 创建一个集群外ECS节点,具体请参考购买弹性云服务器。 ECS节点的“可用区”、“虚拟私有云”、“安全组”,需要和待访问集群的配置相同。 在VPC管理控制台,申请一个弹性IP地址,并与ECS绑定。 具体请参见申请弹性公网IP。
ClickHouse是一款开源的面向联机分析处理的列式数据库,其独立于Hadoop大数据体系,最核心的特点是压缩率和极速查询性能。同时,ClickHouse支持SQL查询,且查询性能好,特别是基于大宽表的聚合分析查询性能非常优异,比其他分析型数据库速度快一个数量级。 ClickHouse核心的功能特性介绍如下:
单个备份或恢复任务的znode数量要少于操作系统的文件句柄限制。查看句柄限制的方式如下: 使用shell命令输入:cat /proc/sys/fs/file-max,用于查看系统级的最大限制。 使用shell命令输入:ulimit -n,用于查看用户级的限制。 对于父目录的znode数量超过上述
运行Spark作业 运行SparkSql作业 运行HiveSql作业 运行Flink作业 如何监控集群 查看MRS云服务操作日志 查看和定制集群监控指标 导出服务日志 管理服务和主机监控 查看及导出审计日志 运维授权 如何使用集群组件 快速使用Flink客户端 快速使用Flume 快速使用Hadoop
创建一个新的python3任务,使用Spark读取文件。 图4 创建Python任务 登录到集群Manager界面,在Yarn的WebUI页面上查看提交的pyspark应用。 图5 查看任务运行情况 验证pandas库调用。 图6 验证pandas 对接Jupyter常见问题 pandas本地import使用时,报错如下:
Superior通过REST接口查看已结束或不存在的applicationID,页面提示Error Occurred 问题 Superior通过REST接口查看已结束或不存在的applicationID,返回的页面提示Error Occurred。 回答 用户提交查看application
* 50%。 所有查询在单节点上磁盘吐出文件可用空间。 worker.config.properties/coordinator.config.properties query-max-spill-per-node 10GB 节点可用硬盘空间的80%。 单个查询在单节点上磁盘吐出文件可用空间。
Superior通过REST接口查看已结束或不存在的applicationID,页面提示Error Occurred 问题 Superior通过REST接口查看已结束或不存在的applicationID,返回的页面提示Error Occurred。 回答 用户提交查看application
系统管理员。 执行chage -l ommdba命令查看当前ommdba用户密码设置信息。 查找“Account expires”对应值,查看用户设置是否过期。 如果参数值为“never”,则代表永不过期;如果为日期值,则查看是否过期。 是,执行3。 否,执行4。 执行chage
描述 pageSize 否 String 参数解释: 分页查询每页返回的最大集群数量。 约束限制: 不涉及 取值范围: 1-2147483646 默认取值: 10 currentPage 否 String 参数解释: 当前查询页码。 约束限制: 不涉及 取值范围: 不涉及 默认取值:
如何查看指定Yarn任务的日志? 以root用户登录主Master节点。 执行如下命令初始化环境变量。 source 客户端安装目录/bigdata_env 如果当前集群已启用Kerberos认证,执行以下命令认证当前用户。如果当前集群未启用Kerberos认证,则无需执行此命令。
tion)方法创建Connection对象。传递的参数为上一步创建的Configuration。 Connection封装了底层与各实际服务器的连接以及与ZooKeeper的连接。Connection通过ConnectionFactory类实例化。创建Connection是重量级
tion)方法创建Connection对象。传递的参数为上一步创建的Configuration。 Connection封装了底层与各实际服务器的连接以及与ZooKeeper的连接。Connection通过ConnectionFactory类实例化。创建Connection是重量级
以root用户登录集群故障节点,用户密码为安装前用户自定义,请咨询系统管理员。 执行chage -l omm命令来查看当前omm用户密码设置信息。 查找“Password expires”对应值,查看密码设置是否过期。 如果参数值为“never”,则代表永不过期。 是,执行3。 否,执行4。 执行chage
查看MRS集群补丁信息 查看集群组件的补丁信息。如果集群组件,如Hadoop或Spark等出现了异常,可下载补丁版本,修复问题。 登录MRS管理控制台。 选择“现有集群”,选中一集群并单击集群名,进入集群基本信息页面。 进入“补丁管理”页面,可查看当前MRS集群补丁信息。 补丁版本信息如下:
tion)方法创建Connection对象。传递的参数为上一步创建的Configuration。 Connection封装了底层与各实际服务器的连接以及与ZooKeeper的连接。Connection通过ConnectionFactory类实例化。创建Connection是重量级