检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
//通过隐式转换,将RDD转换成DataFrame,然后注册表 spark.sparkContext.textFile(args(0)).map(_.split(",")) .map(p => FemaleInfo(p(0), p(1), p(2).trim.toInt))
Topic每秒的fetch请求数 Topic每秒的produce请求数 支持查询Broker ID与节点IP的对应关系。在Linux客户端下,使用kafka-broker-info.sh查询Broker ID与节点IP的对应关系。 父主题: Kafka
使用Kudu 从零开始使用Kudu 访问Kudu的WebUI
(result.next()) { int id = result.getInt("id"); String name = result.getString(1);
本文档主要基于java API对Oozie进行应用开发。 开发流程中各阶段的说明如图1和表1所示。 图1 Oozie应用程序开发流程 表1 Oozie应用开发的流程说明 阶段 说明 参考文档 了解基本概念 在开始开发应用前,需要了解Oozie的基本概念,了解场景需求等。 Oozie应用开发常用概念
具体hdfs路径为“/tmp/logs/{submit_user}/logs/{application_id}”。 提交作业后,在Yarn的WEB UI未找到对应作业的application_id,说明该作业没有提交成功,可登录集群主Master节点,查看提交作业进程日志“/var/log/executor/logs/exe
使用Sqoop 从零开始使用Sqoop Sqoop常用命令及参数介绍 Sqoop常见问题
3ae24c65fc5094bc2acfebaa7a56de/meta/0f47cda55fa44cf9aa2599079894aed6.b7b3faab86527b88a92f2a248a54d3dc 从引用文件可以看出,‘3b3ae24c65fc5094bc2acfebaa7a56de’Region是‘
本文档主要基于java API对Oozie进行应用开发。 开发流程中各阶段的说明如图1和表1所示。 图1 Oozie应用程序开发流程 表1 Oozie应用开发的流程说明 阶段 说明 参考文档 了解基本概念 在开始开发应用前,需要了解Oozie的基本概念,了解场景需求等。 Oozie应用开发常用概念
使用Iceberg 从零开始使用Iceberg Iceberg常用参数 Iceberg常用SQL语法
(result.next()) { int id = result.getInt("id"); String name = result.getString(1);
(result.next()) { int id = result.getInt("id"); String name = result.getString(1);
本文档主要基于Java API对Oozie进行应用开发。 开发流程中各阶段的说明如图1和表1所示。 图1 Oozie应用程序开发流程 表1 Oozie应用开发的流程说明 阶段 说明 参考文档 了解基本概念 在开始开发应用前,需要了解Oozie的基本概念,了解场景需求等。 Oozie应用开发常见概念
SQLContext:是SparkSQL功能的主入口。可用于创建DataFrame,注册DataFrame为一张表,表上执行SQL等。 pyspark.sql.DataFrame:分布式数据集。DataFrame等效于SparkSQL中的关系表,可被SQLContext中的方法创建。 pyspark.sql.Data
SQLContext:是SparkSQL功能的主入口。可用于创建DataFrame,注册DataFrame为一张表,表上执行SQL等。 pyspark.sql.DataFrame:分布式数据集。DataFrame等效于SparkSQL中的关系表,可被SQLContext中的方法创建。 pyspark.sql.Data
在“选择导出类型”中选择删除作业类型。 “所有”:表示导出当前所有的作业。 “指定作业”:表示指定需要导出的作业。选择“指定作业”,在作业列表中勾选需要导出的作业。 “指定组别”:表示导出某个指定分组中的所有作业。选择“指定分组”,在分组列表中勾选需要导出的作业分组。 “是否导出密码”
Manager,选择“集群 > 服务 > ZooKeeper > 配置 > 全部配置”,进入全部配置页面。 在搜索框中输入参数名称,按照下表进行修改。 表1 安全配置项 配置项 描述 默认值 修改值 ssl.enabled 是否启用SSL通信加密。 false true 修改完成后单击“保存”,并单击“确定”。
单击“批量删除”,进入作业批量删除界面。 在“批量删除”中选择删除作业类型。 “所有”,表示删除当前所有的作业。 “指定作业”,表示指定需要删除的作业。选择“指定作业”,在作业列表中勾选需要删除的作业。 单击“确定”,开始删除作业。当弹出框中进度条显示100%,则说明作业删除完成。 父主题: 作业管理
大数据集(大于1TB)的并行运算。在MapReduce程序中计算的数据可以来自多个数据源,如Local FileSystem、HDFS、数据库等。最常用的是HDFS,可以利用HDFS的高吞吐性能读取大规模的数据进行计算。同时在计算完成后,也可以将数据存储到HDFS。 HDFS和Spark的关系
Datasource Avro格式查询异常 通过Spark-sql创建Hudi表或者Hive表,未插入数据前,查询表统计信息为空 建表语句分区列为timestamp时,使用非标准格式的时间指定分区查询表统计失败 SQL语法兼容TIMESTAMP/DATE特殊字符 父主题: 使用Spark/Spark2x