检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
getOrCreate() import spark.implicits._ //通过隐式转换,将RDD转换成DataFrame,然后注册表 spark.sparkContext.textFile(args(0)).map(_.split(",")) .map(p
SQLContext(sc) import sqlContext.implicits._ //通过隐式转换,将RDD转换成DataFrame,然后注册表 sc.textFile(args(0)).map(_.split(",")) .map(p => FemaleInfo(p(0)
用户应用程序的编译依赖包根据代码不同而不同,需用户根据自己编写的代码进行加载。 将运行程序的依赖Jar包上传至需要运行此应用的节点中,例如“$SPARK_HOME/jars”路径。 用户需要将SparkLauncher类的运行依赖包和应用程序运行依赖包上传至客户端的jars路径。文档中提供
池的主机加入此资源池。 前提条件 如果通过MRS管理控制台操作,需要已完成IAM用户同步(在集群详情页的“概览”页签,单击“IAM用户同步”右侧的“同步”进行IAM用户同步)。 如果通过Manager界面操作,需要已登录MRS集群Manager界面,详情请参考访问MRS集群Manager。
双击指定的输出算子(例如文件输出)进入编辑页面,单击“关联”,并在弹出的“关联”对话框中勾选需要的字段信息。 在输出算子的字段表格里面已存在名称的字段信息,不会在“关联”窗口显示。 用户也可在“字段名”的列表中选择需要字段,相应配置信息会在输出字段的参数表格显示。 单击“确定”,选中字段信息将会在输出字段的参数表格显示。
Kill Action节点中包含的各参数及其含义,请参见表1。 表1 参数含义 参数 含义 name kill活动的名称 message 根据业务需要,自定义的流程异常打印信息 ${wf:errorMessage(wf:lastErrorNode())} Oozie系统内置的异常信息函数
aster和相关的NodeManager通讯,在获得的Container上启动Executor,Executor启动后,开始向Driver注册并申请Task。 Driver分配Task给Executor执行。 Executor执行Task并向Driver汇报运行状况。 YARN Client模式
aster和相关的NodeManager通讯,在获得的Container上启动Executor,Executor启动后,开始向Driver注册并申请Task。 Driver分配Task给Executor执行。 Executor执行Task并向Driver汇报运行状况。 YARN Client模式
同步MRS集群组件配置参数对系统的影响 同步集群或服务配置后,需要重启配置过期的服务。重启时对应的服务不可用。 同步角色实例配置后,需要重启配置过期的角色实例。重启时对应的角色实例不可用。 前提条件 如果通过MRS管理控制台操作,需要已完成IAM用户同步(在集群详情页的“概览”页签,单击
Spark应用程序开发流程 表1 Spark应用开发的流程说明 阶段 说明 参考文档 了解基本概念 在开始开发应用前,需要了解Spark的基本概念,根据实际场景选择需要了解的概念,分为Spark Core基本概念、Spark SQL基本概念和Spark Streaming基本概念。 Spark应用开发常用概念
使用RDS服务MySQL数据库 当用户选择的数据连接为“RDS服务MySQL数据库”时,请确保使用的数据库用户为root用户。如果为非root用户,需要先以root用户登录到数据库执行如下SQL命令为该数据库用户进行赋权,其中${db_name}与${db_user}为用户新建数据连接时输入的数据库名与用户名。
目录下文件异常. 请检查安装目录和数据目录下的内容”。 图1 健康检查结果 安装补丁的影响 安装补丁后需要重启服务才能生效,重启服务期间引起服务暂不可用。 安装补丁后,需要重新下载安装全量的客户端,包含Master节点的原始客户端和虚拟私有云的其他节点使用的客户端(即您自行搭建的客户端)。
Streaming中常见的类有: JavaStreamingContext:是Spark Streaming功能的主入口,负责提供创建DStreams的方法,入参中需要设置批次的时间间隔。 JavaDStream:是一种代表RDDs连续序列的数据类型,代表连续数据流。 JavaPairDStream:KV
Kill Action节点中包含的各参数及其含义,请参见表1。 表1 参数含义 参数 含义 name kill活动的名称 message 根据业务需要,自定义的流程异常打印信息 ${wf:errorMessage(wf:lastErrorNode())} Oozie系统内置的异常信息函数
grep HRegionServer发现确实存在一个残留的进程。 确认进程可以终止后,使用kill命令终止该进程(如果kill无法终止该进程,需要使用kill -9来强制终止该进程)。 重新启动HBase服务成功。 父主题: 使用HBase
Kill Action节点中包含的各参数及其含义,请参见表1。 表1 参数含义 参数 含义 name kill活动的名称 message 根据业务需要,自定义的流程异常打印信息 ${wf:errorMessage(wf:lastErrorNode())} Oozie系统内置的异常信息函数
将老版本集群的数据迁移到新的集群。 MRS LTS版本集群 MRS LTS版本集群支持版本升级能力,可从历史版本升级至目标LTS版本。如果需要使用版本升级能力,需联系运维人员确认支持的升级路径并购买相关专业服务进行升级。 父主题: 升级补丁类
实例开启动态扩缩容后,重启HSBroker和Yarn服务会影响扩缩容功能,如需重启,建议先关闭实例的动态扩缩容功能。 进行计算实例扩容时,需要当前队列有足够的资源进行扩容,否则扩容无法达到预期,并影响后续缩容操作。 手动扩缩容可以设置超时时间,通过在Manager界面,选择“HetuEngine
getOrCreate() import spark.implicits._ //通过隐式转换,将RDD转换成DataFrame,然后注册表 spark.sparkContext.textFile(args(0)).map(_.split(",")) .map(p
return femaleInfo; } }); // 注册表。 Dataset<ROW> schemaFemaleInfo = spark.createDataFrame(femaleInfoJavaRDD