检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
生成jar包。具体操作请参考在Linux环境中调测Spark应用。 将打包生成的jar包上传到Spark客户端所在服务器的任意目录(例如“$SPARK_HOME” )下。 将user.keytab、krb5.conf 两个文件上传客户端所在服务器上(文件上传的路径需要和生成的jar包路径一致)。
实例所属租户,新建计算实例只能选择无计算实例的租户。 在“所属租户”下拉列表中选取。 实例部署超时时间(秒) 通过Yarn Service部署启动计算实例的超时时间。从启动计算实例开始计时,当超过该时间后,如果计算实例仍在“创建中”或“启动中”,则该计算实例状态会显示为“错误”,同时会停止Yarn上正在创建或启动中的计算实例。
用户可以通过JDBC/Session将来自设备传感器上采集的时序数据和服务器负载、CPU内存等系统状态数据、消息队列中的时序数据、应用程序的时序数据或者其他数据库中的时序数据导入到本地或者远程的IoTDB中。用户还可以将上述数据直接写成本地(或位于HDFS上)的TsFile文件。 用户可以将Ts
将数据导入到一个sequence文件中。 -as-textfile 将数据导入到一个普通文本文件中,生成该文本文件后,可以在hive中通过sql语句查询出结果。 -boundary-query <statement> 边界查询,在导入前先通过SQL查询得到一个结果集,然后导入的数据就是该结果集内的数据,格式如:-boundary-query
BulkPut接口使用 场景说明 用户可以在Spark应用程序中使用HBaseContext的方式去使用HBase,将构建的RDD写入HBase中。 数据规划 在客户端执行hbase shell,进入HBase命令行,使用下面的命令创建样例代码中要使用的HBase表: create
bash /opt/client/HDFS/hadoop/sbin/stop-balancer.sh 如果只需要对部分节点进行数据均衡,可以在脚本上加上-include参数指定要移动的节点。具体参数使用方法,可通过命令行查看。 例如执行:bash /opt/client/HDFS/h
bash /opt/client/HDFS/hadoop/sbin/stop-balancer.sh 如果只需要对部分节点进行数据均衡,可以在脚本上加上-include参数指定要移动的节点。具体参数使用方法,可通过命令行查看。 例如执行:bash /opt/client/HDFS/h
Jar。 Fat Jar具有以下缺点: 随着业务逻辑越来越复杂,Jar包的大小也不断增加。 协调难度增大,所有的业务开发人员都在同一套业务逻辑上开发,虽然可以将整个业务逻辑划分为几个模块,但各模块之间是一种紧耦合的关系,当需求更改时,需要重新规划整个流图。 拆分成多个作业目前还存在问题。
成jar包。具体操作请参考在Linux环境中编包并运行Spark程序。 将打包生成的jar包上传到Spark客户端所在服务器的任意目录(例如“$SPARK_HOME” )下。 将user.keytab、krb5.conf 两个文件上传客户端所在服务器上(文件上传的路径需要和生成的jar包路径一致)。
操作HBase数据源 场景说明 用户可以在Spark应用程序中以数据源的方式去使用HBase,将dataFrame写入HBase中,并从HBase读取数据以及对读取的数据进行过滤等操作。 数据规划 在客户端执行hbase shell,进入HBase命令行,使用下面的命令创建样例代码中要使用的HBase表:
foreachPartition接口使用 场景说明 用户可以在Spark应用程序中使用HBaseContext的方式去操作HBase,将要插入的数据的rowKey构造成rdd,然后通过HBaseContext的mapPartition接口将rdd并发写入HBase表中。 数据规划 在客户端执行:hbase shell命令进入HBase命令行。
使用可选参数IF NOT EXISTS,如果表已经存在则不会报错。 WITH子句可用于在新创建的表或单列上设置属性,如表的存储位置(location)、是不是外表(external)等。 LIKE子句用于在新表中包含来自现有表的所有列定义。可以指定多个LIKE子句,从而允许从多个表中复制列。如果指定了INCLUDING
操作HBase数据源 场景说明 用户可以在Spark应用程序中以数据源的方式去使用HBase,将dataFrame写入HBase中,并从HBase读取数据以及对读取的数据进行过滤等操作。 数据规划 在客户端执行hbase shell,进入HBase命令行,使用下面的命令创建样例代码中要使用的HBase表:
foreachPartition接口使用 场景说明 用户可以在Spark应用程序中使用HBaseContext的方式去操作HBase,将要插入的数据的rowKey构造成rdd,然后通过HBaseContext的mapPartition接口将rdd并发写入HBase表中。 数据规划 在客户端执行:hbase shell命令进入HBase命令行。
BulkPut接口使用 场景说明 用户可以在Spark应用程序中使用HBaseContext的方式去使用HBase,将构建的RDD写入HBase中。 数据规划 在客户端执行hbase shell,进入HBase命令行,使用下面的命令创建样例代码中要使用的HBase表: create
生成jar包。具体操作请参考在Linux环境中调测Spark应用。 将打包生成的jar包上传到Spark客户端所在服务器的任意目录(例如“$SPARK_HOME” )下。 将user.keytab、krb5.conf 两个文件上传客户端所在服务器上(文件上传的路径需要和生成的jar包路径一致)。
Manager的主管理节点。 在集群详情的“节点信息”页签中查看节点名称,名称中包含“master1”的节点为Master1节点,名称中包含“master2”的节点为Master2节点。 MRS Manager的主备管理节点默认安装在集群Master节点上。在主备模式下,由于Maste
Key-Value的形式输出。 方案架构 生产者(Producer)将消息发布到Kafka主题(Topic)上,消费者(Consumer)订阅这些主题并消费这些消息。 在Kafka集群上一个服务器称为一个Broker。对于每一个主题,Kafka集群保留一个用于缩放、并行化和容错性
将数据导入到一个sequence文件中。 -as-textfile 将数据导入到一个普通文本文件中,生成该文本文件后,可以在hive中通过sql语句查询出结果。 -boundary-query <statement> 边界查询,在导入前先通过SQL查询得到一个结果集,然后导入的数据就是该结果集内的数据,格式如:-boundary-query
} } } 编译并运行程序 在IntelliJ IDEA中,配置工程的Artifacts信息。 在IDEA主页面,选择“File > Project Structures...”进入“Project Structure”页面。 在“Project Structure”页