检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
参数设置具体请参考Loader算子帮助及表3。 表3 算子输入、输出参数设置 输入类型 输出类型 HBase输入 文件输出 图3 算子操作方法示意 设置数据保存信息并运行作业 单击“下一步”,进入“输出设置”界面,设置数据保存方式。 表4 输出设置参数 参数名 解释说明 示例 输出路径
spark.examples.hbasecontext.JavaHBaseForEachPartitionExample') # 创建类实例并调用方法,传递sc._jsc参数 spark._jvm.JavaHBaseForEachPartitionExample().execute(spark
huawei.bigdata.spark.examples.HBaseBulkLoadPythonExample') # 创建类实例并调用方法,传递sc._jsc参数 spark._jvm.HBaseBulkLoadPythonExample().hbaseBulkLoad(spark
bigdata.spark.examples.hbasecontext.JavaHBaseBulkDeleteExample') # 创建类实例并调用方法,传递sc._jsc参数 spark._jvm.JavaHBaseBulkDeleteExample().execute(spark._jsc
huawei.bigdata.spark.examples.HBaseBulkLoadPythonExample') # 创建类实例并调用方法,传递sc._jsc参数 spark._jvm.HBaseBulkLoadPythonExample().hbaseBulkLoad(spark
处理时间不要超过session.timeout.ms的时间。 参考信息 poll之后的数据处理效率要高,不要阻塞下一次poll。 poll方法和数据处理建议异步处理。 父主题: 使用Kafka
服务的系统用户hdfs。或者在集群上创建一个具有supergroup权限的用户,再在客户端中执行此命令。 表3只说明了命令接口的含义及使用方法,实际每个接口提供了更多的配置参数。具体信息可通过hdfs diskbalancer -help <command>命令查看。 在集群运维
据的效率,也不会影响太大的随机读性能。单位:字节。 65536 DATA_BLOCK_ENCODING 配置HFile中block块的编码方法。当一行数据中存在多列时,一般可以配置为“FAST_DIFF”,可以有效地节省数据存储的空间,从而提供性能。 NONE 父主题: HBase性能调优
network.max: 20g 基于序列化性能尽量使用POJO和Avro等简单的数据类型 使用API编写Flink程序时需要考虑Java对象的序列化,大多数情况下Flink都可以高效的处理序列化。SQL中无需考虑,SQL中数据都为ROW类型,都采用了Flink内置的序列化器,能很高效的进行序列化。
调用方法 请参见如何调用API。 URI POST /v2/{project_id}/clusters/{cluster_id}/components 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 参数解释: 项目编号。获取方法,请参见获取项目ID。
更新弹性伸缩策略。 调用方法 请参见如何调用API。 URI PUT /v2/{project_id}/autoscaling-policy/{cluster_id} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 参数解释: 项目编号。获取方法,请参见获取项目ID。
录中可保留的备份文件集数量。 “LocalHDFS”:表示将备份文件保存在当前集群的HDFS目录。选择此参数值,还需要配置以下参数: “目的端路径”:填写备份文件在HDFS中保存的目录。不支持填写HDFS中的隐藏目录,例如快照或回收站目录;也不支持默认的系统目录。 “最大备份数”
需要确保Curl命令所支持的SSL协议在集群中已添加支持。若不支持,可对应修改集群中SSL协议。例如,若Curl仅支持TLSv1协议,修改方法如下: 登录FusionInsight Manager页面,选择“集群 > 待操作集群的名称 > 服务 > Yarn > 配置 > 全部配置”,在“搜索”框里搜索“hadoop
下面代码片段在com.huawei.hadoop.hbase.example包的“HBaseSample”类的testScanDataByIndex方法中: 样例:使用二级索引查找数据 public void testScanDataByIndex() { LOG.info("Entering
'com.huawei.bigdata.spark.examples.datasources.HBaseSource') # 创建类实例并调用方法,传递sc._jsc参数 spark._jvm.HBaseSource().execute(spark._jsc) # 停止SparkSession
'com.huawei.bigdata.spark.examples.datasources.HBaseSource') # 创建类实例并调用方法,传递sc._jsc参数 spark._jvm.HBaseSource().execute(spark._jsc) # 停止SparkSession
算子的选择和参数设置具体请参考算子帮助及表3。 表3 算子输入、输出参数设置 输入类型 输出类型 Hive输入 文件输出 图3 算子操作方法示意 设置数据保存信息并运行作业 单击“下一步”,进入“输出设置”界面,设置数据保存方式。 表4 输出设置参数 参数名 解释说明 示例 输出路径
处于单task读写可接受范围之内。 如果是单个Bucket的数据量超过了该值范围,可能会有什么影响? 读写任务可能会出现OOM的问题,解决方法就是提升单个task的内存占比。 读写性能下降,因为单个task的处理的数据量变大,导致处理耗时变大。 父主题: Hudi数据表设计规范
和参数设置具体请参考Loader算子帮助及表3。 表3 算子输入、输出参数设置 输入类型 输出类型 Hive输入 文件输出 图3 算子操作方法示意 设置数据保存信息并运行作业 单击“下一步”,进入“输出设置”界面,设置数据保存方式。 表4 输出设置参数 参数名 解释说明 示例 输出路径
java中getProperties()方法中proPath的路径。 图3 Demo.java路径替换 使用clickhouse-example.properties路径替换ClickhouseJDBCHaDemo.java中initConnection()方法中proPath的路径。 事务样例工程无需执行此步骤。