检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
enabled参数配置为true """ from py4j.java_gateway import java_import from pyspark.sql import SparkSession # 创建SparkSession spark = SparkSession\ .builder\
enabled参数配置为true """ from py4j.java_gateway import java_import from pyspark.sql import SparkSession # 创建SparkSession spark = SparkSession\ .builder\
enabled参数配置为true """ from py4j.java_gateway import java_import from pyspark.sql import SparkSession # 创建SparkSession spark = SparkSession\ .builder\
执行以下命令,切换到IoTDB客户端运行脚本所在目录。 cd /opt/client/IoTDB/iotdb/sbin 参考10登录IoTDB客户端。执行SQL查询数据并与1中数据进行对比。 查看导入的数据与1中的数据是否一致,如果一致则表示导入成功。 例如,执行以下命令查看导入的数据: SELECT
以上示例,加粗部分为TTL配置。该示例将example_table表中d时间列三年后的冷数据删除,d时间列一年后的冷数据转存到OBS。 TTL表达式只是一个简单的SQL表达式,里边包含了时间以及时间的间隔,例如: 数据存活的时间为date_time时间的3天之后。 TTL date_time + INTERVAL
夹下获取。 curator-client-2.12.0.jar curator-framework-2.12.0.jar Stream SQL Join样例工程(Java) flink-dist_2.11*.jar 在Flink的客户端或者服务端安装路径的lib目录下获取。 kafka-clients-*
enabled参数配置为true """ from py4j.java_gateway import java_import from pyspark.sql import SparkSession # 创建SparkSession spark = SparkSession\ .builder\
enabled参数配置为true """ from py4j.java_gateway import java_import from pyspark.sql import SparkSession # 创建SparkSession spark = SparkSession\ .builder\
Bad Records管理,请参见表2。 表2 Bad Records Logger 配置项 默认值 描述 BAD_RECORDS_LOGGER_ENABLE false 如果设置为true,则将创建Bad Records日志文件,其中包含Bad Records的详细信息。 BAD_RECORDS_ACTION
扩容数据盘,请参见扩容数据盘。 升级规格:升级Master节点的实例规格,请参见升级Master节点规格。 弹性伸缩:根据业务数据量的变化动态调整集群节点数量以增减资源,请参见配置弹性伸缩规则。 在创建集群时,Task节点只配置了弹性伸缩的取值范围,而没有配置实例数量时,当前不会
同决定写入分布式表时的路由,即数据最终落到哪个物理表上。它可以是表中一列的原始数据(如site_id),也可以是函数调用的结果,如上面的SQL语句采用了随机值rand()。注意该键要尽量保证数据均匀分布,另外一个常用的操作是采用区分度较高的列的哈希值,如intHash64(user_id)。
enabled参数配置为true """ from py4j.java_gateway import java_import from pyspark.sql import SparkSession # 创建SparkSession spark = SparkSession\ .builder\
在ResourceManager重启后,应用程序会移回原来的队列 问题 将应用程序从一个队列移到另一个队列时,为什么在RM(ResourceManager)重启后,应用程序会被移回原来的队列? 回答 这是RM的使用限制,应用程序运行过程中移动到别的队列,此时RM重启,RM并不会在状态存储中存储新队列的信息。
ResourceManager重启后,应用程序会移回原来的队列 问题 将应用程序从一个队列移到另一个队列时,为什么在RM(ResourceManager)重启后,应用程序会被移回原来的队列? 回答 这是RM的使用限制,应用程序运行过程中移动到别的队列,此时RM重启,RM并不会在状态存储中存储新队列的信息。
的Bad Records管理,请参见表2。 表2 Bad Records Logger 配置项 默认值 描述 BAD_RECORDS_LOGGER_ENABLE false 若设置为true,则将创建Bad Records日志文件,其中包含Bad Records的详细信息。 BAD_RECORDS_ACTION
TABLES命令用于显示所有在当前database中的table,或所有指定database的table。 命令格式 SHOW TABLES [IN db_name]; 参数描述 表1 SHOW TABLES参数描述 参数 描述 IN db_name Database名称,仅当需要显示指定Database的所有Table时配置。
enabled参数配置为true """ from py4j.java_gateway import java_import from pyspark.sql import SparkSession # 创建SparkSession spark = SparkSession\ .builder\
数据保护技术 数据完整性 通过数据校验,保证数据在存储、传输过程中的数据完整性。 MRS的用户数据保存在HDFS中,HDFS默认采用CRC32C算法校验数据的正确性,同时也支持CRC32校验算法,CRC32C校验速度快于CRC32。HDFS的DataNode节点负责存储校验数据,
enabled参数配置为true """ from py4j.java_gateway import java_import from pyspark.sql import SparkSession # 创建SparkSession spark = SparkSession\ .builder\
围的下限,如果需要缩容则缩容到计划节点数量范围的上限。 约束与限制 在大数据应用,尤其是实时分析处理数据的场景中,常常需要根据数据量的变化动态调整集群节点数量以增减资源。MRS的弹性伸缩规则功能支持根据集群负载对集群进行弹性伸缩。 弹性伸缩规则:根据集群实时负载对Task节点数量