检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
// 设置两次checkpoint的最小间隔时间 env.getCheckpointConfig().setMinPauseBetweenCheckpoints(60000); // 设置checkpoint超时时间
窗口Top-N 功能描述 窗口 Top-N 是特殊的 Top-N,它返回每个分区键的每个窗口的N个最小或最大值。 与普通Top-N不同,窗口Top-N只在窗口最后返回汇总的Top-N数据,不会产生中间结果。窗口 Top-N 会在窗口结束后清除不需要的中间状态。 窗口 Top-N
大CU。 同一队列不同扩缩容策略的时间段区间不能有交集。 弹性资源池队列中的扩缩容策略时间段仅支持整点的时间段设置,并且包含设置的开启时间,不包含设置的结束时间,例如设置时间段00-09,则时间段范围为:[00:00,09:00)。默认的扩缩容策略不支持时间段配置修改。 弹性资源
读取数据时,每一批次获取数据的记录数,默认值1000。设置越大性能越好,但占用内存越多,该值设置过大会有内存溢出的风险。 batchsize 写入数据时,每一批次写入数据的记录数,默认值1000。设置越大性能越好,但占用内存越多,该值设置过大会有内存溢出的风险。 truncate 执行
nable和compression。 multiLevelDirEnable:本例设置为true,表示查询该表时会迭代读取表路径中的所有文件和子目录文件,若不需要此项配置可以设置为false或不设置(默认为false); compression:当创建的OBS表需要压缩时,可以使
“show_detail”为“true”时独有。 最小值:2 最大值:400 默认为“2”。 parallel_number 否 Integer 用户设置的作业并行数。 “show_detail”为“true”时独有。 最小值:1 最大值:2000 默认为“1”。 restart_when_exception
上述示例中,因为CSS安全集群关闭了https访问,所以“es.net.ssl”参数要设置为“false”。“es.net.http.auth.user”以及“es.net.http.auth.pass”为创建集群时设置的账号和密码。 插入数据 1 sparkSession.sql("insert
通用队列操作OBS表如何设置AK/SK 如何查看DLI Spark作业的实际资源使用情况 将Spark作业结果存储在MySQL数据库中,缺少pymysql模块,如何使用python脚本访问MySQL数据库? 如何在DLI中运行复杂PySpark程序? 如何通过JDBC设置spark.sql
多会导致性能问题,所以元数据文件数量最好控制在1000以内。 如何执行Archive 写完数据后archive Spark SQL(set设置如下参数,写数据时触发) hoodie.archive.automatic=true hoodie.keep.max.commits=30
管理队列 查看队列的基本信息 队列权限管理 分配队列至项目 创建消息通知主题 队列标签管理 队列属性设置 测试地址连通性 删除队列 变更普通队列规格 普通队列弹性扩缩容 设置普通队列的弹性扩缩容定时任务 修改普通队列的网段 父主题: 创建弹性资源池和队列
user_id 否 String 用户ID。 user_name 否 String 用户名。 is_sensitive 否 Boolean 是否设置为敏感变量。 create_time 否 Long 创建时间。 update_time 否 Long 更新时间。 请求示例 无 响应示例 {
percentage)→array<[same as x]> 描述:按照百分比percentage,返回所有x输入值的近似百分位数。每一项的权重值为w且必须为正数。x设置有效的百分位。percentage的值必须在0到1之间,并且所有输入行必须为常量。 select approx_percentile(x,
大CU。 同一队列不同扩缩容策略的时间段区间不能有交集。 弹性资源池队列中的扩缩容策略时间段仅支持整点的时间段设置,并且包含设置的开启时间,不包含设置的结束时间,例如设置时间段00-09,则时间段范围为:[00:00,09:00)。默认的扩缩容策略不支持时间段配置修改。 弹性资源
可直接将配置完成的作业信息设置为模板。 在DLI管理控制台的左侧导航栏中,单击“作业模板”>“Spark模板”,页面跳转至Spark作业页面。 参考创建Spark作业配置作业参数。 作业编辑完成后,单击“设为模板”。 输入模板名称和描述信息。 设置模板的分组信息。便于模板的统一管理。
多IO。 batch.size.entries 单次batch插入entry的条数上限,默认为1000。如果单条数据非常大,在bulk存储设置的数据条数前提前到达了单次batch的总数据量上限,则停止存储数据,以batch.size.bytes为准,提交该批次的数据。 batch
说明: 路径同时支持文件和文件夹。 obs://DLI/sampledata.csv 表头:无/有 当“文件格式”为“CSV”时该参数有效。设置导入数据源是否含表头。 选中“高级选项”,勾选“表头:无”前的方框,“表头:无”显示为“表头:有”,表示有表头;取消勾选即为“表头:无”,表示无表头。
表生命周期功能支持Hive、DataSource语法创建表、多版本表,暂不支持跨源表、Carbon表。 生命周期单位为天,取值为正整数。 生命周期只能在表级别设置,不能在分区级设置。为分区表指定的生命周期,适用于该表所有的分区。 语法格式 该语法在表级别禁止或恢复表的生命周期 1 ALTER TABLE table_name
ZE时,该参数可以设置保留多少字节大小的归档文件,默认值5368709120字节(5G)。 hoodie.archive.file.cleaner.days.retained 当清理策略为KEEP_ARCHIVED_FILES_BY_DAYS时,该参数可以设置保留多少天以内的归档文件,默认值30(天)。
表生命周期功能支持Hive、DataSource语法创建表、多版本表,暂不支持跨源表、Carbon表。 生命周期单位为天,取值为正整数。 生命周期只能在表级别设置,不能在分区级设置。为分区表指定的生命周期,适用于该表所有的分区。 语法格式 ALTER TABLE table_name SET TBLPROPERTIES("dli
3及以上版本支持使用Hive语法的CTAS语句创建分区表。 关于创建表时设置多字符的分隔符: 只有指定ROW FORMAT SERDE为org.apache.hadoop.hive.contrib.serde2.MultiDelimitSerDe时,字段分隔符才支持设置为多字符。 只有Hive OBS表支持在建表时指定多字符的分隔符,Hive