检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
因此可以看出2GB的这个限制只是一个经验值,因为不同的业务数据经过列存压缩后大小是不一样的。 为什么建议是2GB? 2GB的数据存储成列存Parquet文件后,大概的数据文件大小是150MB ~ 256MB左右。不同业务数据会有出入。而HDFS单个数据块一般会是128MB,这样可以有效地利用存储空间。
需要重启Spark SQL队列后新创建的自定义函数F2生效 需要重启Spark SQL队列,影响当前运行的作业。 重启队列后,F1的功能不变。 场景三 原有程序包类的实现逻辑不变,重新打包程序包名。新创建的函数指定新JAR包名,类名保持不变。 在Spark SQL队列下已创建
格式二:jdbc:oracle:thin:@//host:port/service_name;这种方式是Oracle推荐的,对于集群来说,每个节点的SID可能不一致,但ServiceName是一致的,包含所有节点。 driver Oracle驱动类名: oracle.jdbc.driver.OracleDriver
表,也可以采用非分区表。如果维度表的总数据量很大或者增量也很大,可以考虑采用某个业务ID进行分区,在大部分数据处理逻辑中针对大维度表,会有一定的业务条件进行过滤来提升处理性能,这类表要结合一定的业务场景来进行优化,无法从单纯的日期分区进行优化。事实表读取方式都会按照时间段切分,近
创建数据库和表:提交SQL脚本创建数据库和表。请参考步骤1:创建数据库和表。 导入业务数据:提交SQL脚本导入业务数据。请参考步骤2:业务数据的计算与处理。 数据查询与分析:提交SQL脚本分析业务数据,例如查询单日销售情况。请参考步骤3:销售情况的查询与分析。 作业编排:将数据处
置。 存储量套餐包 按照存储在DLI服务中的数据存储量(单位为“GB”)收取存储费用。 适用于在DLI 存储表数据的场景,例如时延敏感类的业务将表存储在DLI,使用存储量套餐包可以节省存储费用。 存储套餐的额度每个小时会重置。 按订购周期重置:如重置周期为月,且按订购周期重置,即
moduleA),那么其压缩包要求满足如下结构: 图2 压缩包结构要求 即在压缩包内有一层以模块名命名的文件夹,然后才是对应类的Python文件,通常下载下来的Python库可能不满足这个要求,因此需要重新压缩。同时对压缩包的名称没有要求,所以建议可以把多个模块的包都压缩到一个压缩包里。至此,已经可以完整的运行起来一个大型、复杂的PySpark程序了。
使用DLI分析账单消费数据 以DLI实际消费数据为样例,介绍使用DLI进行账单分析和成本优化的措施。 使用DLI分析电商实时业务数据 使用DLI Flink完成电商业务实时数据的分析处理。 配置DBeaver连接DLI进行数据查询和分析 介绍DBeaver连接DLI并提交SQL查询的操作步骤。
可以修改模板描述。 保存方式 修改:将修改保存至当前的模板中。 新增:将修改另存为新的模板。 SQL语句编辑区域 输入详细的SQL语句,实现业务逻辑功能。SQL语句的编写请参考《数据湖探索SQL语法参考》。 保存 保存修改。 创建作业 使用当前模板创建作业。 格式化 对SQL语句进
) 仅“包年/包月”资源、“专属资源模式”的“按需计费”资源才能创建增强型跨源链接。 已创建对应的外部数据源集群。具体对接的外部数据源根据业务自行选择。 表1 创建各外部数据源参考 服务名 参考文档链接 RDS 购买RDS for MySQL实例 DWS 创建DWS集群 DMS Kafka
作业的checkpoint周期,或者上游批量写入的周期。 COW表如果业务没有历史版本数据保留的特殊要求,保留版本数设置为1。 COW表的每个版本都是表的全量数据,保留几个版本就会冗余多少个版本。因此如果业务无历史数据回溯的需求,保留版本数设置为1,也就是保留当前最新版本 cle
VPC”相关内容。 DLI使用场景 企业IT管理账号创建VPC和子网,并将该VPC和子网共享给其他企业业务账号,便于企业集中配置VPC安全策略,有利于资源有序集中管理。 企业业务账号使用共享的VPC和子网创建资源,并想要使用DLI提交作业访问共享VPC中的资源。此时需要建立DLI与共享VPC中资源的网络连接。
如您有任何问题,可随时通过工单或者服务热线(4000-955-988或950808)与我们联系。 常见问题 Flink 1.7版本中有哪些重要功能不再演进? Flink Edge SQL功能随Flink1.7 EOS,后续版本的Flink均不再支持边缘场景的作业处理。 敏感变量功能随Flink1
本。另外,对于明确需要使用多少CU时的作业,也可以提前购买对应的CU时套餐包,来降低使用成本。 企业中的业务模式较多且经常变化,成本管理员通常并不能全面及时了解花销较大的业务在哪里,哪些是合理的,哪些是不合理的,通过在DLI中对费用明细进行分析,可以及时发现企业花销不合理的地方,
启等场景。通过设置合理precombine字段值可以保证数据的准确性,老数据不会覆盖新数据,也就是幂等写入能力。该字段可用选择的类型包括:业务表中更新时间戳、数据库的提交时间戳等。precombine字段不能有null值和空值,可以参考以下示例设置precombine字段: SparkSQL:
包括事前提示、拦截和事中熔断,并不强制改变用户的SQL提交方式、SQL语法,对业务零改动且易落地。 DLI支持可视化配置SQL防御策略,同时可支持防御规则的查询和修改。 每个SQL引擎在进行SQL业务响应、执行过程中,基于SQL防御策略进行主动防御行为。 管理员可将SQL防御行为
通用Region和专属Region,通用Region指面向公共租户提供通用云服务的Region;专属Region指只承载同一类业务或只面向特定租户提供业务服务的专用Region。 详情请参见区域和可用区。 可用区 一个可用区是一个或多个物理数据中心的集合,有独立的风火水电,AZ内
由浅入深,带您玩转DLI 01 了解 初步认识华为云数据湖探索,了解数据湖探索的基本功能、应用场景、基本概念和使用限制,有助于您更准确地匹配实际业务。 产品介绍 什么是DLI 应用场景 使用限制 与其他云服务的关系 03 入门 购买DLI队列后,您可以运行SQL作业和Spark作业,开启您的数据湖探索使用之旅。
权限的粗粒度授权机制。该机制以服务为粒度,提供有限的服务相关角色用于授权。由于华为云各服务之间存在业务依赖关系,因此给用户授予角色时,可能需要一并授予依赖的其他角色,才能正确完成业务。角色并不能满足用户对精细化授权的要求,无法完全达到企业对权限最小化的安全管控要求。 策略:IAM
云下:自建数据库、MongoDB、Redis。 云上:OBS。 云下:HDFS。 生态兼容 DLV、永洪BI、帆软。 大数据生态工具。 自定义镜像 支持,满足业务多样性。 无。 工作流调度 DataArts Studio-DLF调度。 自建大数据生态的调度工具,如Airflow。 企业级多租户 基于表的权限管理,可以精细化到列权限。