检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
pyspark样例代码 开发说明 支持对接CloudTable的HBase和MRS的HBase。 前提条件 在DLI管理控制台上已完成创建跨源连接。具体操作请参考《数据湖探索用户指南》。 认证用的password硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全。
认证证书 合规证书 华为云服务及平台通过了多项国内外权威机构(ISO/SOC/PCI等)的安全合规认证,用户可自行申请下载合规资质证书。 图1 合规证书下载 资源中心 华为云还提供以下资源来帮助用户满足合规性要求,具体请查看资源中心。 图2 资源中心 销售许可证&软件著作权证书
uri uri的格式为:mongodb://username:pwd@host:8635/db 其中以下参数需要修改为实际值: “username”为创建的mongo(DDS)数据库用户名。 “pwd”为创建的mongo(DDS)数据库用户名对应的密码。 “host”为创建的mongo(DDS)数据库实例IP。
"name")”指定,name为列名 如果需要保存嵌套的DataFrame,则通过“.option("model","binary")”进行保存 如果需要指定数据过期时间:“.option("ttl",1000)”;秒为单位 读取redis上的数据 1 sparkSession.read.format("redis")
某电商商城在保持高速发展的同时,沉淀了数亿的忠实用户,积累了海量的真实数据。如何利用BI工具从历史数据中找出商机,是大数据应用在精准营销中的关键问题,也是所有电商平台在做智能化升级时所需要的核心技术。 本案例以某商城真实的用户、商品、评论数据(脱敏后)为基础,利用数据湖探索来分析用户和商品的各种数
请参见流水与明细账单。 图3 查询数据存储的资源账单 查看数据扫描量的资源账单 DLI的default队列采用数据扫描量的计费方式。扫描量计费=单价*扫描量数据(GB)。怎样查看DLI的数据扫描量? 您可以在费用中心查询DLI数据扫描量的资源账单。 在控制台顶部菜单栏中选择“费用与成本
端口信息”。若使用经典型跨源,填写经典型跨源返回的连接地址,管理控制台操作请参考《数据湖探索用户指南》。 metric 所创建的dli表对应的OpenTSDB中的指标名称。 tags metric对应的标签,用于归类、过滤、快速检索等操作,可以是1到8个,以“,”分隔,包括对应metric下的所有tagk的值。 通过SQL
选择作业运行时使用的队列资源。 应用程序 选择Jar作业程序包。 Jar包的管理方式: 上传OBS管理程序包:提前将对应的jar包上传至OBS桶中。并在此处选择对应的OBS路径。 上传DLI管理程序包:提前将对应的jar包上传至OBS桶中,并在DLI管理控制台的“数据管理>程序包
添加到弹性资源池中的队列不再单独计费,以弹性资源池为计费项计费: 按需计费模式:按弹性资源池的实际CUs计费。 包年/包月计费模式:按弹性资源池的实际CUs计费,其中规格部分包年/包月,超出规格的部分按需计费。 弹性资源池CU时套餐包:按购买的套餐包周期价格扣费,其中套餐包内的规格包周期计费,超出套餐包规格的部分按需计费。
指南》中的“选择依赖资源参数说明”。 通过API提交作业请参考《数据湖探索API参考》>《创建批处理作业》中“表2-请求参数说明”关于“modules”参数的说明。 完整示例代码 通过DataFrame API 访问 认证用的ak和sk硬编码到代码中或者明文存储都有很大的安全风险
业,页面显示“批处理作业提交成功”说明Spark作业提交成功,可以在Spark作业管理页面查看提交的作业的状态和日志。 创建Spark作业时选择的“所属队列”为创建跨源连接时所绑定的队列。 如果选择spark版本为2.3.2(即将下线)或2.4.5提交作业时,需要指定Module模块,名称为:sys
南》中的“选择依赖资源参数说明”。 通过API提交作业请参考《数据湖探索API参考》>《创建批处理作业》中“表2-请求参数说明”关于“modules”参数的说明。 完整示例代码 通过DataFrame API访问 认证用的password硬编码到代码中或者明文存储都有很大的安全风
弹性资源池为DLI作业运行提供所需的计算资源(CPU和内存),用于灵活应对业务对计算资源变化的需求。 创建弹性资源池后,您可以在弹性资源池中创建多个队列,队列关联到具体的作业和数据处理任务,是资源池中资源被实际使用和分配的基本单元,即队列是执行作业所需的具体的计算资源。 同一弹性资源池中,队列之间的计算资源支持共享。
添加数据源的相关配置,请参见图1。 驱动:上传下载的DLI JDBC驱动。 URL:后面填写DLI jdbc的URL,URL的格式见表2,属性配置项说明见表3。 指定数据库: “表结构模式”可填写需访问的数据库名称,如果填写,后续创建数据集时,刷新表,页面上只可见该数据库下的表。如果
db_name 需要执行INSERT命令的表所在数据库的名称。 table_name 需要执行INSERT命令的表的名称。 part_spec 指定详细的分区信息。若分区字段为多个字段,需要包含所有的字段,但是可以不包含对应的值,系统会匹配上对应的分区。单表分区数最多允许100000个。
Lakeformation元数据可在湖仓构建Lakeformation服务的管理控制台中查看。 相关操作 DLI SQL队列对接DLI元数据方法: 在DLI管理控制台的SQL编辑器页面的“数据目录”中选择“dli”。 在“数据库”选项中选择要对接的DLI元数据中的数据库,即可对接到DLI元数据。 DLI通用队列对接DLI元数据方法:
SQL权限管理或者IAM鉴权管理DLI元数据的权限 DLI SQL权限管理: 在“数据湖探索 > 数据管理 > 库表管理”页面,搜索要授权的库/表。 单击表操作列的“权限管理”,即可查看当前库/表授权信息或者新增授权。 更多信息请参考在DLI控制台管理数据库资源。 IAM鉴权: 参考权限管理概述章节中的“IAM鉴权使用场景”。
output_format_classname partition_col_name partition_col_value partition_specs property_name property_value regex_expression result_expression row_format
性资源池中的资源。 队列是DLI中被实际使用和分配的基本单元,即队列是执行作业所需的具体的计算资源。您可以为不同的作业或数据处理任务创建不同的队列,并按需对这些队列分配和调整资源。了解DLI的队列类型请参考DLI队列类型。 DLI计算资源模式 DLI提供了三种计算资源的管理模式,每一种模式都有独特的优势和适用场景。
授予策略或角色,才能使得该用户组中的用户获得对应的权限,这一过程称为授权。授权后,用户就可以基于被授予的权限对云服务进行操作。 权限根据授权的精细程度,分为角色和策略。 角色:角色以服务为粒度,是IAM最初提供的一种根据用户的工作职能定义权限的粗粒度授权机制。 策略:策略以API