检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
example.com/v3/projects" } } 从控制台获取项目ID 从控制台获取项目ID的步骤如下: 登录管理控制台。 鼠标悬停在右上角的用户名,选择下拉列表中的“我的凭证”。 在“API凭证”页面的项目列表中查看项目ID。 图1 查看项目ID 父主题: 公共参数
源连接)。 创建完跨源连接后,可以通过“资源管理 > 队列管理”页面,单击“操作”列“更多”中的“测试地址连通性”,验证队列到外部数据源之间的网络连通是否正常。详细操作可以参考测试地址连通性。 注意事项 创建作业提交任务前,建议先开通云审计服务,用于记录与DLI服务相关的操作事件
源池并添加队列中创建的队列,在操作列,单击“更多 > 测试地址连通性”。 在“测试连通性”界面,地址栏输入“Kafka内网地址:Kafka数据库端口”,单击“测试”测试DLI到Kafka网络是否可达。注意多个地址要分开单独测试。 步骤6:创建DLI连接RDS的增强型跨源连接 在RDS的安全组上放通DLI队列网段。
通过合理设置队列的计算资源池分配策略,提高计算资源利用率。 DLI弹性资源池之间为物理集群隔离,同一个弹性资源池中的队列之间为逻辑隔离。 建议您对测试业务场景和生产业务场景分别创建弹性资源池,通过资源物理隔离的方式,保障资源管理的独立性和安全性。 DLI提供的弹性资源池规格如表1所示。 表1
在“SQL编辑器”页面导出数据。 在管理控制台左侧,单击“SQL编辑器”。 在左侧导航栏选择“数据库”页签,鼠标左键单击需要导出数据的表对应的数据库名,进入“表”区域。 鼠标左键单击需要导出数据的表(Managed表,即DLI表)右侧的,在列表菜单中选择“导出”,选择弹出“导出数据”页面。
在“SQL编辑器”页面导入数据。 在管理控制台的左侧,单击“SQL编辑器”。 在“SQL编辑器”页面左侧导航栏选择“数据库”页签,鼠标左键单击需要导入数据的表对应的数据库名,进入“表”区域。 鼠标左键单击对应表右侧的,在列表菜单中选择“导入”,弹出“导入数据”页面。 图2 SQL编辑器-导入数据 在“导入数据”页面,参见表1填写相关信息。
IDEA 开发工具。 点击File - New - project... 在New Project弹窗点击-Maven-点击Next。 输入GroupId和ArtifactId,点击Next。 输入Project name 和 Project location,点击Finish。 在Maven
使用DLI将CSV数据转换为Parquet数据 应用场景 Parquet是面向分析型业务的列式存储格式,这种格式可以加快查询速度,查询Parquet格式数据时,只检查所需要的列并对它们的值执行计算,也就是说,只读取一个数据文件或表的一小部分数据。Parquet还支持灵活的压缩选项
型跨源,并绑定所要使用的Flink弹性资源池。 设置Kafka的安全组,添加入向规则使其对Flink的队列网段放通。参考测试地址连通性根据Kafka的地址测试队列连通性。若能连通,则表示跨源已经绑定成功,否则表示未成功。 参考创建Flink OpenSource作业,创建flink
可以上传到指定的目录中。 单击Best_Practice_04.zip获取本示例的测试数据,解压“Best_Practice_04.zip”压缩包,解压后将data文件夹上传到OBS桶根目录下。测试数据目录说明如下: user表数据:data/JData_User product
对的AK/SK进行加密签名,确保请求的机密性、完整性和请求双方身份的正确性。获取AK/SK操作步骤如下: 注册并登录华为云管理控制台。 将鼠标移动到右上角用户名上,在下拉列表中单击“我的凭证”。 在左侧导航栏单击“访问密钥”。 单击“新增访问密钥”,进入“新增访问密钥”页面。 根
含了同步元数据的配置项。 最后点击右上角的”执行”按钮即可提交作业。 执行作业,检查日志:(注意:日志归档耗时较长,在作业执行完成后,日志可能需要等待1-5分钟才能归档。) 点击执行后会跳转到”Spark作业”界面,此处可以看到作业的执行状态。点击对应作业右侧的更多,可以在下拉菜单中跳转日志选单:
datasource.write.operation参数设置写入模式。 insert: 该操作不需要通过索引去查询具体更新的文件分区,因此它的速度比upsert快。当不包含更新数据时建议使用该操作,如果存在更新数据使用该操作会出现重复数据。 bulk_insert:该操作会对主键进行
反压状态 算子的工作负荷状态。包含如下几种状态: OK:表示工作负荷正常。 LOW:表示工作负荷略高。DLI处理数据的速度比较快。 HIGH:表示工作负荷高。源端输入数据的速度比较慢。 时延 指事件从源端算子到达本算子的过程中消耗的时间,单位为毫秒(ms)。 发送的记录数 算子发送数据的记录。
在管理控制台左侧,单击“SQL编辑器”。 在“SQL编辑器”页面的左侧导航栏中,选择“数据库”页签。 单击对应数据库名,进入该数据库的表列表。 鼠标左键单击对应表右侧的,在列表菜单中选择“表属性”,即可在“元数据”页签查看该表的元数据信息。 父主题: 创建数据库和表
通过hbase进行数据过滤,即HBase Client将过滤条件传给HBase服务端进行处理,HBase服务端只返回用户需要的数据,提高了Spark SQL查询的速度。对于HBase不支持的过滤条件,例如组合Rowkey的查询,直接由Spark SQL进行。 支持查询下压的场景 数据类型场景 Int boolean
单击“确定”完成主机信息添加。 步骤5:测试网络连通性 单击“队列管理”,选择操作的队列,在操作列,单击“更多 > 测试地址连通性”。 在“测试连通性”界面,根据步骤1:获取外部数据源的内网IP、端口和安全组中获取的数据源的IP和端口,地址栏输入“数据源内网IP:数据源端口”,单击“测试”测试DLI到外部数据源网络是否可达。
由信息。 详细操作请参考自定义路由信息。 图8 增强型跨源链接添加测试路由信息 步骤7:测试公网连通性 测试队列到公网的连通性。单击队列操作列下方的“更多 > 测试地址连通性”,输入访问的公网IP地址。 图9 测试地址联通性 父主题: 配置DLI读写外部数据源数据
由LakeFormation提供的元数据服务,权限配置详见LakeFormation文档。 系统响应 可以直接在提交任务界面查看任务结果,或者在SQL作业界面,点击对应任务右侧的”更多”->”查看结果”检查任务结果。 父主题: Hudi DDL语法说明
Hetu 2.1.0 0.11.0 如何判断队列支持的计算引擎版本:首先进入DLI的控制台界面,点击左侧菜单栏的”资源管理”-> ”队列管理”。在队列管理的界面筛选并选中需要查询的队列,随后点击窗口底部的窗格,展开隐藏的队列详情页面,在支持版本即可查看可用的计算引擎版本。对于SQL队列