检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用Spark-submit提交Spark Jar作业 DLI Spark-submit简介 DLI Spark-submit是一个用于提交Spark作业到DLI服务端的命令行工具,该工具提供与开源Spark兼容的命令行。 准备工作 授权。 DLI使用统一身份认证服务(Identity
如何获取项目ID? 项目ID是系统所在区域的ID。用户在调用API接口进行云资源管理(如创建集群)时,需要提供项目ID。 查看项目ID步骤如下: 注册并登录华为云管理控制台。 将鼠标移动到右上角用户名上,在下拉列表中单击“我的凭证”。 在“我的凭证”页面的项目列表中查看项目ID。
登录管理控制台,从主页选择“EI企业智能”>“EI大数据”>“数据湖探索”。 API方式 如果用户需要将云平台上的DLI服务集成到第三方系统,用于二次开发,可以使用API方式访问DLI服务。 具体操作请参见《数据湖探索API参考》。 JDBC DLI支持使用JDBC连接服务端进
并覆盖原有的 catalog function 。 TEMPORARY SYSTEM 创建一个没有数据库命名空间的临时系统 catalog function ,并覆盖系统内置的函数。 IF NOT EXISTS 如果该函数已经存在,则不会进行任何操作。 LANGUAGE JAVA|SCALA
迁移数据场景概述 为了将分散在不同系统中的数据迁移到DLI,确保数据可以在DLI集中分析和管理,你可以通过云数据迁移服务CDM等迁移工具迁移数据至DLI,再使用DLI提交作业分析数据。 CDM支持数据库、数据仓库、文件等多种类型的数据源,通过可视化界面对数据源迁移任务进行配置,提高数据迁移和集成的效率。
富的API,便于快速与其他数据系统的集成。 · Flink Jar作业:允许用户提交编译为Jar包的Flink作业,提供了更大的灵活性和自定义能力。适合需要自定义函数、UDF(用户定义函数)或特定库集成的复杂数据处理场景。可以利用Flink的生态系统,实现高级流处理逻辑和状态管理。
MRS集群上创建Kafka的Topic并且向Topic发送消息。 参考访问MRS Manager登录MRS Manager。 在MRS Manager上,选择“系统 > 权限 > 用户”,单击“添加用户”,在添加用户页面分别配置如下参数。 用户名:自定义的用户名。当前示例输入为:testuser2。 用户类型:当前选择为“人机”。
通用队列操作OBS表如何设置AK/SK (推荐)方案1:使用临时AK/SK 建议使用临时AK/SK,获取方式可参见统一身份认证服务_获取临时AK/SK。 认证用的ak和sk硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全。 表1
MRS集群上创建Kafka的Topic并且向Topic发送消息。 参考访问MRS Manager登录MRS Manager。 在MRS Manager上,选择“系统 > 权限 > 用户”,单击“添加用户”,在添加用户页面分别配置如下参数。 用户名:自定义的用户名。当前示例输入为:testuser2。 用户类型:当前选择为“人机”。
PREV(B.price)。 RUNNING/FINAL RUNNING 表示匹配过程中间值,FINAL表示最终结果值,RUNNING/FINAL一般只在ALL ROWS PER MATCH里才有意义。比如有三条记录(a, 2), (b, 6), (c, 12), 那么RUNNING AVG(A
字符码不一致导致数据乱码怎么办? 在DLI执行作业时,为了避免因字符编码不一致导致的乱码问题,建议您统一数据源的编码格式。 DLI服务只支持UTF-8文本格式,因此在执行创建表和导入操作时,用户的数据需要以UTF-8编码。 在将数据导入DLI之前,确保源数据文件(如CSV、JSO
激活队列扩缩容定时任务。默认开启。如果关闭,则系统不会触发执行当前设置的定时规格变更任务。 有效期 设置执行定时任务的时间段。包括“日期”和“时间”。 说明: “有效期”中的“开始时间”需要晚于当前的系统时间。 如果只设置了扩容,在“有效期”结束之后,系统不会自动缩容,需要手动修改或设置缩容
适合需要自定义函数、UDF(用户定义函数)或特定库集成的复杂数据处理场景。可以利用Flink的生态系统,实现高级流处理逻辑和状态管理。详细操作请参考创建Flink Jar作业。 适用于实时数据监控、实时推荐系统等需要快速响应的场景。 Flink Jar作业适用于需要自定义流处理逻辑、复杂的状态管理或特定库集成的数据分析场景。
还具有以下优势: 表1 Serverless DLI与传统自建Hadoop集群对比的优势 优势 维度 数据湖探索 DLI 自建Hadoop系统 低成本 资金成本 按照实际扫描数据量或者CU时收费,可变成本,成本可节约50%。 长期占用资源,资源浪费严重,成本高。 弹性扩缩容能力
PREV(B.price)。 RUNNING/FINAL RUNNING 表示匹配过程中间值,FINAL表示最终结果值,RUNNING/FINAL一般只在ALL ROWS PER MATCH里才有意义。比如有三条记录(a, 2), (b, 6), (c, 12), 那么RUNNING AVG(A
分析。 您只需将本地数据导入OBS即可开始使用DLI进行数据分析。 导入数据的具体操作请参考上传对象。 迁移数据至DLI 为了将分散在不同系统中的数据迁移到DLI,确保数据可以在DLI集中分析和管理,你可以通过云数据迁移服务CDM等迁移工具迁移数据至DLI,再使用DLI提交作业分析数据。
Strings 用户已上传到DLI资源管理系统的类型为file的资源包名。也支持指定OBS路径,例如:obs://桶名/包名。 modules Array of Strings 依赖的系统资源模块名,具体模块名可通过查询组内资源包(废弃)接口查看。 DLI系统提供了用于执行跨源作业的依赖模块,各个不同的服务对应的模块列表如下:
配置DLI云服务的委托权限后会在IAM委托页面生成dli_management_agency的委托。请勿删除系统默认创建的dli_management_agency委托,否则会导致委托包含的权限自动取消,系统将无法正常获取IAM用户相关信息、或影响访问跨源所需的网络资源、无法访问SMN服务发送通知消息。
参数 说明 system_time_zone 数据库时区。 这里它指向 'SYSTEM',也就是数据库服务器的系统时间('system_time_zone')。而这个系统时间在这里指向 CST,所以,最终数据库时区才是 CST。 time_zone 数据库所在服务器的时区,服务器是台主机。
扩缩容。 队列资源扩容时,可能会由于物理资源不足导致队列资源无法扩容到设定的目标大小。 队列资源缩容时,系统不保证将队列资源完全缩容到设定的目标大小。通常队列资源缩容时,系统会先检查资源使用情况,判断是否存在缩容空间,如果现有资源无法按照最小缩容步长执行缩容任务,则队列可能缩容不成功,或缩容一部分规格的情况。