检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
SparkDemoObs,单击“执行”重新运行该作业即可。 后续指引 如果您想通过Spark Jar作业访问其他数据源,请参考《使用Spark作业跨源访问数据源》。 如果您想通过Spark Jar作业在DLI创建数据库和表,请参考《使用Spark作业访问DLI元数据》。 完整样例代码参考 认证用的access
对接HBase MRS配置 scala样例代码 pyspark样例代码 java样例代码 故障处理 父主题: 使用Spark作业跨源访问数据源
对接CSS CSS安全集群配置 scala样例代码 pyspark样例代码 java样例代码 父主题: 使用Spark作业跨源访问数据源
DLI如何访问OBS桶中的数据 创建OBS表。 具体语法请参考《数据湖探索SQL语法参考》。 添加分区。 具体语法请参考《数据湖探索SQL语法参考》。 往分区导入OBS桶中的数据。 具体语法请参考《数据湖探索SQL语法参考》。 查询数据。 具体语法请参考《数据湖探索SQL语法参考》。
对接RDS scala样例代码 pyspark样例代码 java样例代码 父主题: 使用Spark作业跨源访问数据源
对接OpenTSDB scala样例代码 pyspark样例代码 java样例代码 故障处理 父主题: 使用Spark作业跨源访问数据源
eeper的ip地址和端口号获取方式如下: 在MRS Manager上,选择“集群 > 待操作的集群名称 > 服务 > ZooKeeper > 实例”,获取ZooKeeper角色实例的IP地址。 在MRS Manager上,选择“集群 > 待操作的集群名称 > 服务 > ZooKeeper
对接DWS scala样例代码 pyspark样例代码 java样例代码 父主题: 使用Spark作业跨源访问数据源
步骤5:创建DLI连接Kafka的增强型跨源连接 通过增强型跨源连接建立DLI弹性资源池与Kafka实例的网络连通。 步骤6:创建DLI连接RDS的增强型跨源连接 通过增强型跨源连接建立DLI弹性资源池与RDS实例的网络连通。 步骤7:使用DEW管理访问凭据,并配置允许DLI访问DEW的委托
对接Mongo scala样例代码 pyspark样例代码 java样例代码 父主题: 使用Spark作业跨源访问数据源
如何通过JDBC设置spark.sql.shuffle.partitions参数提高并行度 操作场景 Spark作业在执行shuffle类语句,包括group by、join等场景时,常常会出现数据倾斜的问题,导致作业任务执行缓慢。 该问题可以通过设置spark.sql.shuffle
对接Redis scala样例代码 pyspark样例代码 java样例代码 故障处理 父主题: 使用Spark作业跨源访问数据源
待插入数据所属集群的OpenTSDB连接地址。 注意事项 若使用MRS集群的OpenTSDB,请确保以下几点: OpenTSDB的ip地址和端口请从OpenTSDB服务配置中查看配置项“tsd.network.bind”和“tsd.network.port”分别获取。 若OpenTSDB服务配置项“tsd
在同一队列中,如果同时使用了经典型跨源连接和增强型跨源连接,则经典型跨源连接优先于增强型跨源连接。推荐使用增强型跨源连接。 DLI提供的default队列不支持创建跨源连接。 Flink作业访问DIS,OBS和SMN数据源,无需创建跨源连接,可以直接访问。 增强型跨源仅支持包年包月队列、按需计费模式下的专属队列。
操作权限:具有数据湖探索服务资源的所有执行权限。创建后,可通过ACL赋权给其他子用户使用。 作用范围:项目级服务。 系统角色 无 具体的授权方式请参考创建IAM用户并授权使用DLI以及《如何创建子用户》和《如何修改用户策略》。 DLI权限分类 DLI服务权限分类如表2所示,其可控制的资源请参考表4。
ncies.jar。 连接信息: 表1 连接信息 类别 说明 获取方式 DLI AKSK AK/SK认证就是使用AK/SK对请求进行签名,从而通过身份认证。 获取AK/SK DLI Endpoint地址 地区与终端节点,即云服务在不同Region有不同的访问域名。 获取EndPoint
Jar作业上传配置文件操作流程 自定义(JAR)作业支持上传配置文件。 将配置文件通过程序包管理上传到DLI; 在Flink jar作业的其他依赖文件参数中,选择创建的DLI程序包; 在代码中通过ClassName.class.getClassLoader().getResour
业桶。该桶用于存储使用DLI服务产生的临时数据,例如:作业日志等。 如果不创建该桶,将无法查看作业日志。桶名称为系统默认。 在OBS管理控制台页面通过配置桶的生命周期规则,可以实现定时删除OBS桶中的对象或者定时转换对象的存储类别。 具体操作请参考通过配置生命周期规则。 SQL编辑器页面可以批量执行SQL语句。
DLI在创建运行作业需要连接外部其他数据源,如:DLI连接MRS、RDS、CSS、Kafka、DWS时,需要打通DLI和外部数据源之间的网络。 DLI提供的增强型跨源连接功能,底层采用对等连接的方式打通与目的数据源的vpc网络,通过点对点的方式实现数据互通。 图1 增强型跨源连接配置流程 配置DLI队列与公网网络连通
eeper的ip地址和端口号获取方式如下: 在MRS Manager上,选择“集群 > 待操作的集群名称 > 服务 > ZooKeeper > 实例”,获取ZooKeeper角色实例的IP地址。 在MRS Manager上,选择“集群 > 待操作的集群名称 > 服务 > ZooKeeper