检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
目标是用来采集大规模集群中的监控类信息,并可实现数据的秒级查询,解决海量监控类数据在普通数据库中查询存储的局限性,可用于系统监控和测量、物联网数据、金融数据和科学实验结果数据的收集监控。 DLI可以通过增强型跨源连接功能将Flink作业的输出数据写入到OpenTSDB中。 前提条件
使用DLI分析车联网场景驾驶行为数据 应用场景 在车联网领域,云计算与大数据为企业提供了强大的分析挖掘能力,可以帮助企业和车队管理者更加科学、便捷地进行车辆数据管理与分析。 方案架构 根据已有的某货运公司车辆定时上报的详单数据和货运订单数据,DLI可以完成对该货运公司车辆行驶特点分析、记录明细的查询。
DLI提供的“测试地址连通性”用于验证DLI队列与目标地址之间的网络连通性。 常用于读写外部数据源场景,在配置了跨源连接后,检验DLI队列与绑定的跨源对端地址之间的通信能力。 测试队列与数据源地址连通性 登录DLI管理控制台,选择“资源管理 > 队列管理”。 在“队列管理”页面,选择需要测试地址连通性的队列,单击操作列下的“更多
一次。 Compaction作业配置的资源,vcore数至少要大于等于单个分区的桶数,vcore数与内存的比例应为1:4即1个vcore配4G内存。 父主题: Bucket调优示例
executorCores driverMemory executorMemory numExecutor A 8核32G内存 2 1 7G 4G 6 B 16核64G内存 2 2 7G 8G 7 C 32核128G内存 4 2 15G 8G 14 表4 resources参数说明 参数名称
Integer 用户为作业选择的CU数。默认值为“2”。 CU数量为DLI的计算单元数量和管理单元数量总和,CU也是DLI的计费单位,1CU=1核4G。当前配置的CU数量为运行作业时所需的CU数,不能超过其绑定队列的CU数量。管理单元参数设置详见:manager_cu_number。 parallel_number
HTTPS 来对传输中的数据进行加密。 Spark作业传输通信加密 Spark作业支持通过配置表1中的参数开启通信加密。 请确保已上传密钥和证书到指定的OBS路径下,并在作业配置中的其他依赖文件中引入。 表1 Spark作业传输开启通信加密配置项 参数 说明 配置示例 spark.network
车企数字化服务转型 大数据ETL处理 运营商大数据分析 运营商数据体量在PB~EB级,其数据种类多,有结构化的基站信息数据,非结构化的消息通信数据,同时对数据的时效性有很高的要求,DLI服务提供批处理、流处理等多模引擎,打破数据孤岛进行统一的数据分析。 优势 大数据ETL:具备T
的才是公开供用户调用的方法,DLI只对这些方法的兼容性做出产品保证。 图4 配置参数 表3 参数说明 名称 描述 CU数量 一个CU为1核4G的资源量。CU数量范围为2~400个。 管理单元 设置管理单元的CU数,支持设置1~4个CU,默认值为1个CU。 并行数 作业中每个算子的最大并行数。
15版本执行作业时,按需配置自定义委托用于授予DLI访问其他服务的操作权限。 CU数量 CU数量为DLI的计算单元数量和管理单元数量总和,CU也是DLI的计费单位,1CU=1核4G。 当前配置的CU数量为运行作业时所需的CU数,不能超过其绑定队列的CU数量。 管理单元 管理单元CU数量。 并行数 作业的并行数是指作业
Jar作业的高级配置。 参考表6配置Flink Jar作业。 表6 Flink Jar作业的高级配置 名称 是否必选 描述 CU数量 是 一个CU为1核4G的资源量。CU数量范围为2~400个。 管理单元 是 设置管理单元的CU数,支持设置1~4个CU,默认值为1个CU。 并行数 是 作业中每个算子的最大并行数。
法,DLI只对这些方法的兼容性做出产品保证。 配置计算资源规格参数。 图3 配置参数 表3 参数说明 名称 描述 CU数量 一个CU为1核4G的资源量。CU数量范围为2~10000个。 管理单元 设置管理单元的CU数。 并行数 作业的并行数是指作业中各个算子的并行执行的子任务的数
"sc_type":"A", "executorCores":1, "numExecutors":6, "executorMemory":"4G", "driverCores":2, "driverMemory":"7G", "catalog_name": "dli"
OpenSource SQL1.12语法。 CU数量 CU数量为DLI的计算单元数量和管理单元数量总和,CU也是DLI的计费单位,1CU=1核4G。 当前配置的CU数量为运行作业时所需的CU数,不能超过其绑定队列的CU数量。 管理单元 管理单元CU数量。 并行数 并行数是指同时运行Flink
创建Bucket索引表调优 创建Bucket索引表调优 Bucket索引常用设置参数: Spark: hoodie.index.type=BUCKET hoodie.bucket.index.num.buckets=5 Flink index.type=BUCKET hoodie
对等连接ID:增强型跨源在该队列所在集群中创建的对等连接ID。 每一个增强型跨源对每一个绑定的队列都会创建一个对等连接。该对等连接用于实现跨VPC通信,请确保数据源使用的安全组开放了DLI队列网段的访问,并且在使用跨源过程中不要删除该对等连接。 对等连接的连接状态: 跨源连接的状态信息,
DLI自定义策略 如果系统预置的DLI权限,不满足您的授权要求,可以创建自定义策略。自定义策略中可以添加的授权项(Action)请参考权限策略和授权项。 目前华为云支持以下两种方式创建自定义策略: 可视化视图创建自定义策略:无需了解策略语法,按可视化视图导航栏选择云服务、操作、资源、条件等策略内容,可自动生成策略。
Hudi Clustering操作说明 什么是Clustering 即数据布局,该服务可重新组织数据以提高查询性能,也不会影响摄取速度。 Clustering架构 Hudi通过其写入客户端API提供了不同的操作,如insert/upsert/bulk_insert来将数据写入Hu
get_json_object get_json_object函数用于根据所给路径对json对象进行解析,当json对象非法时将返回NULL。 命令格式 get_json_object(string <json>, string <path>) 参数说明 表1 参数说明 参数 是否必选
EXPONENTIAL 退避策略,该值是初始的延迟。 connection.path-prefix 否 无 String 添加到每个REST通信中的前缀字符串,例如, '/v1'。 connection.request-timeout 否 无 Duration 从连接管理器请求连接的超时时间。超时时间必须大于或者等于