检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
DLI的这种模式减轻了运维负担,可以更专注于数据处理和分析任务本身。 具体请参考《数据湖探索用户指南》。 MRS服务Spark组件的是建立在客户的购买MRS服务所分配的虚机上,用户可以根据实际需求调整及优化Spark服务,支持各种接口调用。
步骤3:使用DEW管理访问凭据 跨源分析场景中,使用DEW管理数据源的访问凭证。 步骤4:创建自定义委托允许DLI访问DEW读取凭证 创建允许DLI访问DEW的委托。 步骤5:创建Flink Jar作业并配置作业信息 创建Flink Jar作业分析数据。
适用于数据转储、大数据分析、备份或活跃归档、深度或冷归档等场景。 考虑到输入流可以是无界的,每个桶中的数据被组织成有限大小的Part文件。完全可以配置为基于时间的方式往桶中写入数据,比如可以设置每个小时的数据写入一个新桶中。即桶中将包含一个小时间隔内接收到的记录。
创建增强型跨源连接 操作场景 使用DLI访问其他数据源的数据前,首先要通过建立增强型跨源连接打通DLI和数据源之间的网络,DLI才能够访问、导入、查询、分析其他数据源的数据。
导出SQL作业结果 导出作业结果是将SQL作业分析后的数据结果按指定格式存储到指定位置。 DLI默认将SQL作业结果存储在DLI作业桶中。同时也支持下载作业结果到本地或导出作业结果到指定的OBS桶。
并行文件系统是一种高性能文件系统,提供毫秒级别访问时延,TB/s级别带宽和百万级别的IOPS,适用于大数据交互式分析场景。 注意事项 创建表时不会统计大小。 添加数据时会修改大小至0。 如需查看表大小可以通过OBS查看。 CTAS建表语句不能指定表的属性。
并行文件系统是一种高性能文件系统,提供毫秒级别访问时延,TB/s级别带宽和百万级别的IOPS,适用于大数据交互式分析场景。 注意事项 创建表时会统计大小。 添加数据时不会修改大小。 如需查看表大小可以通过OBS查看。 CTAS建表语句不能指定表的属性。
步骤3:使用DEW管理访问凭证 跨源分析场景中,使用DEW管理数据源的访问凭证,并创建允许DLI访问DEW的委托。 步骤4:创建自定义委托允许DLI访问DEW读取凭证 创建允许DLI访问DEW的委托。 步骤5:提交Spark作业 创建Spark Jar作业分析数据。
适用于数据转储、大数据分析、备份或活跃归档、深度或冷归档等场景。 考虑到输入流可以是无界的,每个桶中的数据被组织成有限大小的Part文件。完全可以配置为基于时间的方式往桶中写入数据,比如可以设置每个小时的数据写入一个新桶中。即桶中将包含一个小时间隔内接收到的记录。
使用DLI将CSV数据转换为Parquet数据 应用场景 Parquet是面向分析型业务的列式存储格式,这种格式可以加快查询速度,查询Parquet格式数据时,只检查所需要的列并对它们的值执行计算,也就是说,只读取一个数据文件或表的一小部分数据。
低质量的SQL会对数据分析平台系统带来不可预料的冲击,影响系统的性能或者平台稳定性。
审计与日志 DLI对接云审计服务 云审计服务(Cloud Trace Service,CTS),是华为云安全解决方案中专业的日志审计服务,提供对各种云资源操作记录的收集、存储和查询功能,可用于支撑安全分析、合规审计、资源跟踪和问题定位等常见应用场景。
通过创建增强型跨源连接,可以采用对等连接的方式打通DLI与数据源的VPC网络,从而实现数据的互通和跨源分析。 增强型跨源连接的优势: 网络连通性:直接打通DLI与目的数据源的VPC网络实现数据互通。
在大数据分析的日常工作中,合理分配和管理计算资源,可以提供良好的作业执行环境。 您可以根据作业的计算需求和数据规模分配资源、调整任务执行顺序,调度不同的弹性资源池或队列资源以适应不同的工作负载。
通常用于结构化数据的查询和分析。 详细操作请参考创建并提交SQL作业。 适用于数据仓库查询、报表生成、OLAP(在线分析处理)等场景。 Flink作业 专为实时数据流处理设计,适用于低时延、需要快速响应的场景。适用于实时监控、在线分析等场景。
典型场景示例:配置弹性资源池队列扩缩容策略 场景介绍 一个企业有多个部门,多个部门不同业务数据分析的时间段可能有所差异,具体场景如下: A部门:在00:00-09:00时间段内资源请求量大,其他时间段有短时间的资源请求量不大的任务运行。
通过DLI跨源连接访问DWS数据请参考《跨源分析开发方式参考》。 与云搜索服务(CSS)的关系 云搜索服务(Cloud Search Service)作为DLI的数据来源及数据存储,与DLI配合一起使用,关系有如下两种。
“基础平台组组长”按照公司两个业务对于数据分析的要求,创建了“队列A”分配给“数据工程师A”运行游戏数据分析业务,“队列B”分配给“数据工程师B”运行音乐数据分析业务,并分别赋予“DLI普通用户”权限,具有队列使用权限,数据(除数据库)的管理和使用权限。
HetuEngine简介 HetuEngine是华为推出的高性能交互式SQL分析及数据虚拟化引擎,能够与大数据生态无缝融合,实现海量数据的秒级交互式查询。
内置函数 日期函数 字符串函数 数学函数 聚合函数 分析窗口函数 其他函数