作业相关API-华为云

数据湖探索 DLI-查询批处理作业列表:URI

URI URI格式： GET /v2.0/{project_id}/batches 参数说明表1 URI参数参数名称是否必选参数类型说明 project_id 是 String 项目编号，用于资源隔离。获取方式请参考获取项目ID。表2 query参数说明参数名称是否必选参数类型说明 job_name 否 String 批处理作业的名称。 job-id 否 String 根据作业ID查询批作业。 cluster_name 否 String DLI 队列名称，不填写则获取当前Project下所有批处理作业(不推荐使用)。 queue_name 否 String DLI队列名称，根据队列查询批作业（推荐使用）。 from 否 Integer 起始批处理作业的索引号，默认从0开始。 size 否 Integer 查询批处理作业的数量。 state 否 String 根据作业状态查询批作业。 owner 否 String 提交作业的用户。

数据湖探索 DLI Spark作业相关API

数据湖探索 DLI-查询批处理作业列表:响应示例

响应示例 { "from": 0, "total": 1, "sessions": [ { "id": "178fa687-2e8a-41ed-a439-b00de60bb176", "state": "dead", "appId": null, "log": [ "stdout: ", "stderr: ", "YARN Diagnostics: " ], "sc_type": "A", "cluster_name": "test", "create_time": 1531906043036 } ]}

数据湖探索 DLI Spark作业相关API

数据湖探索 DLI-查询批处理作业列表:响应消息

响应消息表3 响应参数说明参数名称是否必选参数类型说明 from 否 Integer 起始批处理作业的索引号。 total 否 Integer 返回批处理作业的总数。 sessions 否 Array of objects 批处理作业信息。详细说明请参见表4。 create_time 否 Long 批处理作业的创建时间。表4 sessions参数参数名称是否必选参数类型说明 duration 否 Long 作业运行时长，单位毫秒。 id 否 String 批处理作业的id。 state 否 String 批处理作业的状态。 appId 否 String 批处理作业的后台app id。 log 否 Array of Strings 显示当前批处理作业的最后10条记录。 sc_type 否 String 计算资源类型。用户自定义时返回CUSTOMIZED。 cluster_name 否 String 批处理作业所在队列。 create_time 否 Long 批处理作业的创建时间。是单位为“毫秒”的时间戳。 name 否 String 批处理作业名称。 owner 否 String 批处理作业所属用户。 proxyUser 否 String 批处理作业所属代理用户（资源租户）。 kind 否 String 批处理作业类型，只支持spark类型参数。 queue 否 String 批处理作业所在队列。 image 否 String 自定义镜像。格式为：组织名/镜像名:镜像版本。当用户设置“feature”为“custom”时，该参数生效。用户可通过与“feature”参数配合使用，指定作业运行使用自定义的Spark镜像。 req_body 否 String 请求参数详情。 update_time 否 Long 批处理作业的更新时间。是单位为“毫秒”的时间戳。

数据湖探索 DLI Spark作业相关API

数据湖探索 DLI-查询作业监控信息（废弃）:响应消息

响应消息表3 响应参数说明参数名称是否必选参数类型说明 is_success 否 Boolean 请求是否成功。 message 否 String 消息内容。 metrics 否 Object 作业列表信息。具体请参考表4。表4 payload参数说明参数名称是否必选参数类型说明 jobs 否 Array of Objects 所有作业监控信息。具体请参考表5。表5 jobs参数说明参数名称是否必选参数类型说明 job_id 否 Long 作业ID。 metrics 否 Object 作业的所有输入输出监控信息。具体请参考表6。表6 metrics参数说明参数名称是否必选参数类型说明 sources 否 Array of Objects 所有输入流。请参见表7。 sinks 否 Array of Objects 所有输出流。请参见表7。 total_read_rate 否 Double 总输入速率。 total_write_rate 否 Double 总输出速率。表7 source/sinks参数说明参数名称是否必选参数类型说明 name 否 String 输入流或输出流名称。 records 否 Long 总记录数。 corrupted_records 否 Long 脏数据记录数。

数据湖探索 DLI Flink作业相关API（废弃）

数据湖探索 DLI-查询作业监控信息（废弃）:示例

示例请求样例 { "job_ids": [298765, 298766]} 响应样例 { "is_success": true, "message": "消息内容", "metrics": { "jobs": [ { "job_id": 0, "metrics": { "sources": [ { "name": "Source: KafKa_6070_KAFKA_SOURCE", "records": 0, "corrupted_records": 0 } ], "sinks": [ { "name": "Source: KafKa_6070_KAFKA_SOURCE", "records": 0, "corrupted_records": 0 } ], "total_read_rate": 100, "total_write_rate": 100 } } ] }}

数据湖探索 DLI Flink作业相关API（废弃）

数据湖探索 DLI-导入数据（废弃）:功能介绍

功能介绍该API用于将数据从文件导入DLI或OBS表，目前仅支持将OBS上的数据导入DLI或OBS中。当前接口已废弃，不推荐使用。该API为异步操作。导入数据时，可选择已存在的OBS桶路径或新建OBS桶路径，但只能指定一个OBS桶路径。若需新建OBS桶，需遵守以下命名规则：需全局唯一，不能与已有的任何桶名称重复。长度范围为3到63个字符，支持小写字母、数字、中划线（-）、英文句号（.）。禁止两个英文句号（.）或英文句号（.）和中划线（-）相邻，禁止以英文句号（.）和中划线（-）开头或结尾。禁止使用IP地址。如果名称中包含英文句号（.），访问桶或对象时可能会进行安全证书校验。导入源文件时，如果源文件中的某一列与目标表列类型不匹配，将会导致该行数据的查询结果为null 。不支持并发导入同一张表。

数据湖探索 DLI SQL作业相关API（废弃）

数据湖探索 DLI-导入数据（废弃）:响应消息

响应消息表4 响应参数参数名称是否必选参数类型说明 is_success 否 Boolean 请求发送是否成功。“true”表示请求发送成功。 message 否 String 系统提示信息，执行成功时，信息可能为空。 job_id 否 String 此SQL将生成并提交一个新的作业，返回作业ID。用户可以使用作业ID来查询作业状态和获取作业结果。 job_mode 否 String 作业执行模式： async：异步 sync：同步

数据湖探索 DLI SQL作业相关API（废弃）

数据湖探索 DLI-导入数据（废弃）:请求消息

请求消息表2 请求参数参数名称是否必选参数类型说明 data_path 是 String 导入的数据路径（当前仅支持导入OBS上的数据）。 data_type 是 String 导入的数据类型（当前支持csv、parquet、orc、json、avro数据类型）。说明：不支持导入Hive表生成的avro格式数据。 database_name 是 String 导入表所属的数据库名称。 table_name 是 String 导入表的名称。 with_column_header 否 Boolean 导入数据中的第一行数据是否包括列名，即表头。默认为“false”，表示不包括列名。导入 CS V类型数据时可指定。 delimiter 否 String 用户自定义数据分隔符，默认为逗号。导入CSV类型数据时可指定。 quote_char 否 String 用户自定义引用字符，默认为双引号。导入CSV类型数据时可指定。 escape_char 否 String 用户自定义转义字符，默认为反斜杠。导入CSV类型数据时可指定。 date_format 否 String 指定特定的日期格式，默认为“yyyy-MM-dd”。日期格式字符定义详见表3。导入CSV及JSON类型数据时可指定。 bad_records_path 否 String 作业执行过程中的bad records存储目录。设置该配置项后，bad records不会导入到目标表。 timestamp_format 否 String 指定特定的时间格式，默认为“yyyy-MM-dd HH:mm:ss”。时间格式字符定义详见表3。导入CSV及JSON类型数据时可指定。 queue_name 否 String 指定执行该任务的队列。若不指定队列，将采用default队列执行操作。 overwrite 否 Boolean 是否覆盖写。默认为“false”，表示追加写。为“true”，表示覆盖写。 partition_spec 否 Object 表示需要导入到哪个分区。不配置表示动态导入整表数据，导入的数据需要包含分区列的数据；如果导入时，配置所有分区信息，则表示导入数据到指定分区，导入的数据不能包含分区列的数据；如果导入时，配置了部分分区信息，而导入的数据必须包含非指定的分区数据，不能包含指定的分区数据，否则数据导入后，非指定的数据分区字段列会存在null值等异常值。 conf 否 Array of Strings 用户定义适用于此作业的配置参数。目前支持的配置项：“dli.sql.dynamicPartitionOverwrite.enabled”默认值为“false”，对于DataSource表，表示动态插入覆盖整表数据，为“true”表示覆盖指定分区数据。说明：对于Hive分区表的动态覆盖写，仅支持覆盖涉及到的分区数据，不支持覆盖整表数据。表3 日期及时间模式字符定义模式字符日期或时间元素示例 G 纪元标识符 AD y 年份 1996; 96 M 月份 July; Jul; 07 w 年中的周数 27(该年的第27周) W 月中的周数 2(该月的第2周) D 年中的天数 189(该年的第189天) d 月中的天数 10(该月的第10天) u 星期中的天数 1 = 星期一, ..., 7 = 星期日 a am/pm 标记 pm(下午时) H 24小时数(0-23) 2 h 12小时数(1-12) 12 m 分钟数 30 s 秒数 55 S 毫秒数 978 z 时区 Pacific Standard Time; PST; GMT-08:00

数据湖探索 DLI SQL作业相关API（废弃）

数据湖探索 DLI-导入数据（废弃）:请求示例

请求示例将存储在OBS的csv类型的数据导入db2.t2。 { "data_path": "obs://home/data1/DLI/t1.csv", "data_type": "csv", "database_name": "db2", "table_name": "t2", "with_column_header": false, "delimiter": ",", "quote_char": ",", "escape_char": ",", "date_format": "yyyy-MM-dd", "timestamp_format": "yyyy-MM-dd'T'HH:mm:ss.SSSZZ", "queue_name": "queue2", "overwrite": false, "partition_spec":{ "column1": "2020-01-01", "column2": "columnPartValue" }}

数据湖探索 DLI SQL作业相关API（废弃）

数据湖探索 DLI-生成Flink SQL作业的静态流图:请求示例

请求示例生成Flink SQL作业的静态流图，流图的类型为静态流图。 { "job_type": "flink_opensource_sql_job", "graph_type": "job_graph", "sql_body": "create table orders(\r\n name string,\r\n num int\r\n) with (\r\n 'connector' = 'datagen',\r\n 'rows-per-second' = '1', --每秒生成一条数据\r\n 'fields.name.kind' = 'random', --为字段user_id指定random生成器\r\n 'fields.name.length' = '5' --限制user_id长度为3\r\n);\r\n \r\nCREATE TABLE sink_table (\r\n name string,\r\n num int\r\n) WITH (\r\n 'connector' = 'print'\r\n);\r\nINSERT into sink_table SELECT * FROM orders;", "cu_number": 2, "manager_cu_number": 1, "parallel_number": 2, "tm_cus": 1, "tm_slot_num": 0, "operator_config": "", "static_estimator": true, "flink_version": "1.12", "static_estimator_config": "{\"operator_list\":[{\"id\":\"0a448493b4782967b150582570326227\",\"output_rate\":1000},{\"id\":\"bc764cd8ddf7a0cff126f51c16239658\",\"output_rate\":1000}]}"}

数据湖探索 DLI Flink作业相关API

数据湖探索 DLI-生成Flink SQL作业的静态流图:响应示例

响应示例 { "message": "", "is_success": true, "error_code": "", "stream_graph": "{\n \"jid\" : \"44334c4259f6714bddef1ac525364052\",\n \"name\" : \"InternalJob_1715392878428\",\n \"nodes\" : [ {\n \"id\" : \"0a448493b4782967b150582570326227\",\n \"parallelism\" : 1,\n \"operator\" : \"\",\n \"operator_strategy\" : \"\",\n \"description\" : \"Sink: Sink(table=[default_catalog.default_database.sink_table], fields=[name, num])\",\n \"chain_operators_id\" : [ \"0a448493b4782967b150582570326227\" ],\n \"inputs\" : [ {\n \"num\" : 0,\n \"id\" : \"bc764cd8ddf7a0cff126f51c16239658\",\n \"ship_strategy\" : \"FORWARD\",\n \"exchange\" : \"pipelined_bounded\"\n } ],\n \"optimizer_properties\" : {}\n }, {\n \"id\" : \"bc764cd8ddf7a0cff126f51c16239658\",\n \"parallelism\" : 2,\n \"operator\" : \"\",\n \"operator_strategy\" : \"\",\n \"description\" : \"Source: TableSourceScan(table=[[default_catalog, default_database, orders]], fields=[name, num])\",\n \"chain_operators_id\" : [ \"bc764cd8ddf7a0cff126f51c16239658\" ],\n \"optimizer_properties\" : {}\n } ],\n \"operator_list\" : [ {\n \"id\" : \"0a448493b4782967b150582570326227\",\n \"name\" : \"Sink: Sink(table=[default_catalog.default_database.sink_table], fields=[name, num])\",\n \"type\" : \"Sink\",\n \"contents\" : \"Sink(table=[default_catalog.default_database.sink_table], fields=[name, num])\",\n \"parallelism\" : 1,\n \"tags\" : \"[SINK]\",\n \"input_operators_id\" : [ \"bc764cd8ddf7a0cff126f51c16239658\" ]\n }, {\n \"id\" : \"bc764cd8ddf7a0cff126f51c16239658\",\n \"name\" : \"Source: TableSourceScan(table=[[default_catalog, default_database, orders]], fields=[name, num])\",\n \"type\" : \"Source\",\n \"contents\" : \"TableSourceScan(table=[[default_catalog, default_database, orders]], fields=[name, num])\",\n \"parallelism\" : 2,\n \"tags\" : \"[PRO CES S, UDF]\",\n \"input_operators_id\" : [ ]\n } ]\n}"} 为了便于查看返回体信息，我们将stream_graph格式化后如下所示： "jid": "65b6a7b0c1ad95b1722a92b49d2f6eba", "name": "InternalJob_1715392245413", "nodes": [ { "id": "0a448493b4782967b150582570326227", "parallelism": 1, "operator": "", "operator_strategy": "", "description": "Sink: Sink(table=[default_catalog.default_database.sink_table], fields=[name, num])", "chain_operators_id": [ "0a448493b4782967b150582570326227" ], "inputs": [ { "num": 0, "id": "bc764cd8ddf7a0cff126f51c16239658", "ship_strategy": "FORWARD", "exchange": "pipelined_bounded" } ], "optimizer_properties": { } }, { "id": "bc764cd8ddf7a0cff126f51c16239658", "parallelism": 2, "operator": "", "operator_strategy": "", "description": "Source: TableSourceScan(table=[[default_catalog, default_database, orders]], fields=[name, num])", "chain_operators_id": [ "bc764cd8ddf7a0cff126f51c16239658" ], "optimizer_properties": { } } ], "operator_list": [ { "id": "0a448493b4782967b150582570326227", "name": "Sink: Sink(table=[default_catalog.default_database.sink_table], fields=[name, num])", "type": "Sink", "contents": "Sink(table=[default_catalog.default_database.sink_table], fields=[name, num])", "parallelism": 1, "tags": "[SINK]", "input_operators_id": [ "bc764cd8ddf7a0cff126f51c16239658" ] }, { "id": "bc764cd8ddf7a0cff126f51c16239658", "name": "Source: TableSourceScan(table=[[default_catalog, default_database, orders]], fields=[name, num])", "type": "Source", "contents": "TableSourceScan(table=[[default_catalog, default_database, orders]], fields=[name, num])", "parallelism": 2, "tags": "[PROCESS, UDF]", "input_operators_id": [ ] } ]}

数据湖探索 DLI Flink作业相关API

数据湖探索 DLI-生成Flink SQL作业的静态流图:请求消息

请求消息表2 请求参数说明参数名称是否必选参数类型说明 sql_body 是 String SQL。 cu_number 否 Integer 是在作业编辑页面配置的作业占用资源总CU数，需配置与实际占用资源一致，作业实际占用资源根据算子并行数按需申请。 cu_number = 管理单元 + (算子总并行数 / 单TM Slot数) * 单TM所占CU数 manager_cu_number 否 Integer 管理单元CU数。 parallel_number 否 Integer 最大并行度。并行数为作业每个算子的并行数，适度增加并行数会提高作业整体算力，但也须考虑线程增多带来的切换开销，上限是计算单元CU数的4倍，最佳实践为计算单元CU数的1-2倍。 tm_cus 否 Integer 单个taskManagerCU数量。 tm_slot_num 否 Integer 单个taskManager Slot数量。 operator_config 否 String 算子的配置。可先行调用该接口获取算子ID，即响应消息中stream_graph包含的operator_list中的id即为算子ID。 static_estimator 否 Boolean 是否静态资源预估。配置为true时，即根据算子ID和流量预估作业消耗资源。 static_estimator_config 否 String 每个算子的流量/命中率配置，json格式的字符串。当static_estimator为true时需要配置该参数，配置时传入算子ID和算子流量配置。可先行调用该接口获取算子ID，即响应消息中stream_graph包含的operator_list中的id即为算子ID。算子流量根据用户业务实际情况预估。 job_type 否 String 作业类型。只支持flink_opensource_sql_job类型作业。 graph_type 否 String 流图类型。当前支持以下两种流图类型。简化流图：simple_graph 静态流图：job_graph flink_version 否 String Flink版本。当前只支持1.10和1.12。

数据湖探索 DLI Flink作业相关API

数据湖探索 DLI-查询作业执行进度信息:响应示例

响应示例 { "is_success": true, "message": "", "job_id": "85798b38-ae44-48eb-bb90-7cf0dcdafe7b", "status": "RUNNING", "sub_job_id": 0, "progress": 0, "sub_jobs": [ { "id": 0, "name": "runJob at FileFormatWriter.scala:266", "submission_time": "Mon Jul 27 17:24:03 CST 2020", "stage_ids": [ 0 ], "job_group": "85798b38-ae44-48eb-bb90-7cf0dcdafe7b", "status": "RUNNING", "num_tasks": 1, "num_active_tasks": 1, "num_completed_tasks": 0, "num_skipped_tasks": 0, "num_failed_tasks": 0, "num_killed_tasks": 0, "num_completed_indices": 0, "num_active_stages": 1, "num_completed_stages": 0, "num_skipped_stages": 0, "num_failed_stages": 0 } ]}

数据湖探索 DLI SQL作业相关API

推荐系统 RES-策略参数说明:深度网络因子分解机

深度网络因子分解机表37 algorithm_parameters参数说明参数名称是否必选参数类型说明 fields_feature_size_path 是 String 该文件标识了每一个域下的特征数量，排序数据处理接口会生成这个文件，文件路径为用户在数据处理中输入的“run_path”参数表示的路径的“fields_feature_size”目录下，文件名称为“part-00000”，需要用户提供文件完整路径。 max_iterations 是 Int 模型训练的最大迭代轮数。取值范围[1,1000] early_stop_iterations 是 Int 在测试集上连续early_stop_iterations轮迭代的AUC小于当前最优AUC时，迭代停止，训练结束。取值范围[1,1000]，不大于max_iterations。 algorithm_specify_parameters 是 JSON 请参见表38，算法相关参数。示例： { “latent_vector_length”：10， “architecture”：[400,400,400]， “value_keep_probability”: 0.8, “active_function”:“reul” } initial_parameters 是 JSON 请参见表32，初始化相关参数。示例： { “initial_method”:“normal”, “mean_value”: 0.0， “standard_deviation”：0.001 } optimize_parameters 是 JSON 请参见表33，优化策略相关参数。示例： { “type”:“adam”, “epsilon”：1e-08， “learning_rate”：0.001 } regular_parameters 是 JSON 请参见表34，正则相关参数。示例： { "l2_regularization":0.001, "regular_loss_compute_mode":"full" } 表38 algorithm_specify_parameters 取值说明参数名称是否必选参数类型说明隐向量长度（latent_vector_length) 是 Int 分解后的特征向量的长度。取值范围[1,100]，默认10。神经网络结构 (architecture) 是 List[Int] 神经网络的层数与每一层神经元节点个数。每一层神经元节点数不大于5000，神经网络层数不大于10。默认为400,400,400。神经元值保留概率 (value_keep_probability) 是 Double 神经网络前向传播过程中以该概率保留神经元的值。取值范围(0,1]，默认0.8。激活函数 (active_function) 是 Enum 将一个（或一组）神经元的值映射为一个输出值。取值为relu/sigmoid/tanh，默认relu。

推荐系统 RES 作业相关API

推荐系统 RES-策略参数说明:核函数特征交互神经网络

核函数特征交互神经网络表39 algorithm_parameters参数说明参数名称是否必选参数类型说明 fields_feature_size_path 是 String 该文件标识了每一个域下的特征数量，排序数据处理接口会生成这个文件，文件路径为用户在数据处理中输入的“run_path”参数表示的路径的“fields_feature_size”目录下，文件名称为“part-00000”，需要用户提供文件完整路径。 max_iterations 是 Int 模型训练的最大迭代轮数。取值范围[1,1000]，默认50。 early_stop_iterations 是 Int 在测试集上连续early_stop_iterations轮迭代的AUC小于当前最优AUC时，迭代停止，训练结束。取值范围[1,1000]，不大于max_iterations，默认5。 algorithm_specify_parameters 是 JSON 请参见表40，算法相关参数。示例： { "latent_vector_length":10, "active_function":"relu", "architecture":[400,400,400], "value_keep_probability":0.8, "sub_net_architecture":[40,5], "is_drop_fm":"False" } initial_parameters 是 JSON 请参见表32，初始化相关参数。示例： { “initial_method”:“xavier” } optimize_parameters 是 JSON 请参见表33，优化策略相关参数。示例： { “type”:“adam”, “epsilon”：1e-08， “learning_rate”：0.001 } regular_parameters 是 JSON 请参见表34，正则相关参数。示例： { "l2_regularization":0.001, "regular_loss_compute_mode":"full" } 表40 algorithm_specify_parameters 取值说明参数名称是否必选参数类型说明隐向量长度（latent_vector_length) 是 Int 分解后的特征向量的长度。取值范围[1,100]，默认10。神经网络结构 (architecture) 是 List[Int] 神经网络的层数与每一层神经元节点个数。每一层神经元节点数取值范围为[1,1000]，神经网络层数不大于5。默认400,400,400。神经元值保留概率 (value_keep_probability) 是 Double 神经网络前向传播过程中以该概率保留神经元的值。取值范围(0,1]，默认0.8。激活函数 (active_function) 是 Enum 将一个（或一组）神经元的值映射为一个输出值。取值relu/sigmoid/tanh，默认relu。子网络结构 (sub_net_architecture) 是 List[Int] 特征向量之间使用神经网络核来计算相互关系时，该神经网络的结构。每一层的节点数取值范围为[1,100]，深度不超过5层。默认40,5。是否移除因子分解机 (is_drop_fm) 是 Boolean 是否移除模型架构中的因子分解机部分，值为True则蜕变为带有核函数的DNN。取值true/false，默认false。

推荐系统 RES 作业相关API

云服务器内容精选

作业相关API

7*24

备案

专业服务

退订

建议反馈

售前咨询热线