文字识别 OCR-Python SDK:开始使用

时间:2024-12-12 17:05:04

开始使用

  1. 导入依赖模块
    from huaweicloudsdkcore.auth.credentials import BasicCredentials
    from huaweicloudsdkcore.exceptions import exceptions
    from huaweicloudsdkcore.http.http_config import HttpConfig
    # 导入指定云服务的库 huaweicloudsdk{service}
    from huaweicloudsdkocr.v1.region.ocr_region import OcrRegion
    from huaweicloudsdkocr.v1 import *
  2. 配置客户端连接参数
    • 默认配置
      # 使用默认配置,如出现'HttpConfig' is not defined报错,请检查是否已正确安装sdk
      config = HttpConfig.get_default_config()
    • 网络代理(可选)
      # 根据需要配置网络代理
      config.proxy_protocol = 'http'
      config.proxy_host = 'proxy.huaweicloud.com'
      config.proxy_port = 80
      config.proxy_user = 'username'
      config.proxy_password = 'password'
    • 超时配置(可选)
      # 默认连接超时时间为60秒,读取超时时间为120秒,支持统一指定超时时长timeout=timeout,或分别指定超时时长timeout=(connect timeout, read timeout)
      config.timeout = 120
    • SSL配置(可选)
      # 根据需要配置是否跳过SSL证书校验
      config.ignore_ssl_verification = True
      # 配置服务器端CA证书,用于SDK验证服务端证书合法性
      config.ssl_ca_cert = ssl_ca_cert

    客户端连接参数配置完成后需在初始化客户端client中配置“with_http_config(config)”相应的代码,详情请参见4.初始化客户端(二选一)中的client后的代码。

  3. 配置认证信息

    配置AK、SK、project_id信息。华为云通过AK识别用户的身份,通过SK对请求数据进行签名验证,用于确保请求的机密性、完整性和请求者身份的正确性。有两种认证方式,分别如下。

    • 初始化认证信息:
      ak = os.environ.get("HUAWEICLOUD_SDK_AK")
      sk = os.environ.get("HUAWEICLOUD_SDK_SK")
      • 认证用的 ak 和sk 硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全。
      • 本示例以 ak 和 sk 保存在环境变量中来实现身份验证为例,运行本示例前请先在本地环境中设置环境变量HUAWEICLOUD_SDK_AK和HUAWEICLOUD_SDK_SK。
    • 使用永久AK和SK
      credentials = BasicCredentials(ak, sk, project_id)
    • 使用临时AK和SK
      credentials = BasicCredentials(ak, sk, project_id).with_security_token(security_token)

    认证参数说明:

    • ak、sk:访问密钥信息,获取方法请参见准备工作
    • project_id:华为云项目ID,获取方法请参见准备工作
    • security_token:临时认证场景下的安全票据,可以通过token获取或者通过委托授权获取
  4. 初始化客户端(二选一)
    • 指定region方式(推荐)
      # 增加region依赖
      from huaweicloudsdkocr.v1.region.ocr_region import OcrRegion
      
      # 初始化指定云服务的客户端 {Service}Client ,以初始化OCR服务的 OcrClient 为例
      client = OcrClient.new_builder() \
          .with_http_config(config) \
          .with_credentials(credentials) \
          .with_region(OcrRegion.value_of("cn-north-4")) \
          .build()
    • 指定云服务endpoint方式
      # 指定终端节点,以 OCR 服务北京四的 endpoint 为例
      endpoint = "https://ocr.cn-north-4.myhuaweicloud.com"
      
      # 初始化指定云服务的客户端 {Service}Client ,以初始化OCR服务的 OcrClient 为例
      client = OcrClient.new_builder() \
          .with_http_config(config) \
          .with_credentials(credentials) \
          .with_endpoint(endpoint) \
          .build()

      endpoint是华为云各服务应用区域和各服务的终端节点,详情请查看 地区和终端节点

  5. 发送请求并查看响应
    # 以调用通用 表格识别 接口 RecognizeGeneralTable 为例
    request = RecognizeGeneralTableRequest()
    request.body = GeneralTableRequestBody(
                url="图片的url"
            )
    response = client.recognize_general_table(request)
    print(response)
  6. 异常处理
    表1 异常处理

    一级分类

    一级分类说明

    二级分类

    二级分类说明

    ConnectionException

    连接类异常

    HostUnreachableException

    网络不可达、被拒绝。

    SslHandShakeException

    SSL认证异常。

    RequestTimeoutException

    响应超时异常

    CallTimeoutException

    单次请求,服务器处理超时未返回。

    RetryOutageException

    在重试策略消耗完成后,仍无有效的响应。

    ServiceResponseException

    服务器响应异常

    ServerResponseException

    服务端内部错误,Http响应码:[500,]。

    ClientRequestException

    请求参数不合法,Http响应码:[400, 500)

    # 异常处理
    try:
        request = RecognizeGeneralTableRequest()
        response = client.recognize_general_table(request)
        print(response)
    except exceptions.ClientResponseException as e:
        print(e.status_code)
        print(e.request_id)
        print(e.error_code)
        print(e.error_msg)
support.huaweicloud.com/sdkreference-ocr/ocr_04_0006.html