目录
一、什么是OCR(需要了解)
OCR又被称为光学字符识别技术,在数字化转型的浪潮中企业为了提高效率、降低成本的关键工具,而我们今天介绍的这款产品就是腾讯云推出的智能结构化OCR,它凭借其先进的技术和广泛的应用场景,正在推动跨行业高效精准的文档处理与数据提取新时代。
本文将全面介绍腾讯云智能结构化OCR的功能、技术优势、应用实践以及行业案例,帮助您深入了解并有效运用这一强大的工具。
二、产品概述与核心优势
产品概述
智能结构化(Smart Structure Optical Character Recognition )融合了业界领先的深度学习技术、图像检测技术以及OCR大模型能力,能够实现不限版式的结构化信息抽取。无论是固定卡证还是复杂的物流单据,均可实现智能识别。该产品预学习建立键值对应关系,支持客户定制模板,提升数据提取录入效率,适用于政务、票据核销、行业表单和国际物流等场景。
智能结构化能做什么
上传图片自动提取结构化信息,智能KV格式信息提取
- 自动化识别千种版式的自动提取
- 亿级调用经过大规模验证
- 98%准确率高
- 1API 1个API解决多种识别问题
举例说明(选看)
要识别的单据证照、不限定版式,智能结构化全搞定,6000+种版面的证照单据支持,无需集成多个接口,单一接口解决诸多证照单据识别问题
1、物流单据识别
适用于各种版式不固定、版面复杂、中英文混排的场景,针对进出口物流、货代、进出口贸易的单据,完成高精度的结构化识别:
- 跨境货代场景,涉及单据运单、海外发票、装箱单、提单、进出口报关单、托书、磅单、货物保险单、货运到达通知。
- 快递&快运场景,涉及单据:出货单、出库单、签回单。
- 国际贸易与采购,涉及单据:采购订单、海外发票、海关进口关税、原厂地证明、国际信用证书。
2、常见证件识别
适用于各种个人企业证件的识别场景,针对下列典型版式统一、未定制的材料,可完成高精度识别结构化:
- 政务类个人证件,如:临时身份证、出生证、结婚证、军官证、警察证、残疾人证、导游证等。
- 教育类个人证件,如:学生证、四六级证、教师资格证、毕业证书、学位证、学历认证、办学许可证等。
- 交通类个人证件,如:道路运输证、从业资格证、网约车运输证、网约车驾驶证、临时车牌、车辆合格证等。
- 企业资质类证照,如:医疗许可证、食品经营许可证、药品生产许可证、烟草专卖许可证、运输许可证等。
- 其他单据材料,如:车险保单、快递运单、银行回单、商业汇票、磅单等。
3、票据单据识别
适用于各种票据单据的识别场景,针对下列典型版式统一、未定制的材料,可完成高精度识别结构化:
- 金融类票据单据,如:银行纸质回单、银行电子回单、大额汇兑凭证、代理记账许可证书、客户入账通知单等。
- 财务类报销单据,如:商品小票、支付截图凭证、滴滴行程单、酒店水单、海关缴纳书、商品订单页等。
- 运输类票据单据,如:报关单、运单、英文发票、英文小票、发货卸货单、采购单、配送单等。
4、行业材料识别
适用于细分行业领域各种特殊材料的识别场景,针对下列典型版式统一、未定制的材料,可完成短文本及表格的高精度结构化:
- 工业行业材料,如:商品标签、设备铭牌、价签等。
- 服务行业材料,如:合同、标书、车辆保险单据、彩票等。
- 医疗行业材料,如:药品说明书、出院记录、医院检验报告单等。
三、产品特性
高精度 | 泛化性 | 易用性 |
支持任意固定版式的卡证票据识别,各字段精度均处于业界领先水平,识别准确率达到90%以上。 | 支持多种常见固定版式的数据结构化提取,如警察证、教师资格证、道路运输证等,适用于多行业场景。 | 用户仅需简单的几步配置,即可定制个性化结构抽取方式,快速提取数据,无需训练,实现高效录入。 |
四、产品实际测试与感受
因为我是学生,所以我就简单的拿一个获奖证书来进行测试,简单测试一下该产品的识别效果和能力。
进行下面的操作(发起请求前需要确保是否已经开通了该服务)
然后就可以了,选择你想要识别的图像,然后点击发起请求。
证书识别
这里我们可以看到识别的结果如下:
"Angle": 0,
"RequestId": "e56fbd1d-d65e-41f6-ab62-b9f716e2152f",
"Title": "蓝桥杯大赛获奖证书",
"Name": "******",//这里我就不展示了
"CertNumber": "******",//这里我就不展示了
"IDNumber": "******",//这里我就不展示了
"IssuingOrganization": "工业和信息化部人才交流中心",
"CompetitionCommittee": "蓝桥杯大赛组委会",
"Date": "2023年4月23日",
"Seal": true,
"QRCode": true,
"RecognizeWarnCode": [],
"RecognizeWarnMsg": [],
"RegistrationAuthority": "工业和信息化部人才交流中心",
"RegistrationDate": "2023年4月23日",
"SetDate": "2023年4月23日",
"IsDuplication": 1
调用实例代码
package main
import (
"fmt"
"github.com/tencentcloud/tencentcloud-sdk-go/tencentcloud/common"
"github.com/tencentcloud/tencentcloud-sdk-go/tencentcloud/common/errors"
"github.com/tencentcloud/tencentcloud-sdk-go/tencentcloud/common/profile"
ocr "github.com/tencentcloud/tencentcloud-sdk-go/tencentcloud/ocr/v20181119"
)
func main() {
// 实例化一个认证对象,入参需要传入腾讯云账户 SecretId 和 SecretKey,此处还需注意密钥对的保密
// 代码泄露可能会导致 SecretId 和 SecretKey 泄露,并威胁账号下所有资源的安全性。以下代码示例仅供参考,建议采用更安全的方式来使用密钥,请参见:https://cloud.tencent.com/document/product/1278/85305
// 密钥可前往官网控制台 https://console.cloud.tencent.com/cam/capi 进行获取
credential := common.NewCredential(
"SecretId",
"SecretKey",
)
// 实例化一个client选项,可选的,没有特殊需求可以跳过
cpf := profile.NewClientProfile()
cpf.HttpProfile.Endpoint = "ocr.tencentcloudapi.com"
// 实例化要请求产品的client对象,clientProfile是可选的
client, _ := ocr.NewClient(credential, "", cpf)
// 实例化一个请求对象,每个接口都会对应一个request对象
request := ocr.NewRecognizeGeneralTextImageWarnRequest()
// 返回的resp是一个RecognizeGeneralTextImageWarnResponse的实例,与请求对象对应
response, err := client.RecognizeGeneralTextImageWarn(request)
if _, ok := err.(*errors.TencentCloudSDKError); ok {
fmt.Printf("An API error has returned: %s", err)
return
}
if err != nil {
panic(err)
}
// 输出json格式的字符串回包
fmt.Printf("%s", response.ToJsonString())
}
驾驶证识别
调试API后,系统返回处理成功的响应,并提供识别后的驾驶证内容,识别结果示例如下:
Address: "广东省深圳市南山区腾讯大厦"
ArchivesCode: ""
BackPageCardCode: ""
BackPageName: ""
CardCode: "440305198305101408"
Class: "C2"
CumulativeScore: ""
CurrentTime: ""
DateOfBirth: "1983-05-10"
DateOfFirstIssue: "2005-05-01"
DriverLicenseType: "Normal"
EndDate: "2025-10-01"
GenerateTime: ""
IssuingAuthority: "上海市公安局交通警察总队"
Name: "刘洋"
Nationality: "中国"
RecognizeWarnCode: [
]
RecognizeWarnMsg: [
]
Record: ""
RequestId: "6c156215-4f2c-42b4-b41d-ffd8cff488bb"
Sex: "女"
StartDate: "2015-10-01"
State: ""
营业执照识别
调试API后,系统返回处理成功的响应,并提供识别后的营业执照内容,识别结果示例如下:
Address: "深圳市南山区高新区高新南一路飞亚达大厦"
Angle: 0.09112373739480972
Business: "计算机软、硬件的设计、技术开发、销售(不含专营、专控、专卖商品及限制项目);数据库及计算机网络服务;国内商业、物资供销业(不含专营、专控、专卖商品)"
Capital: "人民币柒仟万"
ComposingForm: ""
Electronic: false
IsDuplication: 1
Name: "杭州市魔乐计算机有限公司"
NationalEmblem: true
Period: "1998年11月至长期"
Person: "毛华"
QRCode: true
RecognizeWarnCode: [
]
RecognizeWarnMsg: [
]
RegNum: "110000012345678"
RegistrationAuthority: "广东省工商行政管理局"
RegistrationDate: "1998年11月13日"
RequestId: "0dd108d7-28bb-435f-b9fa-27e6a9d6cb32"
Seal: true
SerialNumber: ""
SetDate: "1998年11月"
Title: "营业执照"
Type: "有限责任公司"
五、个人看法总结
腾讯云提供的产品,识别能力和效果都是不错的,感兴趣的话可以试试。
参考资料