OCR的通用文字识别简介,功能优势,应用场景及API概览 ocr文字识别功能介绍

发表时间：2023-07-05 18:15:39

OCR的通用文字识别简介,功能优势,应用场景及API概览

产品介绍读光通用识别类OCR识别产品，可对各类常见文档图片或文档扫描件中的文字信息按照文档原有的格式进行文本识别和还原。为了能够更好的还原文字信息和文档结构，读光文档识别在通用全文识别能力（文字定位、行分析、文字识别）的基础上，增加了文档结构的版面分析和文档图像处理能力，使得文档类图像也能按照结构化的方式进行文档元素提取，进一步提升文档识别的产品体验。

说明功能体验地址：https://duguang.aliyun.com/experience?type=universal

开通享免费额度：https://ocr.console.aliyun.com/overview

购买地址：https://common-buy.aliyun.com/?commodityCode=ocr_general_dp_cn

产品功能

通用文字识别通用文字识别适用于各行业场景下的非结构化文字识别，支持返回文字内容和位置坐标信息。

全文识别高精版（推荐）全文识别高精版支持多格式版面、复杂文档背景和光照环境的精准识别，文档识别率超过99.7%。同时针对有印章、手印的文档，可实现印章擦除后识别，支持低置信度过滤、图案检测等高阶功能。

通用手写体识别读光通用手写体识别模型可以支持中文手写体、英文手写体、数字手写体等各种复杂场景的手写文字识别，同时具备较强的印刷文字识别能力，适用于识别各类手写笔记、板书等。

表格识别表格识别可支持对有线表格、条纹表格、无线表格进行有效识别。

说明表格智能解析：进行通用表格解析，从表格中提取出表格样式、表格内容、文本KV、表格KV等。支持100M、100页之内的PDF文档，以及30张之内的图片文档格式。立即免费体验

电商图片文字识别电商图文识别是专门针对电商商品宣传图片、社区贴吧图片、网络UGC图片等网络场景下图片字符快速精准识别的原子能力产品，在违规广告识别、信息审核管理和网络安全治理等场景下具有极大应用价值。

防疫健康码识别读光OCR防疫健康码识别包括全国主要省市健康码，支持健康码图片的姓名、日期、时间、颜色、备注信息等主要字段的识别结果输出。

文档结构化识别读光文档结构化识别可对文档信息进行结构化识别，并提供元素平铺和层级树两种视角的版面信息输出。能够将文档中的文字元素（单字、文字块、行等）和相应的版面格式（标题、段落、表格）抽离并按顺序输出。目前仅支持单页文档。

说明文档智能解析：从文档中提取出逻辑层级结构、文本内容、表格内容、Key-value键值字段、样式信息等。基于对文档的内容信息、版面信息和逻辑信息的分析理解，以结构化数据的形态输出抽取结果。支持100M、100页之内的PDF文档，以及30张之内的图片文档格式。立即免费体验

特色优势准确率高

利用海量的图片样本训练模型，具有业内领先的准确率。以身份证识别为例，准确率超过99%。

实时性高

依托于阿里自建的EAS在线服务集群，精益求精优化Inference技术，提供弹性伸缩的低延时服务。

技术前沿精深

基于阿里云机器学习平台PAI，应用阿里深度优化的深度学习框架PAI-Tensorflow，训练出业界领先的文本检测模型及文本识别模型。

服务稳定

根据调用量提供弹性服务，扩展性好，算法持续的迭代优化对用户稳定性无影响。

应用场景图片内容审核

各类通用型接口，可针对不同场景，识别内容进行内容审核。及时发现违规行为，大大降低人力成本，广泛应用于电商内容治理场景。

合同文档类识别

通用文字识别可用于识别合同、文档、小说等图片，用于合同校对、文档检索、PDF提取等场景，广泛应用于司法卷宗管理、企业法务合同审核、金融/保险自动化流程等行业。

API快捷入口云市场API快捷入口（旧）

官网API快捷入口（新）

全文识别高精版

RecognizeAdvanced

通用手写体识别

RecognizeHandwriting

电商图片文字识别

RecognizeBasic

表格识别

RecognizeTableOcr

通用文字识别

RecognizeGeneral

防疫健康码识别

RecognizeHealthCode

文档结构化还原识别

RecognizeDocumentStructure

什么是文字识别

文字识别（OpticalCharacterRecognition，简称OCR）是指将图片、扫描件或PDF、OFD文档中的打印字符进行检测识别成可编辑的文本格式，以JSON格式返回识别结果。

OCR以开放API（ApplicationProgrammingInterface，应用程序编程接口）的方式提供给用户，用户使用Python、Java等编程语言调用OCR服务API将图片识别成文字，帮助用户自动采集关键数据，打造智能化业务系统，提升业务效率，API获取详情请参考《API参考》。

OCR还提供多种编程语言的SDK供您使用，SDK使用方法请参考《SDK参考》。

使用前必读用户需要具备编程能力，熟悉Java、Python、iOS、Android、Node.js编程语言。

OCR服务需要用户通过调用API接口，将图片或扫描件中的文字识别成可编辑的文本，然后返回JSON格式的识别结果，用户需要通过编码将识别结果对接到业务系统或保存为TXT、Excel等格式。

关于文字识别的相关声明请参见文字识别服务声明、隐私政策声明。

文字识别服务等级协议请参见华为云服务等级协议。

OCR能力通用类OCR通用类OCR（GeneralOCR），支持表格、文档、网络图片等任意格式图片上文字信息的自动化识别，自适应分析各种版面和表格，快速实现各种文档电子化。

证件类OCR证件类OCR（CardOCR），支持身份证、驾驶证、行驶证、护照等证件图片上有效信息的自动识别和关键字段结构化提取。

票据类OCR票据类OCR（ReceiptOCR），支持增值税发票、机动车销售发票、医疗发票等各种发票和表单图片上有效信息的自动识别和结构化提取。

行业类OCR行业类OCR（DomainOCR），支持物流面单、医疗化验单据等多种行业特定类型图片的结构化信息提取和识别，助力行业自动化效率提升。

定制模板OCR定制模板OCR（CustomOCR），支持用户自定义识别模板，指定需要识别的关键字段，实现用户特定格式图片的自动识别和结构化提取。

首次使用OCR如果您是首次使用OCR的用户，建议您学习并了解如下信息：

功能介绍通过功能介绍章节的内容，了解OCR不同类别的文字识别功能，包括通用类文字识别、证件类文字识别、票据类文字识别。

入门使用OCR以开放API的方式提供给用户，您可以参考《快速入门》学习并使用OCR服务。

使用方式如果您是一个开发工程师，熟悉代码编写，想要直接调用OCR服务，您可以参考《API参考》或《SDK参考》获取详情。

由浅入深学习您可以参考成长地图，由浅入深学习使用OCR。

OCR图片文字识别

证件类文字识别

身份证识别

自动识别身份证上的全部信息，支持身份证正反面识别，一次扫描即可识别身份证号码、姓名、地址等全部信息，在暗光、倾斜、过曝光、阴影等异常条件下均可准确识别身份证信息。

驾驶证识别

自动识别驾驶证正页与副页上的全部信息，自动提取出姓名、性别、领证日期、准驾车型、有效期限、档案编号等结构化信息，在暗光、倾斜、过曝光、防伪标志干扰、阴影等异常条件下均可准确识别驾驶证信息。

行驶证识别

自动识别行驶证正页与副页上的全部信息，自动提取出号牌号码、车辆类型、所有人、使用性质、品牌型号、车辆识别代号、发动机号码、注册日期、档案编码、核定载人数、总质量、整备质量、核定载质量、外廓尺寸、准牵引总质量、备注、检验记录、条码号等结构化信息，在暗光、倾斜、过曝光、防伪标志干扰、阴影等异常条件下均可准确识别行驶证信息。

护照识别

针对中国护照，可识别护照上的全部信息；针对其他国家护照，可根据两行国际标准化的机读码识别出6-7个关键字段信息，包括姓名、性别、出生日期、护照号码、签发国国家码、护照有效期等。在暗光、倾斜、过曝光、阴影等异常条件下均可准确识别护照信息。

营业执照识别

识别营业执照中的公司名称、注册号、法人代表、地址、注册资本、营业期限、经营范围等字段。在暗光，倾斜、水印等异常条件下均可正常识别执照信息。

银行卡识别

自动识别银行卡正面的信息，识别信息包括卡片类型（借记卡或信用卡）、银行卡卡号、有效日期、发卡行、持卡人姓名（限信用卡）。省去手动录入过程。

道路运输证识别

自动识别道路运输证的全部信息，一次扫描即可识别业户名称、道路运输证号、车辆号牌、车辆类型等全部信息。

车牌识别

自动识别图片中的车牌信息。

名片识别

自动识别名片中的信息，识别信息包括姓名、职位头衔、公司、部门、联系方式、地址、邮箱、传真、邮编、公司网址等信息，并将识别结果返回给用户。

VIN码识别

自动识别图片上的车架号信息。