电子发票的目前有PDF和ofd两种。虽然有标准发票尺寸,但各地具体文件格式有差异。甚至还有原来的机打发票和区块链发票。包括近期推广的全电发票。
总体看种类多格式差异大。如何准确提取发票中信息,并生成格式化数据报表就成为很多从业者的工作难题。发票提取到底如何实现?哪种技术更适合?下面简单分析下:
图片OCR技术 | PDF、OFD解码技术 |
---|---|
通过PDF和ofd转图片/文件扫描或拍照,进行OCR识别。 | 直接PDF和OFD文件编码级别提取发票信息。 |
优点:统一转为图片的识别 | 优点:精准无误。 |
缺点:需要转为图片,OCR需要训练,存在识别模糊和错别字问题。 对图片清晰度有要求。 | 缺点:引擎解码实现有技术工作量。 |
office和国产office类软件wps、adobe pdf 、PDF转换软件。
**问题**:无法针对发票进行专门处理。
网页版或web浏览器的形式提供发票处理。
问题: 收费高(按张收费),有数量限制。需要上传发票到别人平台,财务数据泄露。给企业带来不可估量的风险。
专门针对发票进行解码识别。
比如:zhencon tech的票格子软件。 内置PDF和ofd专用解码引擎,电子发票批量转excel。
没有数量限制。不上传数据。有免费额度。简单好用。