电子发票的目前有PDF和ofd两种。虽然有标准发票尺寸，但各地具体文件格式有差异。甚至还有原来的机打发票和区块链发票。包括近期推广的全电发票。
总体看种类多格式差异大。如何准确提取发票中信息，并生成格式化数据报表就成为很多从业者的工作难题。发票提取到底如何实现？哪种技术更适合？下面简单分析下：

1、目前主要有PDF 、OFD、OCR 三种技术。对比分析如下：

图片OCR技术	PDF、OFD解码技术
通过PDF和ofd转图片/文件扫描或拍照，进行OCR识别。	直接PDF和OFD文件编码级别提取发票信息。
优点：统一转为图片的识别	优点：精准无误。
缺点：需要转为图片，OCR需要训练，存在识别模糊和错别字问题。对图片清晰度有要求。	缺点：引擎解码实现有技术工作量。

2、解决办法和工具

  office和国产office类软件wps、adobe pdf 、PDF转换软件。
 **问题**：无法针对发票进行专门处理。

  网页版或web浏览器的形式提供发票处理。

问题：收费高(按张收费)，有数量限制。需要上传发票到别人平台，财务数据泄露。给企业带来不可估量的风险。
在线发票处理

  专门针对发票进行解码识别。
比如：zhencon tech的票格子软件。 内置PDF和ofd专用解码引擎，电子发票批量转excel。

没有数量限制。不上传数据。有免费额度。简单好用。

在这里插入图片描述