【本文由Cloud Ace整理发布。Cloud Ace是谷歌云全球战略合作伙伴,拥有 300 多名工程师,也是谷歌最高级别合作伙伴,多次获得 Google Cloud 合作伙伴奖。作为谷歌托管服务商,我们提供谷歌云、谷歌地图、谷歌办公套件、谷歌云认证培训服务。】
Document AI Workbench 中拆分和分类模型的优点
Zencore 交付服务副总裁 Sean Earley 表示:“我们为一家大型银行完成了一个项目,使用 Document AI Workbench 对文档中的数据进行拆分、分类和提取,以实现《住房抵押贷款披露法案》报告的自动化。考虑到我们构建的模型的准确性, ,我们的客户估计将贷款报告覆盖率从 20% 提高到 100%,同时每年消除数千个错误,从而大大降低了银行合规报告程序的运营成本。”
德勤咨询有限公司人工智能与数据经理 Fabian Beckmann 表示:“通过利用 Document AI 的自定义文档拆分器,我们的客户德国商业银行(一家大型欧洲银行)可以轻松地根据其后台要求对客户提交的内容进行细分,从而大大减少了用于额外的手动排序或路由。这种集成为文档人工智能管道内的无缝自动化铺平了道路,带来了巨大的商业利益。”
IT 服务公司 Devoteam 的 ML Tribe 技术主管 Kaïs Albichari 表示,“自定义文档拆分器 (CDS) 帮助我们金融服务行业的一位客户节省了大量时间并提高了数据准确性。通过识别文档的哪些部分他们可以丢弃并保留用于实体提取,CDS 帮助该公司实现了文档处理任务的自动化。实施后工作流程更加高效和简化,使员工能够专注于其他任务。Devoteam 的 G Cloud 团队帮助该公司实施了 CDS并实现这些好处。”
Frank Neugebauer 是 Google Cloud 保险解决方案顾问,他与一家财富 100 强保险公司合作,使用 CDS 创建了一个模型,可以对数百万份保险文件进行拆分和分类,准确率高达 98%。有了这些信息,保险公司可以更好地了解其非结构化数据的性质,为业务策略提供信息,包括特定文档类型的数量,为提取工作提供信息。客户认为这种洞察力水平在他们 200 多年的历史中是前所未有的。
如何使用自定义文档拆分器
导入并准备训练数据
首先,导入并标记文档以训练和评估 ML 模型。
要快速构建训练数据集,请导入单个文档(每个文件一个文档),并使用相关文档类型批量标记它们。您可以一次导入一个或多个文件夹,并为每个文件夹选择正确的文档类型。如下图所示,一次导入可能有一个包含 200 个银行对账单的文件夹,另一个包含 200 个 W2 的文件夹,另一个包含 200 个工资单的文件夹等,所有这些在导入时都会立即标记。
最多可输入30,000份文档和100,000页进行培训。通过这种方式,您可以在几分钟内构建一个训练数据集,其中每个类包含数百个标记文档。与往常一样,如果文档已经使用其他工具进行了标记,只需以文档格式导入带有 JSON 的标签即可。
投入生产
一旦模型满足准确性目标,就可以部署到生产中并调用 API 端点来拆分和分类文档类型。
文档 AI 工作台入门
自定义文档拆分器已在 GA 中公开发布,可帮助客户实现文档拆分和分类的自动化。通过Document AI Workbench 网页、Document AI Workbench 文档了解更多信息,或在 Google Cloud Console 中尝试。