谷歌云 | BigQuery 与 Doc AI 集成:开启数据驱动洞察和创新的新时代!

【Cloud Ace云一 是 Google Cloud 全球战略合作伙伴,在亚太地区、欧洲、美洲和非洲拥有二十多个办公室。Cloud Ace 在谷歌专业领域认证及专业知识目前排名全球第一位,并连续多次获得 Google Cloud 各类奖项。作为谷歌云托管服务商,我们提供谷歌云谷歌地图谷歌办公套件谷歌云认证培训等服务。】
AI新时代下,数字化转型加速,同时产生大量文本和其他文档数据,这些数据蕴藏着巨大的洞察潜力,并能驱动新颖的生成式 AI 使用案例
BigQuery 与 Document AI 的集成,让您可以轻松地从文档数据中提取洞察,并构建新的大型语言模型(LLM)应用程序。
BigQuery 客户现在可以创建由 Google 的尖端基础模型驱动的 Document AI 自定义提取器,他们可以根据自己的文档和元数据进行定制。这些定制模型可以从 BigQuery 中调用,以安全、受管控的方式从文档中提取结构化数据,使用 SQL 的简单性和强大性。

统一、受管控的数据到 AI 体验

您可以在 Document AI Workbench 中通过三个步骤构建自定义提取器:
  1. 定义您需要从文档中提取的数据。这被称为文档架构,存储在每个自定义提取器的版本中,并可从 BigQuery 访问
  2. 提供带有注释的额外文档作为提取的样本
  3. 根据 Document AI 提供的基础模型,对自定义提取器进行训练
除了需要手动训练的自定义提取器外,Document AI 还提供了用于费用、收据、发票、税表、政府身份证等多种场景的即插即用提取器,可在处理器库中直接使用,无需执行上述步骤。
一旦自定义提取器准备就绪,您可以在 BigQuery Studio 中使用 SQL 分析文档,具体包括以下四个步骤:
  1. 使用 SQL 为提取器注册一个 BigQuery 远程模型。该模型能理解文档架构(上面创建的),调用自定义提取器并解析结果。
  2. 使用 SQL 为存储在 Cloud Storage 中的文档创建对象表。您可以通过设置行级访问策略在表中管理非结构化数据,从而限制用户对特定文档的访问,并因此限制 AI 对隐私和安全的影响。
  3. 使用 ML.PROCESS_DOCUMENT 函数在对象表上提取相关字段,通过对 API 端点进行推断调用。您还可以在函数之外使用“WHERE”子句来过滤提取的文档。该函数返回一个结构化表,其中每一列都是一个提取的字段。
  4. 将提取的数据与其他 BigQuery 表进行连接,结合结构化和非结构化数据,生成业务价值

以下示例展示了用户体验:

# Show a screenshot of curating Doc AI custom extractor in Workbench

# Create an object table in BigQuery that maps to the document files stored in Cloud Storage.
CREATE OR REPLACE EXTERNAL TABLE `my_dataset.receipt_table`
WITH CONNECTION `my_project.us.example_connection`
OPTIONS (
object_metadata = ‘SIMPLE’,
uris = [‘gs://my_bucket/path/*’],
metadata_cache_mode= ‘AUTOMATIC’,
max_staleness= INTERVAL 1 HOUR
);

# Create a remote model to register your Doc AI processor in BigQuery.
CREATE OR REPLACE MODEL `my_dataset.invoice_parser`
REMOTE WITH CONNECTION `my_project.us.example_connection`
OPTIONS (
remote_service_type = ‘CLOUD_AI_DOCUMENT_V1’,
document_processor=’projects/…/locations/us/processors/…/processorVersions/pretrained-invoice-v1.3-2022-07-15′
);

# Invoke the registered model over the object table to parse PDF expense receipts
SELECT uri, total_amount, invoice_date
FROM ML.PROCESS_DOCUMENT(
MODEL `my_dataset.invoice_parser`,
TABLE `my_dataset.receipt_table`)
WHERE content_type = ‘application/pdf’;

结果表

文本分析、摘要和其他文档分析用例

当您从文档中提取文本后,您可以以几种方式进行文档分析:
  • 使用 BigQuery ML 进行文本分析:BigQuery ML 支持以多种方式训练和部署文本模型。例如,您可以使用 BigQuery ML 来识别客户在支持电话中的情绪,或者将产品反馈分类到不同的类别中。如果您是 Python 用户,还可以使用 BigQuery DataFrames 进行 pandas 和 scikit-learn 类似的 API 进行文本分析。
  • 使用 PaLM 2 LLM 对文档进行摘要:BigQuery 具有一个 ML.GENERATE_TEXT 函数,调用 PaLM 2 模型生成文本,可用于对文档进行摘要。例如,您可以使用 Document AI 提取客户反馈,并使用 PaLM 2 对反馈进行摘要,全部通过 BigQuery SQL。
  • 将文档元数据与存储在 BigQuery 表中的其他结构化数据进行合并:这使您可以将结构化和非结构化数据结合起来,以实现更强大的用例。例如,您可以从在线评论中捕获的反馈中识别出高客户终身价值(CLTV)的客户,或者从客户反馈中列出最受欢迎的产品特性。

// Example of document summarization using PaLM 2
SELECT
ml_generate_text_result[‘predictions’][0][‘content’] AS generated_text,
ml_generate_text_result[‘predictions’][0][‘safetyAttributes’]
AS safety_attributes,
* EXCEPT (ml_generate_text_result)
FROM
ML.GENERATE_TEXT(
MODEL `my_dataset.llm_model`,
(
SELECT
CONCAT(
‘Summarize the following text: ‘,customer_feedback) AS prompt,
*
FROM ML.PROCESS_DOCUMENT(
MODEL `my_dataset.customer_feedback_extractor`,
TABLE `my_dataset.customer_feecback_documents`)
),
STRUCT(
0.2 AS temperature,
1024 AS max_output_tokens));

实现搜索和生成式 AI 用例

由于 BigQuery 的搜索和索引功能的支持,可以实现强大的搜索功能。一旦您从文档中提取了结构化文本,您可以构建针对“大海捞针”查询进行优化的索引。
这种集成还有助于解锁新的生成式 LLM 应用,比如执行文本文件处理以进行隐私过滤、内容安全检查和使用 SQL 和自定义文档 AI 模型进行标记分块。提取的文本与其他元数据结合,简化了对训练语料库的策划,对于微调大型语言模型是必需的。
此外,您正在构建基于经过 BigQuery 嵌入生成和向量索引管理功能基础的受监管企业数据的 LLM 用例。通过将此索引与 Vertex AI 同步,您可以实现检索增强生成用例,从而获得更流畅的 AI 体验

如何开始?

上述功能现已提供预览,您可以轻松在 BigQuery 中为 Document AI 的自定义提取器创建远程模型,并使用它们来进行规模化的文档分析和生成式 AI 训练。立即联系 Cloud Ace 云一,开启您的数智出海之旅!

Leave a Reply