谷歌云 | BigQuery 与 Doc AI 集成：开启数据驱动洞察和创新的新时代！

【Cloud Ace云一 是 Google Cloud 全球战略合作伙伴，在亚太地区、欧洲、美洲和非洲拥有二十多个办公室。Cloud Ace 在谷歌专业领域认证及专业知识目前排名全球第一位，并连续多次获得 Google Cloud 各类奖项。作为谷歌云托管服务商，我们提供谷歌云、谷歌地图、谷歌办公套件、谷歌云认证培训等服务。】

AI新时代下，数字化转型加速，同时产生大量文本和其他文档数据，这些数据蕴藏着巨大的洞察潜力，并能驱动新颖的生成式 AI 使用案例。

BigQuery 与 Document AI 的集成，让您可以轻松地从文档数据中提取洞察，并构建新的大型语言模型（LLM）应用程序。

BigQuery 客户现在可以创建由 Google 的尖端基础模型驱动的 Document AI 自定义提取器，他们可以根据自己的文档和元数据进行定制。这些定制模型可以从 BigQuery 中调用，以安全、受管控的方式从文档中提取结构化数据，使用 SQL 的简单性和强大性。

统一、受管控的数据到 AI 体验

您可以在 Document AI Workbench 中通过三个步骤构建自定义提取器：

定义您需要从文档中提取的数据。这被称为文档架构，存储在每个自定义提取器的版本中，并可从 BigQuery 访问
提供带有注释的额外文档作为提取的样本
根据 Document AI 提供的基础模型，对自定义提取器进行训练

除了需要手动训练的自定义提取器外，Document AI 还提供了用于费用、收据、发票、税表、政府身份证等多种场景的即插即用提取器，可在处理器库中直接使用，无需执行上述步骤。

一旦自定义提取器准备就绪，您可以在 BigQuery Studio 中使用 SQL 分析文档，具体包括以下四个步骤：

使用 SQL 为提取器注册一个 BigQuery 远程模型。该模型能理解文档架构（上面创建的），调用自定义提取器并解析结果。
使用 SQL 为存储在 Cloud Storage 中的文档创建对象表。您可以通过设置行级访问策略在表中管理非结构化数据，从而限制用户对特定文档的访问，并因此限制 AI 对隐私和安全的影响。
使用 ML.PROCESS_DOCUMENT 函数在对象表上提取相关字段，通过对 API 端点进行推断调用。您还可以在函数之外使用“WHERE”子句来过滤提取的文档。该函数返回一个结构化表，其中每一列都是一个提取的字段。
将提取的数据与其他 BigQuery 表进行连接，结合结构化和非结构化数据，生成业务价值。

以下示例展示了用户体验：

# Show a screenshot of curating Doc AI custom extractor in Workbench

# Create an object table in BigQuery that maps to the document files stored in Cloud Storage.
CREATE OR REPLACE EXTERNAL TABLE `my_dataset.receipt_table`
WITH CONNECTION `my_project.us.example_connection`
OPTIONS (
object_metadata = ‘SIMPLE’,
uris = [‘gs://my_bucket/path/*’],
metadata_cache_mode= ‘AUTOMATIC’,
max_staleness= INTERVAL 1 HOUR
);

# Create a remote model to register your Doc AI processor in BigQuery.
CREATE OR REPLACE MODEL `my_dataset.invoice_parser`
REMOTE WITH CONNECTION `my_project.us.example_connection`
OPTIONS (
remote_service_type = ‘CLOUD_AI_DOCUMENT_V1’,
document_processor=’projects/…/locations/us/processors/…/processorVersions/pretrained-invoice-v1.3-2022-07-15′
);

# Invoke the registered model over the object table to parse PDF expense receipts
SELECT uri, total_amount, invoice_date
FROM ML.PROCESS_DOCUMENT(
MODEL `my_dataset.invoice_parser`,
TABLE `my_dataset.receipt_table`)
WHERE content_type = ‘application/pdf’;

结果表

文本分析、摘要和其他文档分析用例

当您从文档中提取文本后，您可以以几种方式进行文档分析：

使用 BigQuery ML 进行文本分析：BigQuery ML 支持以多种方式训练和部署文本模型。例如，您可以使用 BigQuery ML 来识别客户在支持电话中的情绪，或者将产品反馈分类到不同的类别中。如果您是 Python 用户，还可以使用 BigQuery DataFrames 进行 pandas 和 scikit-learn 类似的 API 进行文本分析。
使用 PaLM 2 LLM 对文档进行摘要：BigQuery 具有一个 ML.GENERATE_TEXT 函数，调用 PaLM 2 模型生成文本，可用于对文档进行摘要。例如，您可以使用 Document AI 提取客户反馈，并使用 PaLM 2 对反馈进行摘要，全部通过 BigQuery SQL。
将文档元数据与存储在 BigQuery 表中的其他结构化数据进行合并：这使您可以将结构化和非结构化数据结合起来，以实现更强大的用例。例如，您可以从在线评论中捕获的反馈中识别出高客户终身价值（CLTV）的客户，或者从客户反馈中列出最受欢迎的产品特性。

// Example of document summarization using PaLM 2
SELECT
ml_generate_text_result[‘predictions’][0][‘content’] AS generated_text,
ml_generate_text_result[‘predictions’][0][‘safetyAttributes’]
AS safety_attributes,
* EXCEPT (ml_generate_text_result)
FROM
ML.GENERATE_TEXT(
MODEL `my_dataset.llm_model`,
(
SELECT
CONCAT(
‘Summarize the following text: ‘,customer_feedback) AS prompt,
*
FROM ML.PROCESS_DOCUMENT(
MODEL `my_dataset.customer_feedback_extractor`,
TABLE `my_dataset.customer_feecback_documents`)
),
STRUCT(
0.2 AS temperature,
1024 AS max_output_tokens));

实现搜索和生成式 AI 用例

由于 BigQuery 的搜索和索引功能的支持，可以实现强大的搜索功能。一旦您从文档中提取了结构化文本，您可以构建针对“大海捞针”查询进行优化的索引。

这种集成还有助于解锁新的生成式 LLM 应用，比如执行文本文件处理以进行隐私过滤、内容安全检查和使用 SQL 和自定义文档 AI 模型进行标记分块。提取的文本与其他元数据结合，简化了对训练语料库的策划，对于微调大型语言模型是必需的。

此外，您正在构建基于经过 BigQuery 嵌入生成和向量索引管理功能基础的受监管企业数据的 LLM 用例。通过将此索引与 Vertex AI 同步，您可以实现检索增强生成用例，从而获得更流畅的 AI 体验！

如何开始？

上述功能现已提供预览，您可以轻松在 BigQuery 中为 Document AI 的自定义提取器创建远程模型，并使用它们来进行规模化的文档分析和生成式 AI 训练。立即联系 Cloud Ace 云一，开启您的数智出海之旅！

统一、受管控的数据到 AI 体验

文本分析、摘要和其他文档分析用例

实现搜索和生成式 AI 用例

如何开始？

You Might Also Like

谷歌云 | 授权用户访问您在 Cloud Run 上的私有工作负载的 3 种新方法

谷歌云 | 使用 BigQuery Omni，发现跨云地理空间分析的优势

虚拟机实现跨VPC网络-多网络接口

Leave a Reply Cancel reply