十分钟看懂谷歌云数据湖解决方案

根据Advanced Market Analytics 的数据,到 2024 年全球数据湖市场预计将达到近 120 亿美元。什么是数据湖?它是如何工作的?利用数据湖有什么好处?谷歌云又是如何搭建自己的数据湖解决方案的?

一、什么是数据湖?

云数据湖是一个云托管的集中式存储库,允许我们以任何规模存储所有结构化和非结构化数据,通常使用对象存储。云数据湖可用于存储组织的数据,包括从内部和外部操作和交互生成的数据。

数据湖能够打破数据孤岛并集成各种分析,以深入了解行业并指导更好的业务决策。

二、谷歌云的数据湖解决方案

数据湖分为数据摄取、数据存储、数据处理和分析、工作流创建和实施四个阶段(数据集市、实时分析、机器学习),而谷歌云针对四个阶段可提供其独家解决方案。

1.数据摄取

数据湖架构必须能够从不同来源摄取不同数量的数据,例如物联网 (IoT) 传感器、网站上的点击流活动、在线交易处理 (OLTP) 数据和本地数据等。而谷歌可以提供以下服务用于摄取数据:

Pub/Sub 与 Dataflow: 可以将实时数据直接摄取和存储到 Cloud Storage,根据数据量进行扩展和扩展。

Storage Transfer Service: 移动大量数据不像发出单个命令那样简单,必须处理诸如安排定期数据传输、在源和接收器之间同步文件或根据过滤器有选择地移动文件等问题。Storage Transfer Service 提供了一种强大的机制来完成这些任务。

gsutil: 对于一次性或手动启动的传输,可以考虑使用gsutil,它支持多线程传输、已处理的传输、平行复合上传、重试和恢复。

Transfer Appliance: 实现大量本地数据的传输。

2. 数据存储

谷歌云的Cloud Storage 十分适合数据湖的中央存储库。Cloud Storage搭建数据湖具有以下的优势:

容量:有了Cloud Storage,你可以从一些小文件开始,将你的数据湖发展到EB级的规模,而不用担心在内部扩大存储和数据维护时出现问题。这使你的工程师可以自由地专注于更重要的事情。

持久性:虽然性能对于数据湖至关重要,但持久性更为重要,而 Cloud Storage 旨在实现 99.999999999% 的年度持久性。

成本效率:Cloud Storage 允许多个存储类别和定价选项。这有助于公司准确地支付他们所需的存储量,而不是像在本地建立数据湖时需要的假设成本和容量的规划。

中央存储库通过提供用于跨团队和部门存储和访问数据的中央位置,Cloud Storage 可帮助您避免必须保持同步的数据孤岛。

数据安全:由于数据湖旨在存储所有类型的数据,因此企业期望强大的访问控制功能有助于确保其数据不会落入坏人之手。Cloud Storage 提供了 多种机制 来实现对数据资产的细粒度访问控制。

3.数据处理和分析

在摄取和存储了数据之后,下一步是使其可用于分析。在某些情况下,可以在摄取后立即将数据存储在一个公认的模式中,这样可以简化就地查询。

例如,如果你将传入的数据以Avro格式存储在Cloud Storage中,谷歌云提供了以下的查询和处理方式:

  • 使用Dataproc上的Hive来发布针对数据的SQL查询。
  • 直接对BigQuery中的数据进行查询。
  • 将数据加载到BigQuery中,然后对其进行查询。

而对于更复杂的数据处理,谷歌云提供了以下的框架用于搭建数据分析:

4.工作流创建和实施(数据集市、实时分析、机器学习)

在下图所示的简单而常见的工作流程中,我们可以使用提取、转换和加载(ETL)流程将数据纳入BigQuery数据仓库。然后,可以通过使用SQL查询数据。Dataprep是一个用于清理和准备数据的可视化工具,非常适合于简单的ETL工作,而Apache Beam的Dataflow为更多的ETL工作提供了额外的灵活性。

实时分析:

如果想要一个简单的、基于 SQL 的管道, BigQuery 上的流处理能够在摄取数据时进行查询。使用 Beam 添加 Pub/Sub 和 Dataflow 可提供更深入的流处理功能,例如,用户可以在将数据存储到 BigQuery 之前执行聚合、窗口化和过滤。对于时间序列分析,我们可以将提取的数据存储在Cloud Bigtable 中 以促进快速分析。

机器学习:

机器学习可以从数据湖中的海量数据中受益匪浅。Google Cloud 包括用于语音、视觉、视频智能和自然语言处理的预训练模型。对于这些情况,可以直接将适当的输入(例如音频、图像或视频)传递给相应的 GCP 服务。然后,提取有价值的元数据并将该元数据存储在 BigQuery 等服务中以供进一步查询和分析。

 

联系我们

返回首页

知乎

Leave a Reply