Meteor 是一个易于使用的插件驱动框架,用于从不同来源提取数据并汇入任何数据目录。


在 Gojek,我们每天处理超过 PB 的数据。这些数据可能来自各种来源,例如数据存储、服务、消息队列等。它可能具有不同的属性和类型,例如事务性、分析性、时间敏感型,也可能在多个系统中徘徊。大量的数据以自己的格式漫游,例如 JSON、Protobuf、Avro 等,也有自己的模式和元数据。

什么是元数据?
tabletopic

在 Gojek,我们总是试图通过改进我们的功能、用户体验和解决方案来交付更好的产品。在处理该规模内的数据时,拥有不断变化的元数据的可能性也更高。由于我们在日常工作中将数据视为一等公民,因此需要更好地了解数据并了解可用的数据也很重要。我们需要找到一种管理元数据的方法,以便我们每个人都能及时了解不断变化的数据上下文。通过这样做,它还有助于适应所有系统依赖项中元数据的变化,这变得更具挑战性。

介绍流星

我们需要解决的几个挑战之一是我们如何有效地收集元数据。我们需要一个易于使用、可重用、可移植且足够灵活的工具,可以对其进行修改以满足通用用例。

recipe
流星从源中提取元数据到汇

Meteor 中定义了三个阶段的过程:提取、处理和接收。提取是从源中提取数据并将其转换为代理可以使用的格式的过程。处理是将提取的数据转换为代理可以使用的格式的过程。接收器是将处理后的数据发送到配方中定义的单个或多个目的地的过程。

流星插件
ExtractorssourceProcessorsSinks
yamlsourceprocessorssinks

Meteor 的插件系统允许轻松添加新插件。随着 50 多个插件以及更多即将推出的用于提取和接收元数据的插件,可以轻松开始从各种来源收集元数据并接收到任何数据目录或存储。

试试 Meteor——它是开源的!

Meteor 具有丰富的 CLI 功能,可以帮助用户更好地与流星交互。用户可以通过列出所有受支持的插件来执行多项操作以生成配方。对于 mac 用户,它提供了 brewed 公式,因此安装它就像运行一样简单:

我们还为其提供了 helm chart 以将Meteor 作为 kubernetes cron 作业运行,因此部署它不会很麻烦。

在此处查看流星文档或在odpf github 存储库中查看我们的另一个项目以探索更多信息。

对我们使用odpf所做的工作感到兴奋吗?在此处查看空缺职位:

要阅读我们保险库中的更多故事,请单击此处。