Web3目前已是一个既定的事实,融入到现有的金融体系之中。围绕Web3、特别是链上数据的服务,也越发成熟。一般意义上的数据挖掘、数据分析,也适用于链上。因为链上的数据是公开的,所以一般人也能获取。

你是否也好奇,链上的巨鲸用户是如何被发现的、关于比特币的各类指数,是如何计算的。这篇文章,就用来回答链上数据挖掘的基本前置信息。看完本文,你将对链上数据挖掘,有一个基本的认知,并可以通过文末的Github链接,动手实操。

image-20251204205727412

接下来,我们按照数据定义、数据获取、数据加工、数据应用四层思路,一起来看看链上数据。

链上数据

说到链上数据,这里有两个概念需要澄清。首先,交易所的k线、各个矿池的价格数据,不算严格意义上的链上数据,但他也是链交易的一环,所以下文也会提及。接着便是真正的区块链上存储的数据,它是严格意义上的链上数据。

下图是使用 CoinGecko API 获取近90天比特币价格数据的例子:

output

而在区块链上,数据会分为三类。他们分别是交易数据,包含收发地址、转账金额、余额信息;区块数据,包含时间戳、矿工费、矿工奖励等;智能合约代码,区块上的编码业务逻辑。我们主要关注交易数据。

当然,围绕区块链,类似证券交易,还会有各类研究报告、以及社媒数据。这两个,不在今天的讨论范畴。

数据获取

就目前来说,单一链的数据量已经膨胀的非常大了,特别是主流的比特币、以太坊等。你可以下载整个区块链到本地,但这并非最佳选择。两年前,受序数(ordinals)活动影响,完整的未修剪的比特币区块已经有600G大小。

不过也别担心,我们有公链浏览器这么个东西。通过它,可以查询链上的交易、地址和合约情况。在文末的链接中,有一个使用 Etherscan 查询以太坊创始人 Vitalik 地址的例子。可以看到如下返回:

image-20251204184414657

另外,即使是原始的数据,也并不能直接用来分析。需要加工和存储。有平台对数据进行了加工处理,导入到了关系型数据库中。其中的典型代表就有 Dune Analytics 这类。我们可以直接在平台使用SQL进行查询,随后可以通过API获取相应数据。

下图是通过Dune查询并返回以太坊每日交易数的一个例子

image-20251204184454486

此外,在区块之外,还在存在尚未被矿工验证的代替确认交易合集。对其的分析,能够有效评估区块链网络的实际使用和健康状态,也能通过其推断市场预期、优化交易费用。此外,还能发现热门的新Token。下图是使用 GeckoTerminal 获取以太坊热门DEX交易池的例子。

image-20251204184435144

数据加工

这里的数据加工,也分为两个层面。因为前面有提到,有些工具会预先处理数据,形成数据库。但实际上,你也一定会好奇,他们处理了哪些数据。数据加工,这里分为数据清洗和数据再加工两个层面。

在数据清洗层面,原始区块字段,包含很多对于下游分析无用的信息,特别是非交易活动。比如交易所新造币转移给矿工、或者一些排除找零(change outputs)以及一些排除重复的程序化行为。这些行为,一般在我们使用加工后的数据时,无需考虑。

而真正对我们重要的是,数据再加工。一般这个活动,去取决于我们的分析目标。比如我们想要构建交易图,那么就需要把上一步数据中涉及的节点和边提取出来,构建有向图。比如我们想要构建巨鲸监控,则我们需要按交易地址进行处理归类,汇总同一地址或同一实体的交易。

数据应用

就一般用户来说,数据应用无非是能不能帮他挣到钱。这里可以分为前期的价值评估和日常跟踪跟随。价值评估会有几个常用指标:

MVRV 比率 (Market Value to Realized Value): 市值与已实现价值的比率,用于判断资产价格是被高估还是低估。

NVT 比率 (Network Value to Transactions): 将网络价值(市值)与交易量进行比较,类似传统金融的市盈率 (P/E)。

CDD (Coin Days Destroyed): 币天销毁,衡量长期持有的币被移动(卖出)的程度,用于判断长期持有者的动向。

SOPR (Spent Output Profit Ratio): 卖出产出利润率,衡量市场参与者在卖出时是盈利还是亏损。

下图是一个比特币价格移动平均线与MVRV比率的数据图:

MVRV

日常的跟踪跟随,见的比较多的便是聪明钱跟踪和巨鲸钱包的监控。下图是已知的部分巨鲸列表:

image-20251204184529779

Smart Money 追踪: 追踪 Nansen 标记的“聪明钱”地址的持仓动向,这些地址的行为映射着信息差,比如内幕交易。

巨鲸监控: 监控大型持有者(巨鲸)的钱包,因为他们的交易对价格波动有更大的影响。特别是沉睡钱包的激活,往往意味着趋势下行。

下图是ETH创始人的钱包地址最新变动,在11月26日,转移出1006枚ETH。

image-20251204184546977

而对于机构反洗钱来说,链上分析也十分重要。通过特定模式识别,挖掘异常交易行为。这里一般是图算法工程师重点关注的内容。而链上的行为简化有两种

  1. 空投糖果行为(通常表现为在短时间内向大量用户发送近似金额的交易,动机可能是营销或“粉尘”注入追踪地址)
  2. 贪婪注资行为(通常表现为在短时间内收到大量高于历史平均金额的交易,动机可能是勒索或骗局非法集资)

实际上的图结构会更复杂,会有更多反风控对抗模式呈现其中。

此外,还会有一些Defi和NFT分析方面的工作,就不在此展开了。

链上数据挖掘总结

链上的数据形式,其实还是比较简单的。数据挖掘的核心,从来都不是数据,而是业务价值。但是也不妨碍我们通过上述流程,学习掌握基本的数据获取和建模技巧。目前,区块链上的交易价格,越发和现实世界的经济走势同步。若是进行投机活动,则还需要了解更多的宏观经济行为,比如日元这类流动性杠杆工具对其的影响。

链上数据挖掘101源代码:https://github.com/kuhung/onchain-data-mining

参考资料

  1. An On-Chain Analysis-Based Approach to Predict Ethereum Prices
  2. GLXY On-Chain Fundamentals Whitepaper
  3. ONCHAIN ANALYTICS A New Methodology for Cryptocurrency Analysis
  4. Mastering Onchain Analytics

谷歌 notebooklm 亦对此文有贡献。

名词解释表

名词 全称 解释
Web3 Web 3.0 下一代互联网,强调去中心化、区块链技术和用户主权。
链上数据 On-chain Data 存储在区块链网络中的所有交易和交互记录,具有公开、透明、不可篡改的特性。
区块 Block 区块链中的基本存储单位,包含了一定时间内的交易记录和其他元数据。
智能合约 Smart Contract 部署在区块链上的程序代码,在满足特定条件时自动执行。
DEX Decentralized Exchange 去中心化交易所,允许用户直接通过智能合约进行代币兑换,无需中介机构。
巨鲸 Whale 持有大量加密资产的个人或实体,其交易行为可能对市场价格产生显著影响。
聪明钱 Smart Money 指在这个市场中表现出高收益、信息灵敏的专业投资者或机构的资金。
DeFi Decentralized Finance 去中心化金融,利用区块链技术构建的开放式金融系统。
NFT Non-Fungible Token 非同质化代币,用于表示数字资产(如艺术品、收藏品)的唯一所有权。

关于作者