Web3目前已是一个既定的事实,融入到现有的金融体系之中。围绕Web3、特别是链上数据的服务,也越发成熟。一般意义上的数据挖掘、数据分析,也适用于链上。因为链上的数据是公开的,所以一般人也能获取。
你是否也好奇,链上的巨鲸用户是如何被发现的、关于比特币的各类指数,是如何计算的。这篇文章,就用来回答链上数据挖掘的基本前置信息。看完本文,你将对链上数据挖掘,有一个基本的认知,并可以通过文末的Github链接,动手实操。
接下来,我们按照数据定义、数据获取、数据加工、数据应用四层思路,一起来看看链上数据。
链上数据
说到链上数据,这里有两个概念需要澄清。首先,交易所的k线、各个矿池的价格数据,不算严格意义上的链上数据,但他也是链交易的一环,所以下文也会提及。接着便是真正的区块链上存储的数据,它是严格意义上的链上数据。
下图是使用 CoinGecko API 获取近90天比特币价格数据的例子:
而在区块链上,数据会分为三类。他们分别是交易数据,包含收发地址、转账金额、余额信息;区块数据,包含时间戳、矿工费、矿工奖励等;智能合约代码,区块上的编码业务逻辑。我们主要关注交易数据。
当然,围绕区块链,类似证券交易,还会有各类研究报告、以及社媒数据。这两个,不在今天的讨论范畴。
数据获取
就目前来说,单一链的数据量已经膨胀的非常大了,特别是主流的比特币、以太坊等。你可以下载整个区块链到本地,但这并非最佳选择。两年前,受序数(ordinals)活动影响,完整的未修剪的比特币区块已经有600G大小。
不过也别担心,我们有公链浏览器这么个东西。通过它,可以查询链上的交易、地址和合约情况。在文末的链接中,有一个使用 Etherscan 查询以太坊创始人 Vitalik 地址的例子。可以看到如下返回:
另外,即使是原始的数据,也并不能直接用来分析。需要加工和存储。有平台对数据进行了加工处理,导入到了关系型数据库中。其中的典型代表就有 Dune Analytics 这类。我们可以直接在平台使用SQL进行查询,随后可以通过API获取相应数据。
下图是通过Dune查询并返回以太坊每日交易数的一个例子
此外,在区块之外,还在存在尚未被矿工验证的代替确认交易合集。对其的分析,能够有效评估区块链网络的实际使用和健康状态,也能通过其推断市场预期、优化交易费用。此外,还能发现热门的新Token。下图是使用 GeckoTerminal 获取以太坊热门DEX交易池的例子。
数据加工
这里的数据加工,也分为两个层面。因为前面有提到,有些工具会预先处理数据,形成数据库。但实际上,你也一定会好奇,他们处理了哪些数据。数据加工,这里分为数据清洗和数据再加工两个层面。
在数据清洗层面,原始区块字段,包含很多对于下游分析无用的信息,特别是非交易活动。比如交易所新造币转移给矿工、或者一些排除找零(change outputs)以及一些排除重复的程序化行为。这些行为,一般在我们使用加工后的数据时,无需考虑。
而真正对我们重要的是,数据再加工。一般这个活动,去取决于我们的分析目标。比如我们想要构建交易图,那么就需要把上一步数据中涉及的节点和边提取出来,构建有向图。比如我们想要构建巨鲸监控,则我们需要按交易地址进行处理归类,汇总同一地址或同一实体的交易。
数据应用
就一般用户来说,数据应用无非是能不能帮他挣到钱。这里可以分为前期的价值评估和日常跟踪跟随。价值评估会有几个常用指标:
◦ MVRV 比率 (Market Value to Realized Value): 市值与已实现价值的比率,用于判断资产价格是被高估还是低估。
◦ NVT 比率 (Network Value to Transactions): 将网络价值(市值)与交易量进行比较,类似传统金融的市盈率 (P/E)。
◦ CDD (Coin Days Destroyed): 币天销毁,衡量长期持有的币被移动(卖出)的程度,用于判断长期持有者的动向。
◦ SOPR (Spent Output Profit Ratio): 卖出产出利润率,衡量市场参与者在卖出时是盈利还是亏损。
下图是一个比特币价格移动平均线与MVRV比率的数据图:
日常的跟踪跟随,见的比较多的便是聪明钱跟踪和巨鲸钱包的监控。下图是已知的部分巨鲸列表:
◦ Smart Money 追踪: 追踪 Nansen 标记的“聪明钱”地址的持仓动向,这些地址的行为映射着信息差,比如内幕交易。
◦ 巨鲸监控: 监控大型持有者(巨鲸)的钱包,因为他们的交易对价格波动有更大的影响。特别是沉睡钱包的激活,往往意味着趋势下行。
下图是ETH创始人的钱包地址最新变动,在11月26日,转移出1006枚ETH。
而对于机构反洗钱来说,链上分析也十分重要。通过特定模式识别,挖掘异常交易行为。这里一般是图算法工程师重点关注的内容。而链上的行为简化有两种
- 空投糖果行为(通常表现为在短时间内向大量用户发送近似金额的交易,动机可能是营销或“粉尘”注入追踪地址)
- 贪婪注资行为(通常表现为在短时间内收到大量高于历史平均金额的交易,动机可能是勒索或骗局非法集资)
实际上的图结构会更复杂,会有更多反风控对抗模式呈现其中。
此外,还会有一些Defi和NFT分析方面的工作,就不在此展开了。
链上数据挖掘总结
链上的数据形式,其实还是比较简单的。数据挖掘的核心,从来都不是数据,而是业务价值。但是也不妨碍我们通过上述流程,学习掌握基本的数据获取和建模技巧。目前,区块链上的交易价格,越发和现实世界的经济走势同步。若是进行投机活动,则还需要了解更多的宏观经济行为,比如日元这类流动性杠杆工具对其的影响。
链上数据挖掘101源代码:https://github.com/kuhung/onchain-data-mining
参考资料
- An On-Chain Analysis-Based Approach to Predict Ethereum Prices
- GLXY On-Chain Fundamentals Whitepaper
- ONCHAIN ANALYTICS A New Methodology for Cryptocurrency Analysis
- Mastering Onchain Analytics
谷歌 notebooklm 亦对此文有贡献。
名词解释表
| 名词 | 全称 | 解释 |
|---|---|---|
| Web3 | Web 3.0 | 下一代互联网,强调去中心化、区块链技术和用户主权。 |
| 链上数据 | On-chain Data | 存储在区块链网络中的所有交易和交互记录,具有公开、透明、不可篡改的特性。 |
| 区块 | Block | 区块链中的基本存储单位,包含了一定时间内的交易记录和其他元数据。 |
| 智能合约 | Smart Contract | 部署在区块链上的程序代码,在满足特定条件时自动执行。 |
| DEX | Decentralized Exchange | 去中心化交易所,允许用户直接通过智能合约进行代币兑换,无需中介机构。 |
| 巨鲸 | Whale | 持有大量加密资产的个人或实体,其交易行为可能对市场价格产生显著影响。 |
| 聪明钱 | Smart Money | 指在这个市场中表现出高收益、信息灵敏的专业投资者或机构的资金。 |
| DeFi | Decentralized Finance | 去中心化金融,利用区块链技术构建的开放式金融系统。 |
| NFT | Non-Fungible Token | 非同质化代币,用于表示数字资产(如艺术品、收藏品)的唯一所有权。 |