徐宏宇、任晓波
如果你现在接到一个任务——在完全没有官方记录的情况下,找出一个已经“消失”的人,你会从哪里开始?
这并不是一个假设问题。
17年前,一份九页的白皮书出现在互联网的某个不起眼角落,开启了世界上第一个加密货币的时代。比特币从最初的新奇事物发展成为金融领域不可或缺的主流资产。然而,其发明者的真实身份却一直是个谜,隐藏在如今广为人知的化名“中本聪”(Satoshi Nakamoto)背后。
围绕这一身份之谜,过去十多年里,全球范围内已经进行过无数次追查。而在这些尝试中,一条相对完整、甚至可以被复盘的方法路径逐渐浮现出来——一场典型的“情报分析实验”。
2026年4月8日,《纽约时报》(The New York Times)网站发布了调查记者约翰·卡雷鲁(John Carreyrou)与人工智能项目编辑迪伦·弗里德曼(Dylan Freedman)合作撰写的长文《我探寻比特币之谜的旅程》(My Quest to Solve Bitcoin’s Great Mystery),该文的印刷版被发表在2026年4月26日《纽约时报》BU版第4页,标题为《深度探究比特币的创造者》(A Deep Dive Aims To Find The Creator Of Bitcoin)。文章披露,这项调查持续了一年多时间,翻阅了数千条跨越数十年的网络记录,并借助计算机分析方法,将线索逐步收敛到英国密码学家亚当·巴克(Adam Back)身上——尽管当事人否认这一结论。

调查记者John Carreyrou在该文下发表的评论性文字
如果把这篇文章当作一份“调研记录”来看,它实际上完整呈现了一次如何在公开信息中寻找一个匿名个体的过程。
从开源信息出发:把“碎片”变成线索
调查的起点,并不是某个具体的人,而是一堆看似早已被遗忘的旧资料。
正如文章所写,研究从比特币诞生前后的互联网空间开始——他们回到密码朋克活跃的年代,“收集了上世纪90年代和本世纪初密码朋克聚集的三个互联网邮件列表的存档”,同时重新梳理比特币发布初期的论坛发言、开发记录以及中本聪与早期开发者之间的通信。
《纽约时报》原文中部分相关内容的原文及翻译:
我坚信中本聪是密码学社区的一员,该社区活跃于Cypherpunks、Cryptography和Hashcash邮件列表,因为他认识几位Cypherpunks的成员,在Cryptography邮件列表中发表了他的白皮书,并将Hashcash集成到了比特币中。我们决定从互联网上收集这三个邮件列表的存档,并将它们合并到一个庞大的数据库中,以便于搜索。
从1992年到2008年10月30日——中本聪现身的前一天——共有超过34,000名用户在三个邮件列表中发帖。由于其中许多人是垃圾信息发送者或仅发过几次帖子,我们剔除了发帖少于10次的用户,将候选人数缩减至1,615人。
这些材料分散在不同时间、不同平台:邮件列表、论坛帖子、技术文档,彼此之间没有任何结构。但当它们被重新汇集时,一个变化发生了——原本“公开但无序”的信息,开始变得可以被系统观察。
这一过程,本质上对应的是情报分析中最基础、却最容易被低估的一步:开源情报整合(OSINT)。信息并不稀缺,真正稀缺的是把信息转化为“可分析对象”的能力。只有当零散数据被系统收集、统一整理,并形成连续的材料体系时,后续分析才成为可能。
语言就是线索:用写作习惯逼近身份
当材料被整理出来之后,调查并没有立刻进入“猜人”阶段,而是转向一个更细微的维度:语言。
文章中提到,他们将整理出的邮件列表数据库与中本聪的文本进行比对,通过对拼写和语法的分析,结果显示某些作者在语言特征上高度接近。
更具体的细节,被描述得非常精细:

巴克先生经常把“it's”和“its”混淆,而且他习惯在句末加上“also”。在聪的文字中,这两种情况各出现了五次。
他们两人似乎都病态地无法正确使用连字符。和巴克先生一样,中本聪经常在不必要的时候添加连字符,而在需要的时候却省略。例如,他给复合名词“double-spending”加了连字符,但像巴克先生一样,他给复合形容词“hand tuned”“full blown”“would be”和“file sharing”却没有加连字符。
他们有时会给某些词语或短语加上连字符,有时则不会。例如,他们都交替使用“e-mail”和“email”、“built-in”和“built in”、“off-line”和“offline”、“pre-compiled”和“precompiled”、“to-do list”和“to do list”。他们有时都完整地写出“electronic cash”,有时则缩写为“e-cash”。
和巴克先生一样,中本聪也交替使用英式“cheque”和美式“check”,以及英式和美式“optimize”一词。他们有时也会把“backup”和“bugfix”写成一个词而不是两个词(同时将前者用作动词),把“half way”和“down side”写成两个词而不是一个词。
这些细节单独看几乎没有意义,但在跨文本、跨时间的对比中,却形成了一种稳定模式。文章进行了各种词汇、语法分析,上图仅展示了关于中本聪语料库中那些“缺少同义替换”的高辨识度词汇,进而在候选对象中筛选出谁最频繁地使用这些词。
在方法上,这实际上是一种典型的文体计量学(Stylometry)思路:它通过统计文本中的语言特征——例如拼写习惯、词频、句法结构等——构建作者的“写作指纹”,并与候选文本进行相似性比对,从而推断潜在的作者归属。
这种方法的关键在于:语言习惯往往具有长期稳定性,很难被持续伪装。例如功能词(如“the”“and”“of”“to”)的使用频率与组合方式、特定词汇的偏好、拼写差异以及句法结构等,往往比观点内容本身更能稳定反映作者身份。正因如此,在缺乏直接证据的情况下,文体计量学能够成为一种可以被反复验证的间接线索。
用“非典型信息源”完成验证
当历史材料和语言分析逐渐收敛出几个高度相关的人选后,调查并没有停止在“相似性”上,而是开始不断引入新的外围信息,对已有推断进行交叉验证。
在这篇《纽约时报》的调查中,记者不仅重新整理了早期密码学社区的邮件列表和论坛记录,也将此前在英国诉讼案中公开披露的邮件材料重新纳入分析范围。其中,包括中本聪与巴克之间关于比特币白皮书草稿的通信内容。

英国法院公开的中本聪与巴克之间的邮件往来
截图来源:BITCOIN Magazine网站
与此同时,这篇调查的记者还不断补充来自不同来源的“边角信息”:
· 更完整的邮件列表存档
· 早期技术讨论中被忽略的细节
· 不同时间点留下的零散通信记录
《纽约时报》原文中1999年巴克和2009年中本聪对比特币能源消耗问题的回复
这些信息原本分散存在于不同场景:有些来自技术社区,有些来自法律程序,还有些只是互联网早期遗留下来的历史痕迹。但当它们被重新放回统一时间线之后,一些原本孤立的细节,开始形成彼此印证的关联。
这对应的是情报分析中的一个关键能力:跨来源信息交叉验证。它的核心逻辑不是“找到一个最强证据”,而是:不同来源的信息是否能够相互印证;是否在时间、内容、逻辑上保持一致;是否经得住反复比对。
与开源情报整合不同,这一步更像是“验证环节”:前面的分析是在“构建可能性”,而这里是在不断“压缩不确定性”。
在实践中,这类信息往往来自所谓的“非典型信息源”:
· 法律披露材料
· 历史档案
· 非正式通信记录
· ……
它们的价值不在于完整,而在于真实与可交叉验证。
结语
围绕比特币创造者的身份,也许永远不会有一个被普遍接受的最终答案。但这篇调查的意义,本就不在于给出答案。
更重要的是,它展示了一种调查记者建构新闻调研的路径:在没有直接证据的情况下,如何通过公开信息、历史材料与多源数据分析,一步步逼近一个原本不可识别的对象。
从这个角度看,这不仅是一个关于比特币的故事,也是一堂完整的情报分析实践课。
而这堂课本身,也在发生变化——调查记者出身的约翰·卡雷鲁为了找到一种更系统的方法来分析中本聪的文字风格,他寻求了《纽约时报》人工智能团队的记者迪伦·弗里德曼的帮助,他有计算机文本分析方面的经验。当传统经验判断与计算分析能力被整合在一起,情报分析的方式,正在变得更加复杂,也更加有力。