1. 首页
  2. 资讯
  3. 比特币

如何正确看待币圈的数据

身在交易行业,每天要面对很多分析报告和数据。下判断前,叨叨会首先考察它们的有效性和可信度。

有效性是说,这项统计、这个指标是否具备现实的意义,比如考察人均收入,中位数比平均数更有说服力,但多数研究偏…

身在交易行业,每天要面对很多分析报告和数据。下判断前,叨叨会首先考察它们的有效性和可信度。

有效性是说,这项统计、这个指标是否具备现实的意义,比如考察人均收入,中位数比平均数更有说服力,但多数研究偏重后者;可信度看其数学特征否足够精确。

叨叨以为——

如果分析的逻辑是对的,数据少一点也没有关系。

01

这张图最近又开始流传,但它所包含的信息和分析有很大漏洞。

如何正确看待币圈的数据

ROI 即投资回报率(Return on Investment),图中显示几种加密货币自首次上线交易所后的收益表现。如果你在最开始买入 100 美元并持有至今,那么,收益最高的是 BTC,最低的是 BCH。

但是,一个明显的错误,它过分地强调收益回报而忽视了时间维度,起码视觉效果上是这样的。

可以看到,BTC 的周期是 9 年,而 BCH 的周期只有 20 个月。所以,据此来比较各种货币的投资回报率,有着严重的逻辑瑕疵。不仅仅是因为它没有考虑其过去的情况,和未来搭不上边,它只是眼下的一个噱头。

更现实的问题:真实的交易情况有 10 亿种,就是没有这种在上线日买 100 刀,然后拿住不动,等着被这位制图者描述出来的。如果有,那个人在哪里?

市场上,有很多分析师企图预测未来走势,即便最著名的反指也能偶尔对上一次,但图中的 ROI 却成功避开了过去和未来的所有情形,实在令人钦佩。

02

人事纷繁,数据千万,真假对错、好坏多少、新旧精粗,如何取舍查看?

说得更精确一点,如何避免因误读而导致误信、误判?

举个例子——

比特币,我算过从 3900 到 5100 这波所需的资金量,不超过 6 万个比特币,就可以让整个市场有 1200 刀左右的移动,所以从交易量看还是蛮小的,流动性才是衡量市场牛熊的最关键指标。

很明显,“不超过 6 万个比特币”是怎么算出来的?

这个看上去如此精确而没有求证过程的数据,又如何支撑下面的结论?不能仅凭断言者在行业中的地位吧。另一个可能是,他借钱给你买比特币。

这段话引自某位写手的文章,那位写手引自某位大佬的朋友圈。

一层滤一层,一口传一口,能保证最终看到眼里的数据、结论是原滋原味的吗?

03

在数据科学领域,数据的获取、清洗、挖掘是没有止境的事情。不仅有数据库三范式,还有在此基础上的 CRUD 原则。这是专业性很强的工作。

下面是叨叨个人对数据的看法和经验,供君一参,不足尽信。

Raw

Raw 是原始数据,区别于演绎数据。

假设你是一家投资公司的总经理,今天是月底,你要考察过去一个月 10 名实习经理的表现。助理已经将他们的综合成绩放在你的办公桌上。

综合成绩是对主观指标和客观指标加权所得。主观如衣着打扮、谈吐等,客观指标是投资回报率、风控能力等。

但你突然对主观指标的权重不满意,原因是这家公司对着正装要求太严格,这对业务能力强的经理人来说不公平。

作为在行业摸爬滚打多年的老手,你深知,一个看上去像外卖小哥的经理人,可能比看上去像经理人的经理人更适合做这份工作。用塔勒布的话说,“选那个看上去像屠夫的人做你的外科医生”。这就是主次代偿。

你制定了新的权重指数,但助理告诉你,报告上的只有已加权后的成绩,原始数据已经存档,所以,现在不能立马加权。

于是,你和助理相视一顾。她成长了许多。

从原始数据到演绎数据,需要演绎方法,但又如何保证一套演绎方法最佳呢?

交易市场上有人做出各种指标,它们是在单个货币,如价格、交易量、换手率、订单比等基础数据上演绎而来,比如 GBI(全球区块链指数)、ROI(场外指数)、BMLS(比特币保证金多空比率)。

叨叨从不看那些指标,一来,它们的变化滞后于原始数据的,既如此,为何要参考它们;二来,更重的要事,不是自己做出的模型叨叨不信呢。

演绎没有错,适当回归原始也非坏的方案。

从演绎数据到原始数据,其实是数据的降维,也就是尽可能将多维数据降低到低维来处理。这不仅仅能提高精确度,还能减少工作量。

还记得开头说的吗?只要分析的逻辑是对的,少一些数据也没有关系。

Dynamic

追寻动态数据的目的是抓摸趋势,简单的方法是厘清变量和因变量逻辑。

比如,运动上,加速度影响速度,速度影响距离。交易市场中,牛熊周期性转换,涨跌大趋势无法在短期内被消耗。行业里,资本聚集技术、人员,形成产业公司,让普通参与者有工作可做。

因此,在数据选择上,加速度比速度重要,成交量比价格重要,利润增长率比增长额重要。

寻找动态数据的本质是在获得动态思维,意识到一切皆在变化之中。最极端的做法是,每次查看一份报告时,都去验证其引用的数据是否过时。时效性包含在动态里。

动态思维可以在极大程度上避免因路径依赖和思维定式带来的短视。币圈老人对比特币牛熊周期预测还停留在“春夏秋冬”上。

到目前为止,几乎没有看到有分析报告提出,比特币交易额在 2017 年 5 月份才开始爆炸性增长。另一个事实是,目前几大主流交易所的 K 线图都是从 2017 年第四季度开始的。

一个人有自己的时间,一群人组成一个集合。如果想要这个人或这群人经历所有的市场情况,唯一的方法是实现动态的平衡。

Origin

Origin,“来源”的意思。

这是(科学)工作的基本素养,本不是在虑之事,但看到各种分析报告,实在忍不住将其单独列出,以作警示。

不仅仅是币圈,在其他地方,这种不问来源出处的做法也频频发生。没有出处的智慧不值得效法,没有来源的数据不值得信任。

烂源式分析报告大行其道,主要有两个原因。其一,考证起来有点麻烦,读者不愿意花时间;其二,举证的责任在于反对方,在批判之前,报告的观点被默认正确。

想一想,你可有因为一篇报告里的某个数据有问题,而跟撰写人吹胡子瞪眼?但我们随时都能记起含有错误数据的报告来。

假如你分析一个区块链项目报告,你的数据可能来自

> 1. 引用其官方报告;
> 2. 引用某专业研究机构报告;
> 3. 引用某个行业权威研究报告;
> 4. 引用某个大佬的微信朋友圈、微博动态;
> 5. 主动寻求其链上数据。

但链上数据的获取、处理、分析需要做大量工作,非一般人可胜任,否则高盛那样的机构是哪个都能进的。

其他数据,你如何保证它们是一手的且正确的呢?

所以,叨叨很难相信没有专业数据背景的人写出的项目分析报告,尤其是放了很多数据和图表的。他们用大量数据来掩饰其在逻辑上的不通。

回顾此前的结论——

如果分析的逻辑是对的,并不需要太多的图表和数据。

当然,我们不能要求所有分析者都具备强大的数据获取、处理和分析能力,考虑到大家所用的研究数据都是一样的,姑且把现行方案当做同一原则下的正确法则。

有一点需要强调,如果一篇文章里的关键数据没有给出具体来源或明确算法,不要信它。**越是精确的东西越容易出现错。**

至此,Raw、Dynamic 和 Origin 皆已讲完,此三者未必总能匹配。但用它们去对应,可大大避免误读和误信。

04

此外,值得一提是 Multi-dimension(多维),这和 Raw 并不矛盾。

Raw 针对单个数据,Multi-dimension 针对系统整体,比如考察一个项目的热度,不仅要看其微博粉丝数量,还要看其 twitter、reddit、telegram、微信群等等;不仅仅要看其粉丝数量多少,还要看其粉丝活跃度、帖子转发量……

指标一大堆,尽可能选择关键的那个。如果不知道什么是关键数据,那就进行多维测量,机器学习之所以厉害,一方面因为它可以无限次练习下去,另一方面,它天然具备多维处理能力。

(作者:比特叨叨)

声明:登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。