0与1的游戏:使用Beta和Dirichlet回归方法模拟非计数比例

海报作者:JAMES WEEDON & BOB DOUMA

中文翻译:Zishen Wang (王子申)

This post is also available in English

请设想一下这个场景:你正在一个重要的国际会议上汇报一个激动人心的成果。秉承一向对统计学理论和方法的严谨态度,你对所有的数据都做了统计学检验并给出了置信区间。这些统计分析结果并不只包含P值!你提供的一些数据涉及在不同处理下食草昆虫破坏的叶面积比例。当你准时完成报告时,一位同行问道:你对破坏比例估计的置信区间是-0.30.5,该怎么解释叶面积出现的负值呢?

观众席里有人笑了。你满脸通红地翻到被提问到的这张幻灯片,嘟囔着给大家解释置信区间和点估计之间的区别。观众们开始小声嘀咕,你好像听到不远处有一只狗在叫。

你该怎么避免这种尴尬又让大家疑惑的情况呢?

生态学和进化学中的比例数据

生态学家和进化生物学家会经常测定许多定量数据,为了方便展示,他们通常会把这些数据表示为比例。许多情况下,这些比例是由计数得来的。在一种情况下,这些比例数据是基于可划分为两个或者更多类别的离散实体的:成功或失败,男性或女性,侵入性或非侵入性。比例数据也可以针对连续型变量:动物进行不同活动的比例;植被调查样本中一种植物功能类型的百分比覆盖率植物生物量在各个器官和组织上的分配比例。这些比例数据的共同点是只能在0到1之间取值。小于0或大于1的值没有意义。

两种可以得到比例数据的测量:叶片损坏的比例和植被覆盖百分比。

两种可以得到比例数据的测量:叶片损坏的比例和植被覆盖百分比。

如果您使用常规统计工具来分析此类数据,可能会导致一些问题。线性回归,方差分析等方法假设因变量可以用正态分布建模。正态分布包含从负无穷大到正无穷大的值,因此不太适合模拟比例数据。用正态分布得出的预测值和置信区间很可能包含比例数据定义区间外的值。此外,残差与预测值有很强的相关性。这些现象都表明,选择错误的模型,会导致不准确的统计推断。 Continue reading