生物数值分类法
5.2 数值分类(Numerical phenetics)
《生物学思想发展的历史》 恩斯特·迈尔著 涂长晟等译 https://tuenhai.com 整理
几乎任何分类方法都有一部分是按类似性将物件整理归类。然而从阿丹森以来凭经验的分类学家按经验归纳的加权方法拟定升物学分类(后来达尔文从理论上作过论证)要求具有相当多的知识和经验。因而很自然的就会提出这样的问题,即能不能制订一种方法就连毫无经验的人,一个非升物学家都能按这种方法将物种归类成“自然的”属和高级分类单位。的确,如果有一种不由意志控制的自动而又客观的方法即使对有轻验的分类学家在选择最佳分类方案时也是有用的。这种方法的基本要点是将类似程度定量比,使定性的或主观的分类学转变成客观的,数值分类学
现在还没有有关数值分类学史的著作。但是这方面的开拓工作可以追溯到19世纪中叶,虽然当时这些工作大部分涉及种内变异、特别是地理变异。试图运用数值方法为种、属以至更高级分类单位分类的文章指导通常都被淹没在大量的分类学文献中,只有极少数专门家知道。有关这方面的资料可参考Simpson,RoeandLewontin合著的《数量动物学》(Quantitative Zoology,1960)
在几乎完全被遗忘的先驱之中有一位是遗传学家斯特体范特(A.H.Sturtevant, 1939;1942)。他十分谨慎地避免偏见并将已经知道和适应及发育有关的任何性状从他的计算中剔除;在分析果蝇的39个性状时他能够把58种果蝇安排在有关的类别中,更重要的是,他还作出了一些概括,这些概括随后曾被反复地证实过。其中第一个概括指出严密的数值方法运用于密切有关的种类时最可靠,但运用在关系疏远的种类上就容易产生矛盾的结果。他还设计了一个能显示不同性状之间相互关系的图表并发现其中有些性状是“最好的”,因为可以指出其他性状的大概性质;这也就是说有的性状是和其他性状共(同)变(化)的
自从电子计算机发明了以后有三个分类学家小组各自独立地提出运用计算机方法将类似性数量化并借助于这种定量法把物种和高级分类单位归类;这三个小组是美国的C·D·Michener和R·R·Sokal(1957),英国伦敦的一位细菌学家P·H·A·Sneath(1957),和英国牛津的A·J·Cain,G·A·Harrison(1958)。他们的提议中最重要的方面是用计算机的机械操作来代替人脑的综合(集成)能力(后者在传统的分类学中只是通过检查或列表比较类似性将分类单位归类)。他们相信这样一来就能用客观的而且一直可以重复的方法代替过去通用的随意而又主观的评价。起初这三个小组一致同意所有的性状同样重要,但是,不久Cain和Harrison(196O)发现不同的性状具有不同的信息量因而建议“线系加权”(phyletic weighting)。Michener也很快从他的早先建议上退了下来,但是剩下来的两位先驱Sokal与Sneath却联合起来在1963年出版的经典著作《数值分类学原理》(Principles ofNumerical Taxonomy》一书中介绍了他们的方法和原理。这书的标题容易引起误解,辛普森及其它分类学者曾经指出分类学中使用数值方法已经很久,而且分类学中分歧很大的一些学派都曾用过,因此后来习惯上把Sokal和Sneath的分类方法称为“数值表征(分类)法”(numerical Phenetics)。遗憾的是,这新方法起初被抬举得太高后来在某些方面无法兑现。例如,开始时曾声称使用新方法只要分别提供同样的一组性状任何两位科学家完全分开独立工作就会对两种升物的相似性作出完全相同的估价。这种说法显然是不能实现的,因而在有经验的分类学家中间激起了一片反对声。在该书经过彻底修订的第二版(1973)中作了很多重要的改进。关于数值分类学的其它教材还有Jardine and Sibson(1971),Clifford andStephenson(1975)。 Throckmorton(1968)的书虽然也是讨论数值分类,但处理方法有所不同
正如达尔文曾经指出的那样,不同的性状含有不同的信息量,当选择不同的性状组合时就会产生十分不同的分类。躯体的不同部位,生活史中的不同阶段,形态学性状或升物化学性状都会对类似性作出不同的估价。为了夸示他们的客观性,数值分类学家提出抛弃种作为分类单位而代之以“运算的分类单位”(operationaltaxonomic units,缩写为OTU),似乎这就是改进。然而事实上这又引起了与导致放弃模式种(typological species)概念同样的实际困难。数值分类学家或者是必须将不同的性别,年龄段和形态看作是不同的OTU,然后将雌、雄以及其它极不相同的表现型分入不同的分类单位,要不然就必须非常仔细地分析升物学变型(同型种,phena),并将变型组合成与升物学种相符的OTU。这样对变异作评价虽然更加逼真,却恰恰要求主观判断,而这种主观判断正是“客观的”数值分类法所要加以排除的
传统分类学家和数值分类学家之间最重要的区别在于他们对加权的态度
对加权的态度只有三种可能性:
-
第一种是认为一切性状都是相等的,也就是说在分类中它们同等重要
虽然数值分类学家将之称作是“不加权”法,但是这当然是既定的加权方法,即给每个性状同等地加权。这和亚里斯多德,切查皮诺以及居维叶的既定加权法一样容易引起误解。海洋无脊椎动物是否有索这一性状的分类价值比一百个其它性状的价值都要高。某些性状含有大量的关于亲缘关系的信息而其它的则仅仅是“噪音”这一点早在二百多年以前阿丹森就曾指出过
-
涉及加权的第二种可能性是有一套固定的标准(例如生理上的重要性)衡量不同性状的相对分类学重要性
这实际上就是亚里斯多德和居维叶的既定加权法
-
第三种可能性是凭经验加权法,这种方法首先将升物安排到表面上看来是自然的类别中(通过对很多性状或复合性状的考虑)。然后对与最自然(最合适)类别看来相关的性状予以最大的加权。这就是达尔文的处理办法,他最后归纳起来这样说:“一些微不足道的性状在分类上的重要性主要取决于它们和其他性状(多少是重要的)相关”(《物种起源》:417)
在全部分类学史中实际上所有有经验的分类学家都知道而且经常强调不同的性状具有多么不同的分类学价值。以大脑半球结构为主要依据的类人猿和人的分类和以主要升物高分子(如血红蛋白等等)为根据的分类将会有所不同。年轻一代的数值分类学家觉察到各种不同的性状的信息量差别悬殊,目前正集中力量用客观的经验性加权(例如通过相关分析)来代替直觉的主观评价
数值分类学家将许多个别性状类似程度的总和转变成单一的总体类似值(Overall similarity value)或“表征距离”(Phenetic distance)。然而正如辛普森(1964 a)曾经指出:“一个单一的类似性衡量尺度是以损失大量信息为代价取得的,这里所指的信息主要是性状变化的顺序以及差异的来源。”在将高度复杂的实体加以比较时正象把不同分类单位的复合性状作比较一样,根本不宜于将类似性定量化。这就是为什么数值分类学曾经被称为模式方法的原因,也是为什么辛普森认为数值分类学导致了“分类学原则的倒退…有意识地恢复了18世纪原则”的原因
如果数值分类方法能取得实际结果人们往往就可能忽视它概念上的弱点。然而,为了部分地补偿镶嵌进化(mosaic evolution)以及由于引用了不含信息量的性状所产生的“噪音”,数值分类学家便必须为极大数量的性状(最好是超过一百)编制程序。在形态上极为复杂的节肢动物(如昆虫,蜘蛛等)中一般可以找到如此大量的性状,但是在绝大多数其他升物中分类学上有用的性状就极少。单是这一点就妨碍了这种以性状不加权为基础的方法的运用。而且即使在昆虫中使用这种方法也非常费事,为大量的分类单位的一百多个性状编制程序要花费大量时间。由于这个原因数值分类学派的先驱者之一Michener在为澳大利亚蜂(包含有很多新种)的大量标本分类时便仍然采用了传统的分类方法
现在,在数值分类学的原理首次被提出约莫25年以后,就有可能对这种方法的可行性和用途作一尝试性的暂时结论。显然,一切分类的基本观点都是表征(分类)性的,都是力求确立“类似”实体的类别。这种努力成功与否取决于确定类似性的原理和方法。在这一方面来说数值分类学由于坚持对性状同等加权以及完全忽视系统发育因而完全失败了
但是,数值分类学基本原理的失败并不能作为理由去否定由数值分类学家所首创并采用的很多数值方法,特别是多变量方法的有效性。数值分类学家首创的这些方法目前在很多科学领域中已广泛应用,在数据选择与分类的一些其他领域中也极其重要。在分类学中提倡并介绍这些方法应当看作是数值分类学家的最重要贡献。另外,正象最优秀的分类学家所一贯支持的那样,数值分类学家也十分强调运用尽可能多的不同性状和性状系统的原则以便取得新资料
数值分类法在为大的属中种的归类和为前此混淆不清类别的分类中最为有用。另一方面,在分类已趋于完善的类别中或为目、纲,或门这些层次的分类中还没有发现数值分类作出过什么实质性的贡献
数值分类学最有希望的未来发展可能在于进一步发展加权程序。这些程序或者是依据性状的相关变异(covariation),或者是以某些经验性指导原则为根据。由推论而知的共同祖先的后存几乎毫无例外地可以由共同具有某些性状而查知,因而对一些性状较之其他性状予以更大的加权就是一种常识。任何分类方法不运用性状加权显然是无效的
为了力求“绝对客观”,数值分类学派完全不考虑任何亲缘证据,而与之对立的支序分类学派(cladistics)的主要特点却正是以亲缘(家系)为基础.
独立思考最难得,赞赏支持是美德!(微信扫描下图)