作者简介:严实,分子人类学硏究者,语言爱好者,现在复旦大学现代人类学教育部重点实验室工作。推荐《人类学杂记》系列。
我必须承认这个题目不是很好写。现在网络上关于汉族起源的各种声音都不少,有主张汉族都是炎黄子孙的,有说某个方言的汉族族群是最纯正汉族的,有说南方汉人主要是土著汉化的,有说北方人是胡种的。其实这些说法很多都是片面的,有出于政治目的的,有因为偏见的,也有很多是出于显示本族群的正统性而贬抑其他族群而制造出来的。我希望借本文从我现有的分子人类学数据中举出一些事实而还原出一部分真相。
本文所指的汉族就是目前一般意义上的汉族,可以暂时先不管近几十年内汉族和其他民族通婚的后代,而包括了全国各省和各大方言区的汉族。至于汉族是什么定义,血统还是文化上的,这个问题不在本文考虑范围。好在不论什么定义的汉族,在现今状态下包含的人差不太多。本文更不支持通过血统,尤其是单纯根据Y染色体来划分民族属性的做法。本文就是想通过事实,尽可能还原历史上真正发生过的事情。
我之前的《人类学杂记》系列中也提到,人的遗传物质分为常染色体、X染色体、Y染色体和线粒体。常染色体能显示每个个人及人群的血统混合比例,以及族群之间和个人之间的远近关系,但因为难以作演化树(只能作聚类树,而聚类树并不能显示真实的演化关系),并不能反映血统的流向关系;X染色体因为复杂的遗传模式(女性两条,可发生重组,男性一条),目前不能较好分析,且其遗传规律仍会较接近常染色体;Y染色体反映父系;线粒体反映母系。
先说Y染色体,大家已经大概知道,汉族的最主要类型是O3-M122,占到一大半,其余的包括O1-M119, O2-M268, C3-M217, N-M231, Q-M242等等。如果把省份分成北、东、南三块,华东按江、浙、沪、皖四省市(因为在复旦收样,这些地方样本比较多),其余的省按通常意义的南北方来分。大体结果如表所示:
首先可以看出,汉族,不论北方、华东或南方,最常见的单倍群是相当一致的。尤其O3下面的O3a2c1a-M117, O3a2c1*-M134(xM117)以及O3a1c-002611三支,其总和占了整个汉族的45%左右,在南北方总体来说差别都不大(除M134xM117在北方比南方略高)。在汉族中总体比较均匀的,还有N和O2*这两大单倍群。这五大支,我认为都是属于华夏较早期的成分,应该是5000-2000年前居住在黄河流域的。尽管这几大支很可能不是同时同地扩张的,可能也不都是华夏最早的主要组成,但至少在汉族第一次大规模南迁(东晋)之前,以上的成分已经相对混合得比较均匀了,因此南迁时能以大致相似的相对比例进入南方汉人。
O1(尤其是其下的O1a1-P203支)在华东和南方比例明显比北方多。考虑到O1在4000多年前在长江三角洲的良渚文化的古DNA中已经有很高比例(Li H. et al. 2007),可以认为华东和南方的O1至少很大一部分来自百越群体。不过,考虑到北方汉族也有4%的O1,尤其在西部的回族、羌族,甚至东北的一些民族中也有一定比例的O1来看,不应把O1的来源完全归结为越人。
O2包括O2*-M268(xPK4,M176)、O2a-PK4(下含O2a1-M95)和O2b-M176。从上表来看,O2*在全国是均匀的,O2a-PK4明显在南方多一些。考虑到南方少数民族中南亚、壮侗、苗瑶等民族中普遍有高频的O2a的分布,我们可以认为,南方汉族中的O2a主要是从少数民族中融入的。但同O1的情况,在各处汉族和北方少数民族也普遍有低频的O2a存在来看,O2a可能也是在早期汉族中即存在的。
C3-M217是一个需要仔细讨论的问题。中国的C基本上都属C3(南方有很少数的CxC3)。C和D一样,是早期(应该在6 – 3万年前)到达东亚的单倍群。C3的年龄大致也和整个O相当。我不很同意把C和D称作“棕种人”或者“矮黑人”的提法,因为一来Y染色体不与体质直接关联,二来当C、D的人群与N、O的人群两三万年前在东亚最初相遇时,谁比谁白也不好说,我觉得目前证据还不充足。
C3在北方的比例明显比华东和华南高一些。参考北方的阿尔泰语系民族,如蒙古族、满族中普遍较高的C3比例(他们的C也主要都是C3),可以推测,北方汉族中偏高的C3是与北方民族相关的。
(002611包含在本表的O3*里,占汉族17%左右,因为早期的文献不测002611这个点,表中没有列。本表中的O3*相当于前面表中的M122, M324, 002611, M7四列的总和。两表的原始样本来源不同,数据稍有一两个百分比的出入也是正常的。)
大家都知道,蒙古和满人都曾经统治过中国。那么汉族中的C3是否来源于蒙古人和满人呢?Zerjal等人在2003年发现,在蒙古等大量阿尔泰人群的C3*中,存在着一个特殊的STR组合(单倍型),称作“星簇”(star-cluster),占了蒙古人的20%以上,从东北到中亚的很多民族里也都有分布:
这个单倍型扩张年代很新,根据Zerjal计算只有1000年多一些(我仍然坚持认为用几个到几十个STR算出来的时间准确性很差)。且不论这个星簇是否是成吉思汗的后裔(我的朋友兰海可能会有专文来考证此事),至少以其在蒙古中的比例,可以将其看作是蒙古扩张的一个标记。假如蒙古人大规模融入汉族(考虑其当时的人口数,应该是均匀的),而假设汉族中有10%的父系是从蒙古人来的话,汉族就应该有不下2%的比例属C3的星簇。
然而我检査了上千份汉族的样本,仅发现一例东北汉族属于星簇(通过STR判断),这个人的父亲还是孤儿,不知道祖上原来姓什么。这样的话,就可以作出一个结论:汉族(包括北方汉族)父系中几乎不存在从蒙古人混入的成分。即使有的话,混入比例也不超过1%。
此外,在北部通古斯人(鄂伦春、鄂温克、赫哲)和部分蒙古族和哈萨克斯坦族中存在大量的(>30%)C3c-M48单倍群,满族中也有少量,而这个类型目前也未在我的汉族样本中发现一例(在另一未公开的北方某省上千例汉族样本中发现了3例)。这也能说明汉族中基本不存在蒙古来源。
满族的来源中本来就有大量汉人,从前面表中可见汉族的各主要成分在满族中都有一定比例。满族中C3星簇的比例比蒙古族中略少(8%左右),评价满人在汉族中混合比例稍为困难一些。但有清一代,满族(旗人)都能记住自己的身份,基本到目前还都是能知道自己父系的,较少有父系旗人的人在民族划分时算作汉族。汉族和满族的父系关系,主要还是汉族的父系进入满族(主要是满族三四百年前形成时,另外不排除近年来随母亲民族进入的)。
那么北方汉族中比例较高的C3是什么来源呢?不能排除是东晋前C3已大量存在于汉族,但未混匀。也可能是后来鲜卑等民族大量融入。因为目前已无鲜卑的直系后裔民族,古DNA的Y染色体结果也还很有限,还不能验证这些C3是否源于鲜卑。但可以肯定的是,如此高比例的C3不是蒙古来源。
通过类似的方法,也可以评估日本侵华时是否在中国遗留下后代。日本有35%的D型,都属D2-M55。这个型代表了日本旧石器时期的早期居民——绳文人。除日本列岛外,D2只在朝鲜半岛存在低于1%的比例。目前,在大量的汉族数据中也没测到一例D2。说明日本人的父系没有混入汉族。
后面说一下代表母系遗传的线粒体。文波等人2004年的研究以及薛付忠等人2008年的研究表明,南北汉族的父系是相当一致的,不存在一个明显的南北界线(如本文前面所述)。中国南方的汉化主要应归功于北方汉人的人口南迁,只有小部分是南方土著汉化融入。但线粒体的南北有较明显的区别,最明显的界线正是在大约秦岭-淮河一线。
这说明,母系在汉族中的混合不如父系均匀,一个地方的土著母系在有大量移民迁入时仍能保持较高的原有比例。这个从一般的人口迁徙规律也容易理解:本身男性比女性更容易进行长距离移动并移民定居(相反,乡村一级的母系比父系流动更普遍)。历史上的移民还有不少是军队的移动,有时是不携带女性的,这时就需要找当地女性结婚。汉族男性相比土著拥有较高社会地位和较多财富也是历史上汉族父系占优势的原因。
另外,还需要考虑到东亚绝大多数民族是父系社会。同一个父系的子女生活在一起,经常形成同姓村,而女性在嫁娶时流动。这样,孩子的语言、民族属性等一般都是随父亲的。这也是Y染色体(父系)和民族关联更紧密,而线粒体(母系)和地理区域关联更紧密的原因。
仍然要唠叨一句:Y染色体只是DNA的众多标记里其中的一个而已。人的全基因组有3 Gbp × 2(二倍体),而Y染色体只有60 Mbp,上面仅有几个基因,既不决定体质、相貌等等,也几乎和各种疾病无关。之所以常用Y染色体来研究只是因为遗传模式简单、容易研究,能相对说得清楚一些。忽略了n代前的2ⁿ-1个祖先而只管一个纯父系祖先传下来的遗传物质,也忽略掉各种文化属性,而简单用Y染色体来判断一个人的族属,无疑是荒谬的。另外,现在的Y染色体研究也还未达到透彻,仍需要检测更大数量的样本,网上某些人那样只看见一个C就说是蒙古人,看见N就是北亚,看见Q就是印地安,看见O1就是百越这种简单的论调现在已经不值一驳了。
限时特惠:本站每日持续更新5-20节内部创业项目课程,一年会员
只需199元,全站资源免费下载点击查看详情
站长微信:
jjs406