PCA(Principal Components Analysis)主成分分析是在群體遺傳學上一個常用的基因組聚類方式。簡要地說,23魔方的芯片有70萬個位點,相當於從70萬個維度定義一個樣本,PCA就是把70萬維降維到2維平面(如下圖),一般情況下同一個地區的人群樣本往往會如圖中一樣聚集在一起,通過這種方式可以快速排除離群的樣本,使得參考集更純。

舉個例子:

民族成分的檢測可以讓我們更加瞭解自己的祖源,然而基因檢測這件事兒可以為我們做的卻遠不止這樣。每個人體內的基因都秉承著從遠古祖先一代一代遺留下來的特質,對基因秘密的破譯和深入瞭解,能讓我們從各個維度都更加瞭解自身,不僅僅是一些遺傳疾病的風險預見,更多的是我們可以通過基因檢測的結果去找到更適合自己的生活方式,更好的審視生命。

聽說你也是個非洲人?

的爺爺是

想知道個體的基因祖源,需要把基因組與一個已知明確種群分類的參考樣品集合做比對,通過其相似度來推斷出檢測者基因組民族祖源成分。

如果Y染色體DNA序列都相同

23魔方-父系基因祖源遷徙路線

不難看出,本寶寶的曾曾曾曾曾曾 曾祖父是從東非高原翻山越嶺,一路上跨越紅海,在西亞地區安營紮寨,繼而向中亞、南亞次大陸等地區擴散遷移,又經中亞不斷向亞洲其他地區和美洲遷移,最後各自安定下來。

現代人類擁有23對染色體,其中一對是性染色體,男性為XY、女性為XX,其中Y染色體隻由男性傳給下一代男性。研究發現Y染色體有95%的區域為非重組區,意思就是說:在這個區段內的字符信息,一般是不隨每代的遺傳發生變化的,因此被稱為 Y染色體非重組區 ,這種父系遺傳忠實的記錄瞭人類進化事件。這個區域進一步被劃分成218個更小的 字符特區 。在這些 特區 當中,在經歷幾十、上百代的遺傳之後,其中的某個,或某幾個基因字符,可能會發生變化,也就是產生瞭 突變 。這種 突變 會隨著遺傳,一代代傳下去,成為某一個族裔所擁有的特殊的標記。越到後代,所承受的 突變 也就越多、標記也越細致。令人驚異的是:這些突變所產生的標記,雖然歷經幾萬年、上千代的傳承,數億次的 拷貝 ,仍可以保持清晰、準確,分毫不差。因此,我們說 Y染色體的非重組區 ,是人類父系族譜的最忠實無誤的記錄文件。

我們可以根據傢系、古DNA估算出這種突變率。通過突變率、突變數量,不僅可以推算出我們共同的老祖先生活在多少年以前,還能推算出我們的基因內還存在著哪些民族成分。【4】

怎麼區分不同民族呢?

Where are you come from?

2)親緣新竹五星級月子中心關系過濾

爸爸的爸爸是爺爺,

3)PCA過濾

如果我去做祖源檢測的話會不會做出100%非洲人祖源結果呢?

其實啊,非洲起源論和民族血緣的分析就是無關的,準確的說,民族血緣的分析正好就是刨除瞭非洲起源因素之後剩下的部分,它所關註的是 近期 的事情,可能是近10000年的事兒,也可能是近1000年,近100年,乃至近幾十年的事情。但 非氣沖天 說的就是百萬年數量級上的事情瞭。人人都是非洲人,這一點肯定是沒錯的,這是一個長長的故事

咦?!竟然不是誒!

20世紀初,科學傢們觀察瞭由19個單核苷酸多態位點(SNP)組成的Y染色體單倍型在我國22個省市漢族人群中的分佈。結果表明,我國南北人群的Y染色體單倍型組成有較大差異,南方人群的多態性明顯高於北方人群, 而後者中的單倍型僅包含前者的一部分, 其中單倍型H7, H11, H12僅出現在南方漢族.同樣,其他民族也可由基因中存在的不同單倍型來區分開來。【1】【3】【9】也就證明可以通過基因型分別民族成分。

目前有很多方法可以估算基因組的種族民族成分(genetic ethnicity),但幾乎都要依賴一個成型參考集合數據庫,所以這個參考集合數據庫的質量對祖源民族成分準確度起到瞭至關重要的作用。

為瞭獲得優質的參考基因組,23魔方祖源民族數據庫一共會經歷四個步驟:1)參考樣品選取2)親緣關系過濾3)PCA過濾4)panel參考集性能測試。

但在本寶寶的基因檢測中,卻赫然並沒有發現一點點的非洲血統?!難道我其實並不是一個非洲人?(可是這也不對啊,光憑我遊戲抽卡永遠不中SSR這一點,我也應該 非氣沖天 才對啊!)

1)參考樣品選取

難道參考集不應該用每個民族始祖的DNA進行定義嗎?

沒錯!

但不是每個民族都有古DNA樣本的,考慮到近百年來遷徙頻率加快,為瞭保證參考集的客觀性,23魔方設定瞭一個選取參考集的標準 三代同宗

(即從自己往上推三代祖先中都必須同一個民族,同一個省份),最竹北推薦月子中心大限度的保證瞭參考集的特異性。

後來科研人員通過大量的基因分型研究發現,現代男性的Y染色體上都帶有M-8-9,M-1-3-0和YAP這三種古老的Y-SNP,而這三種突變是在M168突變型的基礎上產生的。M168被認為是人類在非洲時產生的突變型【12】,也就是說目前的人類,有一位共同的男性祖先,並且估算大約生活在27萬年前。這個男人被稱為 Y染色體亞當 。也就是我們所有人的爺爺的爺爺的爺爺 的爺爺。【2】【6】

有親緣關系的樣品因為在基因組上格外相似,會引起頻率計算的偏向,如果一個參考祖源中的親緣關系樣品比較多,在某些SNP上的頻率就會額外偏高,所以對於參考集合第一步質控就是過濾有親緣關系的樣品。【5】

1995年,道瑞特、阿卡西和吉爾波特三位科學傢【8】測定瞭分處世界各地,共38名男性Y染色體的ZFY基因區,得到瞭一個令他們大吃一驚的結果:被檢測的ZFY基因區中,38人的DNA序列,竟然完全相同。難道這38名沒有任何親戚關系的男人,都是一位風流好色的男人在世界各地所留下的後裔嗎?這聽起來,實在是如同天方夜譚一樣!

爺爺的爺爺的爺爺

4)Panel參考集合性能測試

最後,需要對過濾後的參考集合做進一步的訓練測試。可以通過Leave-One-Out分析來對參考集合進一步篩查。對一些異常或者 不純 的參考樣品進行刪減,最終使我們祖源參考集合性能達到最優。

23魔方通過以上四步建立他們的民族數據庫,之後隻要將新竹月子中心數據導入數據庫進行計算就可以得到大傢各自的民族成份瞭。

所以啊,雖然我們共同的祖先是起源於非洲,但是經歷過這麼二十多萬年的風風雨雨的遷徙,我們的遺傳基因也隨之發生瞭突變,繼而分化出瞭形形色色的不同的 種族 ,而這些變化的信息,也都一一被記錄在瞭我們的基因密碼內,在基因檢測的時候,就會全部被顯現出來,呈現我們現在每個人不同的民族血統成分。

帝寶竹北產後護理之家|竹北產後護理之家|竹北產後護理之家推薦


arrow
arrow

    shutirrmq 發表在 痞客邦 留言(0) 人氣()