《Nature Genetics》三代異源四倍體陸地棉和海島棉基因組破譯

?2018124日,華中農業大學作物遺傳改良國家重點實驗室張獻龍課題組首次通過三代測序(PacBio+光學圖譜(BioNano+Hi-C技術完成了異源四倍體陸地棉(Gossypium hirsutum)和海島棉(Gossypium barbadense)基因組組裝。該研究成果刊登于Nature Genetics,文中利用北京百邁客生物科技有限公司的三代PacBio測序組裝及Hi-C染色體掛載技術,組裝獲得了高質量栽培種異源多倍體棉基因組。>>下載文獻全文

英文題目:Reference genome sequences of two cultivated allotetraploid cottons?Gossypium hirsutum?and?Gossypium barbadense
中文題目:三代異源四倍體陸地棉和海島棉基因組破譯;
發表雜志:Nature Genetics
影響因子:27.125
發表時間:2018.12.04
合作單位:華中農業大學作物遺傳改良國家重點實驗室;

摘要

異源四倍體陸地棉和海島棉(Gossypium hirsutumGossypium barbadense)長期以來一直在世界范圍內種植,由于其具有天然可再生紡織纖維。雖然以前利用二代測序技術組裝的陸地棉和海島棉基因組在棉花研究中應用較高,但是其基因組高度片段化且不完整。本研究中進行了異源四倍體基因組的升級,利用了三代測序組裝技術(single-molecule real-time sequencing+光學圖譜(BioNano optical mapping+Hi-C染色體掛載技術(high-throughput chromosome conformation capture techniques),實現了異源四倍體陸地棉G. hirsutum?acc. Texas Marker-1 (TM-1)?和海島棉G. barbadense?acc. 3-79基因組的組裝。與之前的二代基因組相比,三代陸地棉和海島棉基因組具有高度連續性,高度重復區(如著絲粒)具有更高的完整性。比較基因組學分析確定了廣泛的結構變異可能發生在多倍化后,在14條染色體臂內和臂間的倒位十分突出。研究中構建了漸滲系群體,以導入從海島棉到陸地棉的有利染色體片段。從而使得研究人員可以識別與優質纖維質量相關的13個數量性狀基因座。?這些資源將加速棉花的進化和功能基因組研究,并為未來的纖維改良育種計劃提供新的信息。

研究背景

棉花是世界上最大的天然紡織纖維來源,每年纖維產量的90%以上來自異源四倍體棉花(G. hirsutumG. barbadense),它起源于大約1-2百萬年前的異源多樣化事件,隨后是數千年的不對稱亞基因組選擇。陸地棉(G. hirsutum)由于其高產而在全世界種植。G. barbadense以其卓越的纖維質量而受贊譽。為了培育產生纖維更長,更細和更強韌的陸地棉(G. hirsutum)品種,一種合理有效的方法是將海島棉(G. barbadense)的優良纖維性狀引入陸地棉。基因組學啟動的育種策略需要對基因組組織進行詳細而有力的理解。

材料方法

材料:高度純合陸地棉(Texas Marker-1TM-1)?;海島棉(3-79);
基因組denovo策略:三代測序組裝(PacBio RS IISMRT+光學圖譜(BioNano optical mapping+Hi-C染色體掛載;
研究方法:基因組組裝:Canu (version 1.3)?BLASR (version 1.3.1)?BWA (version 0.7.10-r789)?Pilon?(version 1.22)?光學圖譜糾錯:核酸內切酶Nt.BssSI23AutoDetectIrysSolveHi-C染色體掛載:核酸內切酶HindIIIBWAversion 0.7.10-r789),LACHESISHiC-Pro基因組完整性評估:BUSCO評估;TE注釋:PASTEClassifier (version 1.0)RepeatMasker (version 4.0.6)基因預測和注釋:GenscanAugustus (version 2.4)GlimmerHMM (version 3.0.4)GeneID (version 1.4)SNAP (version 2006-07-28)GeMoMa (version 1.3.1)假基因組預測:GenBlastA (version 1.0.4)GeneWise (version 2.4.1)
著絲粒區域鑒定:blastnSPSS software (version 17.0)?基因組共線性分析:MUMmer (version 3.23)GATK(version 3.1.1)Samtools(version 0.1.19)?MCScanX package結構變異檢測:MUMmer3 (version 3.23);二倍體棉重測序SNPs鑒定:Trimmomatic (version 0.32)BWA168CSSLs群體SNPs鑒定:染色體片段置換系(CSSLs)的構建(圖1),測序深度(6X),插入片段:350 bpBWAGATKSamtoolsCSSLs群體QTLs定位與表達分析:QTL IciMapping (version 4.0)?TopHat2 (version 2.0.13)?Cufflinks (version 2.2.1)STRUCTURE (version 2.3)?TASSEL software (version 5.0)?

1?棉花漸深系構建流程

研究結果

1.Gossypium hirsutumGossypium barbadense基因組測序組裝
? ? ? 三代基因組denovo本研究利用單分子熒光測序技術(PacBio RSII)對異源四倍體陸地棉G. hirsutum?acc. TM-1和海島棉G. barbadenseacc. 3-79進行基因組denovo測序研究。分別獲得了194.01 GbGossypium hirsutum)和210.98 GbGossypium barbadense)數據(均80×左右覆蓋度),陸地棉Contig L50 = 1.89 Mb,海島棉Contig L50 = 2.15 Mb(表1);利用Illumina測序數據糾正PacBio測序中低質量的數據及插入/缺失(InDels);光學圖譜輔助組裝:通過使用來自相同種質的光學圖譜(BioNano Genomics Irys)數據(88.9×Gossypium hirsutum155.7×Gossypium barbadense)處理這些拋光的重疊群用于雜交組裝,最終陸地棉組裝了3,434?scaffolds,海島棉組裝了3,919?scaffoldsscaffold L50分別為5.22 Mb6.89 MbHi-C染色體掛載:通過Hi-C進一步將scaffolds掛載到染色體水平,同時結合光學圖譜進行組裝序列的分類與排序。最終陸地棉組裝了2,190?scaffolds,海島棉獲得了3,032?scaffolds26super-scaffolds,代表了四倍體棉所有染色體,掛載效率分別為?98.94%97.68%
? ? ? 組裝結果驗證:將重新組裝的陸地棉與海島棉基因組與已發表的遺傳圖譜進行比對,結果顯示,每條染色體都具有高度共線性(Gossypium hirsutum?98.86%Gossypium barbadense?96.92%);進一步通過36個已有的BAC文庫及二代Illuminamate-pair文庫的回比評估,并通過對陸地棉的BUSCO數據集中的1,440個高度保守的核心蛋白中的1,415個(98.2%)和對海島棉的1,420個(98.6%)的鑒定,支持了基因區組裝的完整性。與之前發表的二代基因組相比,基因組連續性顯著提高(陸地棉高出55倍,海島棉高出90倍),進一步實現了gap填充,基因組高雜合區的精確組裝。本研究中陸地棉與海島棉基因組的迭代更新為后續四倍體棉花的研究提供了新版參考基因組。

1?陸地棉和海島棉基因組組裝注釋

2.Gossypium hirsutumGossypium barbadense基因預測與注釋
? ? ? 在本研究組裝的三代陸地棉與海島棉基因組中,分別預測了70,19971,297個基因,同時利用了三代(PacBio single-molecule long-read)轉錄組數據在陸地棉與海島棉中分別注釋了115,835109,778轉錄本可變剪切。在全基因組的范圍內結合表觀遺傳修飾進行研究(圖2),通過PacBio數據分析顯示:在全基因組范圍內,陸地棉6mA甲基化占所有腺嘌呤的0.21%,海島棉占0.22%。有趣的是,6mA甲基化修飾在每條染色體上顯示出幾乎均勻的分布模式,不同于染色體臂中相對低水平的5-甲基胞嘧啶(5mC)修飾(圖2)。
2?陸地棉和海島棉染色體特征(含表觀遺傳標記)
? ? ??基因組高度連續性與完整性的組裝使得高重復區的組裝具有顯著的改善。研究中成功地組裝了每條染色體的著絲粒區域,通過分析著絲粒相關的長末端重復(LTR)反轉錄轉座子對著絲粒區域進行了鑒定,基于之前的Illumina短讀長序列,G. hirsutum中的大部分LTR是缺失的。然而,這些區域的確具有顯著高含量的LTR反轉錄轉座子序列。
3.Gossypium hirsutumGossypium barbadense全基因組變異分析
? ? ? SNPsInDels變異分析:通過兩個棉花基因組之間的序列比較以確定陸地棉和海島棉兩種代表性種質之間的基因組差異。共鑒定了12,816,698SNPs,平均每kilobase5.89SNPsA亞基因組(At)的SNP頻率為8,131,2765.95 / Kb),略大于D-亞基因組(Dt)中的SNP頻率4,685,422。染色體中SNP的分布與比較群體基因組研究中的發現相似,包括染色體A01中基因組變異的顯著減少(圖3)。研究中同時鑒定了2,682,689個小插入/缺失(InDels),平均每Kb1.2個。預測這些SNPsInDels對陸地棉的總共14,076個基因和海島棉的14,880個基因具有很大的功能影響,進一步利用了兩個基因組間的這些變異數據,鑒定了4,039基因受到了正向選擇(Ka/Ks >1),這些基因在幾種生物途徑中過量表達,包括Ras / ARF蛋白信號轉導途徑。值得注意的是,觀察到在陸地棉G. hirsutum?基因組草圖序列中的缺失區域中發現了6.5%的SNPs7.2%的InDels,代表了四倍體棉的先前未檢測到的遺傳變異。
? ? ? 染色體結構變異分析:高質量的參考基因組使得研究人員能夠通過對兩種種質的直接比較基因組分析來鑒定大的結構變異。發現有170.2 Mb的基因組序列被鑒定為G. hirsutumG. barbadense之間的反轉,包括120.4 MbAt亞基因組和49.8 MbDt。有趣的是,在異染色質中,第四條和第十一條染色體中顯示出了染色體臂內倒位。研究中在A06染色體中發現了4個大的倒位變異,包括3個染色體臂內倒位(in1, in3 and in4)和1個染色體臂間倒位(in2),通過Hi-C數據在斷點周圍離散的染色質相互作用(圖3),突出了Hi-C技術識別大規模染色體重排的優勢。光學圖(BioNano optical maps)譜數據進一步支持了這些反轉斷裂位點(圖3)。此外,發現在D12染色體上,存在1個大的染色體臂間倒位。在棉花中這些染色體臂間/染色體臂內的大量變異需要進一步探索其生物學功能,如在擬南芥,小麥和人中所述。研究人員同時還檢測到3,820個染色體易位(1,074個染色體內易位,占據3.8 Mb2,746個染色體間易位,占6.8 Mb)。
3?陸地棉和海島棉A06染色體倒位鑒定(左:Hi-C互作熱圖;右:光學圖譜鑒定)
? ? ? PAVs分析:?通過陸地棉(Gossypium hirsutum)和海島棉(Gossypium barbadense)基因組比較分析發現presence/absence變異?(PAVs)。研究人員在陸地棉中鑒定了9,135個片段,其總長度為179.9 Mb,在海島棉中不存在,而在海島棉中的7,710個區段,總長度為139.8 Mb,在陸地棉中不存在(圖4),同時發現陸地棉中的1,844個基因和海島棉中的1,614個基因位于這些PAV區域,在這些基因中,有220個基因在海島棉纖維發育過程中高度特異性表達。此外還發現在海島棉EXPANSIN基因的第3個外顯子中有450 bp片段的缺失,這導致多糖結合結構域的喪失。有意思的是,截短的蛋白正與海島棉中優良纖維質量的形成相關。
4?陸地棉和海島棉基因組中的PAVs變異分析
4.Gossypium hirsutumGossypium barbadense多倍化過程中發生的變異

四倍體陸地棉和海島棉基因組的組裝使得研究人員能夠進一步探索四倍體棉亞基因組和其二倍體祖先之間的基因組差異。首先通過對具有D型基因組的13份二倍體材料進行重測序分析,分析顯示在兩種四倍體棉D-亞基因組具有相同的二倍體祖先種雷蒙德氏棉G. raimondiiD5 genomeD亞基因組供體);進而利用二倍體雷蒙德氏棉G. raimondii直接進行基因組比較分析,發現四倍體陸地棉和海島棉與雷蒙德氏棉相比,都有一些獨特的結構變異,如在海島棉染色體D05和陸地棉D12中均存在大的染色體臂間倒位,暗示這些變異出現在多倍化之后(圖5)。研究人員還觀察到兩個四倍體相對于G. raimondii共有一些結構變異,例如染色體D09中兩個四倍體發生了大的反轉(圖5)。研究中同時運用了二倍體祖先種亞洲棉G. arboreumA2 genomeA亞基因組供體)的Hi-C數據,與陸地棉和海島棉A亞基因組進行比對,檢測棉由二倍體到四倍體多倍化過程中發生的結構變異,Hi-C具體矩陣圖顯示在13條染色體中發生了大規模的染色體重排,其中發部分變異為兩個四倍體的棉的A亞基因組共有。研究中發現染色體A06中最大的染色體臂間倒位(in2)在陸地棉中是特有的(圖3?左),表明這種結構變異可能在染色體多倍化后發生。因此得出結論,二倍體棉花中的A基因組在異源多倍化后被重組,導致不同四倍體(陸地棉和海島棉)中發生了大染色體倒位。

圖5?陸地棉和海島棉D亞基因組與雷蒙德氏棉(DD型)基因組共線性分析
5.Gossypium hirsutum漸滲系構建及QTLs定位

通過研究發現了在陸地棉(G.?hirsutum?acc. TM-1)和海島棉(G. barbadense?acc. 3-79)間存在廣泛的遺傳變異,進一步推測這些變異的一部分可能是造成表型差異的原因,包括纖維性狀。為了利用這些變異進行定向育種,研究人員構建了一個漸滲系群體,旨在引入有利的變異,控制從G.barbadenseG. hirsutum等重要農藝性狀的形成,如纖維質量。研究人員通過分子標記對168份漸滲系材料進行測序,并鑒定了涵蓋所有26條染色體的466個基因滲入片段(圖6)。研究人員發現了在染色體D12中含有漸滲片段的漸滲系,其具有有限的絨毛纖維,類似于其供體親本G.barbadense?3-79(圖6,圖7上),基因滲入片段的位置與無絨天然突變體G. hirsutum?Xuzhou142fl的圖譜測序所示的位置相同,然而其遺傳基礎以前未被充分了解(圖7下)。這些結果表明,陸地棉(G. hirsutum)中無絨毛突變體的遺傳變異與海島棉(G. barbadense)中的數量性狀基因座(QTL)共定位。該漸滲片段與天然纖維突變體的特征將有助于比較分析海島棉和陸地棉之間的絨毛纖維起始機制。

6?棉花群體漸滲系構建???????????7?漸滲系N29纖維特征(上);海島棉Xuzhou142fl測序比對結果(下)

為了鑒定海島棉(G. barbadense)中優質纖維質量的有益等位基因,研究人員對漸滲群體中的纖維品質相關性狀進行了QTL分析。研究中共計鑒定了5個性狀的13QTLs位點,其中控制纖維長度位點2個,控制纖維強度位點4個,馬克隆值位點2個,纖維伸長率位點2個,纖維均勻度位點3個(圖8 a-c)。在這些QTLs位點中,9個位點之前未被鑒定出,通過檢驗13QTLs中的基因表達水平,研究人員檢測到了235個在纖維發育過程中高度表達的基因,同時還整合了基因組變異數據來預測候選基因,而這些基因值得進一步進行精細定位以確認對這些性狀具有重要影響的基因。研究人員發現A02染色體上的1QTL位點與纖維長度相關,在這個QTL中,一個未鑒定過的基因(Ghir_A02G003440),編碼預測的糖基磷脂酰肌醇錨定的脂質轉移蛋白,該基因在纖維伸長期的表達水平和深入系中纖維長度呈負相關,并可能與海島棉中長纖維的發育相關。這些QTL數據為海島棉基因組片段的詳細功能分析提供了框架,并應通過基因滲入育種進一步開發具有優質性狀的栽培棉花。

??為了深入研究這些基因可能的轉錄調控機制,研究人員對這168個漸滲系在開花后10天(DPA)對纖維的轉錄組進行了測序,在235個基因中,鑒定了125QTLs位點(eQTL上)。發現在染色體A02(如上所述)上的QTL位點與D09號染色體上的2個基因的表達相關(Ghir_D09G014120和?Ghir_D09G014460)?,這2個基因分別編碼泛素延伸蛋白和微管相關蛋白,且預測這2個基因可能作為纖維強度的候選基因。通過eQTLs研究表明這些基因的表達可能與某些長距離的或染色體間的基因座位相關。

總結

通過陸地棉(Gossypium hirsutum)和海島棉(Gossypium barbadense)兩種栽培棉種質基因組的重新組裝,研究人員鑒定了大量的變異,這些變異應與其它種質的基因組分析相結合,以充分挖掘兩種種質基因組間的差異。研究人員通過構建滲入系,在兩種代表性種質間探索研究了具有潛在優質纖維質量性狀的基因組序列信息,而這在棉花育種中,可用于理想性狀的培育;這些資源將極大的促進棉花功能基因組學與進化基因組學的研究,并將為棉花纖維質量的改良提供信息。
回顧整個2018年,百邁客NG文章收獲滿滿,于20185月與中國農業科學院棉花研究所杜雄明研究員合作成功完成了亞洲棉基因組的升級,又在201810月與福建農林大學基因組研究中心明瑞光課題組合作,完成了同源多倍體甘蔗基因組密碼的破譯。同時,于2018年巨資投入,引進最新三代測序Nanopore單分子納米孔測序儀,成為了國內動植物基因組denovo研究第一家。
想獲取更多關于棉花研究案例,請點擊下方按鈕,我們將免費為您設計文章方案!
另外,還可以獲贈100元在線培訓課程代金券!

 

 

 

最近文章
女皇之心试玩