Bilgi

İnsan rDNA dizisini tamamlayın

İnsan rDNA dizisini tamamlayın


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Biomart, NCBI ve rnacentral kullanarak yaklaşık 43 kb uzunluğunda olması gereken tam insan rDNA dizisini (aralayıcı olmayan ve ayırıcı olmayan) almaya çalışıyorum, ancak yalnızca 13 kb olmayanı bulabildim. -aralayıcı dizisi. Tekrarlayan bir bölgeyi sıralamanın zorluğu nedeniyle ara bölgeler henüz sıralanmadı mı? Yardım ettiğin için teşekkür ederim.


Tekrar eden birimin tam sırasını bulmayı başardı:

https://www.ncbi.nlm.nih.gov/nuccore/U13369


Bildiğim kadarıyla, insan genomundaki tahmini 500 kopya rDNA tekrarından sadece 1 buçuk tekrar dizilendi ve yayınlandı. Memeli rDNA tekrarlarının klonlanması zordur ve maya ve e kolide kararsız görünür.


İnsan Genom Dizisi Tamamlandı: Bilim İnsanları, Eksik Parçalarla Tüm İnsan Genomunun Dizilenmesinin Yapıldığını Söyledi

Uluslararası bilim adamları arasındaki bir işbirliği, eksik parçaları da dahil olmak üzere tüm insan genomunu başarılı bir şekilde dizilediklerini ve kabaca yirmi yıl önceki ilk insan genom dizilemesinden daha doğru olduğunu iddia ediyor.

Doğrulanırsa, dizileme, 2000 yılında bilim adamlarının insan genomunun ilk taslak dizilimini duyurduklarında, İnsan Genom Projesi ve Celera Genomics, Beyaz Saray Çimenlerinin liderlerinin başarılarını çok geride bırakacak. Tüm insan DNA dizisinin tarihi taslağı ve tüm insan genomunu dizilemeye yönelik diğer girişimler, genomun yaklaşık %8'ini kaçırdı.


Takip edilecek yüzlerce genom

T2T-CHM13, yalnızca bir kişinin genomunu temsil eder. Ancak T2T Konsorsiyumu, önümüzdeki 3 yıl içinde tüm dünyadaki insanlardan 300'den fazla genomu sıralamayı hedefleyen İnsan Pangenom Referans Konsorsiyumu adlı bir grupla birlikte çalıştı. Miga, ekiplerin genomun hangi bölümlerinin bireyler arasında farklılık gösterme eğiliminde olduğunu anlamak için T2T-CHM13'ü referans olarak kullanabileceklerini söylüyor. Ayrıca, her iki ebeveynden de kromozomlar içeren bir genomun tamamını dizilemeyi planlıyorlar ve Miga'nın grubu, boşlukları doldurmaya yardımcı olmak için aynı yeni yöntemleri kullanarak Y kromozomunu dizileme üzerinde çalışıyor.

Miga, genetik araştırmacılarının, yeni sıralanan alanlardan ve olası genlerden herhangi birinin insan hastalıklarıyla ilişkili olup olmadığını hızla öğreneceğini umuyor. "İnsan genomu ortaya çıktığında, hazır ve kullanıma hazır araçlara sahip değildik," diyor, ancak yeni dizilenen genlerin işlevi hakkında bilgi artık çok daha hızlı gelmeli çünkü "bir ton tane ürettik. kaynaklara sahiptir”.

Gelecekteki insan genom dizilerinin, yalnızca okunması kolay olan bölümleri değil, yeni dizilenen bölümler de dahil olmak üzere her şeyi kapsayacağını umuyor. Referans genomu tamamlandığı ve bazı teknik aksaklıklar çözüldüğü için bu daha kolay olmalı. “Bunun özel değil rutin olduğu genomikte yeni bir standarda ulaşmamız gerekiyor” diyor.


Araştırmacılar, tüm insan genomunu sıraladığını iddia ediyor

Kredi: CC0 Kamu Malı

Büyük bir uluslararası araştırma ekibi, sonunda tüm insan genomunun dizisini çıkardığını iddia ediyor. Toplu olarak, ekip Telomere-Telomere (T2T) Konsorsiyumu olarak biliniyor ve çabalarını açıklayan bir makale yazdılar ve bioRxiv ön baskı sunucusuna yüklediler.

2000 yılında, biyoteknoloji firması Celera Genomics ile çalışan İnsan Genom Projesi'nden bir ekip, insan genomunun dizilenmesinin ilk taslağını tamamladıklarını duyurdu. Bu ilk taslakta genomun yaklaşık %15'i eksikti. O zamandan beri yapılan çalışmalar bu oranı sadece %8'e indirdi. Ve şimdi, T2T Konsorsiyumu bunu sıfıra indirdiğini iddia ediyor - yine de bazı uyarılar var. Grup, genomun yaklaşık %0,3'ü ile ilgili bazı sorunlar yaşadıklarını ve şurada burada birkaç hata olabileceğini kabul ediyor - ancak boşluk yok, bu yüzden grup kendilerini Telomere-Telomere Konsorsiyumu olarak adlandırdı. Ekip, çalışmalarının bir parçası olarak, proteinleri kodlayan yaklaşık 115 yeni gen keşfetti ve toplamda 19.969'a ulaştı.

Araştırmacılar, çalışmalarının yalnızca Oxford Nanopore ve Pacific Biosciences tarafından geliştirilen yeni teknolojiyi kullanmaları nedeniyle mümkün olduğunu öne sürüyorlar - yeni teknoloji, DNA'yı parçalara ayırmadan dizilemeye izin verdi. Bunun yerine, hataları azaltmak için dizileri tekrar tekrar okuyan lazerlerle DNA'yı nanoskopik bir delikten geçirdi. Ayrıca bilinen bazların sayısının şimdi 2,92 milyardan 3,05 milyara çıktığını ve bilinen genlerin sayısının %0,4 arttığını iddia ediyorlar.

Araştırmacılar ayrıca diziledikleri genomun bir kişiden değil, bir kadının rahminin içinde nadir durumlarda oluşan bir büyüme olan bir hidatidiformdan geldiğini belirtiyorlar. Bu tür büyümeler, bir sperm çekirdeği olmayan bir yumurtayı döllemeyi başardığında meydana gelir, bu nedenle çoğu insan hücresinde bulunan normal 46 yerine 23 kromozoma sahiptir. Araştırmacılar, hesaplamalarını kolaylaştırdığı için hidatidiformu sıralamayı seçtiler.

Sonuçlar henüz hakem tarafından gözden geçirilmedi, bu nedenle genomik topluluğu yorum yapmaktan kaçınıyor - bu arada T2T ekibi, dünyanın dört bir yanından birden fazla insanı sıralayarak çalışmalarını daha ileriye götürmek için planlar yapıyor.


Bilim İnsanları Sonunda Tüm İnsan Genomunu Sıraladıklarını Söylediler. Evet, Hepsi.

Yirmi bir yıl önce, araştırmacılar insan genomunun tamamının dizilenmesine yönelik ilk "taslağı" duyurdular. Anıtsal bir başarıydı, ancak dizi hala genomun yaklaşık yüzde 8'i eksikti. Şimdi, dünya çapında birlikte çalışan bilim adamları, sonunda bu münzevi yüzde 8'i doldurduklarını söylüyorlar.

➡ Bilimin saçmalık olduğunu düşünüyorsun. Ee yapıyor muyuz. Haydi birlikte inekler.

Çalışmaları akran değerlendirmesine dayanıyorsa ve ortaya çıktı ki gerçekten NS İnsan genomunun tamamını, boşluklarını ve hepsini sıralayıp bir araya getirmek, tıbbın geleceğini değiştirebilir.

Bir Genomda Neler Vardır?

İnsan genomunun dizilenmesi, uzun zamandır değerli hedefleri olan büyük bir proje olmuştur. Niye ya? İnsanlar genetik kodlarını daha iyi anladıkça, daha iyi, daha özelleştirilmiş ilaçlar yapabilirler, örneğin ilk etkili COVID-19 aşılarına güç veren gen odaklı ilaç türü de dahil.

İnsanlar, on binlerce bireysel geni temsil eden 23 çift halinde 46 kromozoma sahiptir. Her gen belirli sayıda baz çiftinden oluşur. yapılmış adenin (A), timin (T), guanin (G) ve sitozin (C). İnsan genomunda milyarlarca baz çifti vardır.

Haziran 2000'de İnsan Genom Projesi (HGP) ve özel şirket Celera Genomics ilan edildi insan genomunun ilk &ldquodraft&rdquo. Bu, yıllarca süren bir çalışmanın sonucuydu. tempoyu yakaladı insanlar genomu işlemek için daha iyi bilgisayarlar ve algoritmalar yapmaya devam ettikçe. O zamanlar bilim adamları, 3 milyardan fazla bireysel "harf" baz çiftinden insanların sadece 30.000 ila 35.000 gene sahip olduğunu tahmin etmelerine şaşırmışlardı. Bugün, bu sayı çok daha düşük, 20.000'in biraz üzerinde geziniyor.

Üç yıl sonra, HGP tüm insan genomunu haritalama görevini tamamladı ve terimlerini bu şekilde tanımladı:

&ldquoMevcut teknoloji&rdquo burada çok fazla ağır iş yapıyor. O sırada HGP bir süreç kullandı Bilim adamlarının genomun her bir parçasını klonlamak için bir bakteri kullandığı ve daha sonra bunları daha küçük gruplar halinde incelediği bakteriyel yapay kromozom (BAC) olarak adlandırılır. Eksiksiz bir &ldquoBAC kütüphanesi&rdquo, içinde klonlanmış genler bulunan 20.000 özenle hazırlanmış bakteridir.

Ancak bu BAC süreci, doğası gereği tüm genomun bazı kısımlarını gözden kaçırır. Bunun nedeni, yeni bilim adamları ekibinin başarmaya yardımcı olduğu şeye büyük bir ipucu.

Sıralamada Atılım

Genomun 2000 "dquodraft"ının dokunmadan bıraktığı, genomun gizli yüzde 8'inde gizlenen nedir? Bu bölümdeki baz çiftleri, bakteri klonlama yöntemini kullanarak çalışmayı çok hantal hale getiren birçok tekrarlanan modelden yapılmıştır.

BAC ve diğer yaklaşımlar, genomun yüzde 8'ini oluşturan tekrarlar için doğru değildi. &ldquoIllumina tarafından yapılan mevcut DNA dizileyicileri, küçük DNA parçalarını alır, bunların kodunu çözer ve ortaya çıkan bulmacayı yeniden birleştirir,&rdquo durum&rsquos Matthew Herper raporlar. &ldquoBu, genomun çoğu için iyi çalışır, ancak DNA kodunun uzun tekrar eden kalıpların sonucu olduğu alanlarda değil.&rdquo

1'den 50'ye kadar saymak yerine 1, 2, 1, 2, . . . tekrar tekrar. BAC yöntemini başarılı kılan şeyin bir kısmı, bilim adamlarının, genomun tekrarlayan ağır keşfedilmemiş bölümünde neredeyse imkansız hale gelen örtüşmeleri en aza indirmeye ve eşleştirmeye özen göstermesidir.

Peki, yeni yaklaşımlarda farklı olan nedir? Önce ne olduklarına bakalım. Kaliforniya merkezli Pacific Biosciences (PacBio), İngiltere merkezli Oxford Nanopore farklı teknolojilere sahip, ancak aynı hedefe doğru yarışıyorlar.

PacBio kullanır HiFi adlı bir sistem, baz çiftlerinin tam olarak ve yüksek doğrulukla okunana kadar, kelimenin tam anlamıyla daireler olarak dolaştırıldığı ve bu nedenle adı. Sistem sadece birkaç yıl öncesine dayanıyor ve bu daha uzun diziler için hem uzunluk hem de doğruluk açısından ileriye doğru büyük bir adımı temsil ediyor.

Bu arada Oxford Nanopore, tescilli cihazlarında elektrik akımı kullanıyor. Baz çiftleri, ne tür molekül olduklarını gözlemlemek için mikroskobik bir nanopore ile preslenir ve her seferinde yalnızca bir molekülü ve bir akımın onları zapladığı yerde. Bilim adamları, her bir molekülü zaplayarak tüm ipliği tanımlayabilirler.

Biyoloji ön baskı sunucusu bioRxiv'de yayınlanan yeni çalışmada, yaklaşık 100 bilim insanından oluşan uluslararası bir konsorsiyum, insan genomunun kalan bilinmeyen bölümlerinden bazılarını kovalamak için hem PacBio hem de Oxford Nanopore teknolojilerini kullandı.

Konsorsiyumun kapladığı zemin miktarı şaşırtıcı. &ldquoKonsorsiyum, DNA bazlarının sayısını yüzde 4,5 artışla 2,92 milyardan 3,05 milyara çıkardığını söyledi. Ancak gen sayısı yalnızca [yüzde] 0.4 artarak 19.969'a yükseldi&rdquo durum raporlar. Bu, bu bölgedeki yoğun olarak tekrar eden baz çifti dizilerinin temsil ettikleri genlerle ne kadar büyük olduğunu gösterir.

Eksik Bağlantılar

Sıralama vaftiz babası George KilisesiHarvard Üniversitesi'nden bir biyolog, şunları söyledi: durum eğer bu çalışma akran değerlendirmesinden başarılı bir şekilde geçerse ilk kez olacak herhangi omurgalı genomu tamamen haritalanmıştır. Bunun nedeni, her iki yeni teknolojinin de aynı anda çok uzun baz çifti dizilerinin okunmasına izin vermesi gibi görünüyor.

Eksik gen bilgisi neden bu kadar önemli? Pekala, genlerin incelenmesi, araştırma ilgisinin ve finansmanının büyük bir kısmını en popüler genlerin bir avuç dolusu alarak, çok fazla kayırmacılık yaşar. gözden kaçan genler birçok anahtar mekanizmaya sahip olun örneğin hastalığa neden olan.

2000 yılında genomun ilk taslağının duyurulması için de bir engel olmasına rağmen, küçük bir engel var. Her iki proje de 46 kromozomun tamamı yerine sadece 23 kromozomu olan hücreleri inceledi. Bunun nedeni, yumurtaların ve spermlerin her birinin tam kromozom yükünün yarısını taşıdığı üreme sisteminden türetilen hücreleri kullanmasıdır.

Hücre, bir sperm ile çekirdeği olmayan bir yumurta hücresi arasında son derece erken, yaşayamaz bir birleşmeyi temsil eden bir tür üreme büyümesi olan hidatidiform bir köstebekten oluşur. Araştırma amaçlı kullanılan “hücre hattı” olarak saklanan ve kültüre alınan bu tür hücreyi seçmek, devasa dizileme işini yarıya indirir.

Bir sonraki adım, çalışmanın hakemli bir yayında görünmesidir. Ancak bundan sonra, hem PacBio hem de Oxford, 46 kromozomlu insan genomunun tamamını sıralamaya çalışır. Ama biraz bekleyebiliriz.


Neredeyse Tamamlanmış İnsan Genom Dizilimi

Jef Akst
8 Haz 2021

İnsan Genom Projesi, 2000 yılında ilk insan genom dizisi taslağının ortaya çıkmasıyla sonuçlanan bir güç gösterisiydi, ancak aslında tamamlanmış değildi. Çalışma, Kaliforniya Üniversitesi, Santa Cruz'dan genom bilimci Karen Miga'nın "nihai bilinmeyen" olarak adlandırdığı, dizi boşlukları bıraktı. STAT. Toplamda, 3 milyardan fazla baz çiftinden oluşan insan genomunun yaklaşık yüzde 8'i (çoğunlukla hesaplama açısından bir araya getirilmesi zor olan tekrarlar) bu ilk taslaktan bu yana geçen yirmi yılda sıralanmadan kaldı.

Miga, bu boşlukların doldurulmasının "daha önce hiç yapılmadığını" söylüyor. STAT, “ve daha önce yapılmamasının nedeni de zor olmasıdır.” Ancak geçen ay (27 Mayıs) uluslararası bir işbirlikçi grubuyla birlikte, Miga bilinen insan genom dizisine yaklaşık 200 milyon DNA bazı ekleyerek ve bu süreçte potansiyel olarak protein kodlayan yaklaşık 115 gen keşfederek tam da bunu yapmaya başlayan bir ön baskı yayınladı.

Maryland, Bethesda'daki ABD Ulusal Biyoteknoloji Bilgi Merkezi'nde biyoinformatikçi olan ve araştırmaya dahil olmayan Kim Pruitt, "Sorunlu alanlara bir miktar çözüm bulunması heyecan verici" diyor. Doğa.

Miga ve meslektaşları, hidatidiform mol adı verilen uterus büyümesinden türetilen bir hücre dizisinden elde edilen DNA'yı sorgulamak için Pacific Biosciences ve Oxford Nanopore'dan uzun süredir okunan dizileme teknolojilerini kullandılar. Bu yapı, çekirdeği olmayan bir yumurtanın döllenmesiyle oluşur, yani köstebek sadece spermden DNA taşır ve rahminde büyüdüğü kişiden hiçbir şey taşımaz - genomun daha fazlasını deşifre etmeyi kolaylaştıran genetik bir anomali çünkü iki ebeveynin genetik katkılarını ayırmayı içermiyordu.

Araştırmacılar yıllar önce bu hidatidiform köstebekten hücre dizileri üretmişlerdi ve bu nedenle, bu son proje için dizilenmeden önce genomda mutasyonların ortaya çıkması olasıdır, öyle ki yeni genetik bilgi "büyük ölçüde bir hücre dizisi olarak biriken döküntü olabilir. Nationwide Children's Hospital'daki Genomik Tıp Enstitüsü'nün eş-yönetici direktörü Elaine Mardis, çalışmaya katılmadığını söylüyor. STAT.

Miga, hücreler yıllarca dondurulduğu ve tüm bu süre boyunca seri olarak pasajlanmadığı için, STAT, yeni dizilerin biyolojik olarak alakalı olduğunu düşünüyor. Ancak, o notlar Doğa daha fazla onaylanması gereken birkaç bölge olduğunu. Köstebeği oluşturmak için yumurtayı dölleyen sperm bir X kromozomu taşıdığından, ekip insan Y kromozom dizisinde bulunan genomik delikleri kazmadı - araştırmacıların şu anda üzerinde çalıştığı bir şey.


Başlık: 43 Kb insan ribozomal RNA geninin tam dizisi ve ikincil daralmanın gizemi

Tandem olarak düzenlenmiş rRNA genleri, 5 kromozom üzerinde bulunur. ikincil daralmalar Metafazdaki boyama özelliklerinden dolayı. Metafazdaki görünümleri, genlerin kodlama bölgelerinin bariz şekilde yüksek G+C baz bileşimine atfedilmiştir. Bir insan rDNA tekrarının tam nükleotid dizisi şimdi belirlendi ve bu dizi, yeni kromozom yapısı modelleriyle karşılaştırılabilir. Tüm rDNA tekrarı boyunca baz bileşimi G+C açısından zengin değildir: 13 kb kopyalanan kısımda, G+C açısından zengin bölgeler ortalama baz bileşimi bölgeleriyle değişir. 30 kb'lik intergenik aralayıcıda, 30'dan fazla Alu elementi ve bir 2.3 kb'lik psödojen olan basit pirimidin açısından zengin dizilerin uzun uzantıları vardır ve ayrıca potansiyel olarak bükülmüş bir DNA'yı benimseyebilen 10 baz periyodikliğe sahip T/A açısından zengin dizilerin uzantıları vardır. konformasyon. Yakın zamanda Saitoh ve Laemmli tarafından önerilen bir kromozom yapısı modeli, DNA'nın nükleotit bileşimi hakkındaki bilgileri, DNA'nın boyanması ve metafazda paketlenmesiyle bütünleştirerek, G-bantını veya R-bantını verir. Paketleme için çok önemli yerel unsurlar, bükülmüş DNA içeren A+T zengin iskele bağlantı bölgeleridir (SAR) ve bantlama özelliklerini, birbirlerine göre daha sıkı sarılmış (G-bantları) veya gerilmiş şekilde organize edilme biçimleriyle belirler. (R-bantları) kuyrukları rDNA'nın, nazikçe izole edilmiş Hint muntjak kromozomlarında kabarık bir R-bandında olduğu gösterilmiştir. Bükülmüş DNA insan rDNA'sında da bulunduğundan, organizasyonunu rutin hazırlama yöntemleri altında çöken benzer bir banda yönlendirebilir. « daha az


Sonuçlar

Filogenetik ayak izi için tür seçimi

İnsan IGS'sinde potansiyel olarak işlevsel olan ancak yüksek oranda tekrarlayan rDNA bölgesiyle çalışmanın zorlukları nedeniyle tespit edilmekten kurtulan bölgeleri belirlemek için filogenetik ayak izini kullanmaya başladık. Bunu yapmak için insan rDNA dizisini çeşitli primatlardan alınan rDNA dizileriyle karşılaştırmaya karar verdik. Bununla birlikte, birkaç primat türünün genomlarının dizilenmesine rağmen, tam rDNA dizisi tanımlanmamıştır, bu nedenle tüm genom düzeneklerini (WGA) kullanarak seçilen primat türleri için rDNA dizileri oluşturduk. Analiz için primat türlerini seçmek için iki kriter kullandık. İlki, ön analiz, kısa okunan yeni nesil dizileme verilerinin tam rDNA birimlerinin montajına dirençli olduğunu öne sürdüğü için, Sanger tüm genom dizisi (WGS) verilerinin mevcudiyetiydi. Türlerin akrabalık aralığı filogenetik ayak izi için kritik öneme sahiptir [88], bu nedenle ikinci kriterimiz, insanla değişen akrabalıklara sahip türlerin dahil edilmesiydi. Bu kriterlere dayanarak, Sanger tüm genom dizisi verilerinin mevcut olduğu altı primat (13 aileye [89] dağılmış yaklaşık 300 canlı primat türünden) seçtik [90]: Pan troglodytes (şempanze), goril goril (goril) ve pongo abelii (orangutan) Hominidae'den, Nomascus leucogenys (gibbon) Hylobatidae'den, Maçaca melezi (rhesus makak) eski dünya maymunlarından ve callithrix jacchus (ortak marmoset) yeni dünya maymunlarından. Bu primatlar, insanla yakından ilişkili türleri (Hominidae ve Hylobatidae) ve daha uzak akraba türler (eski ve yeni dünya maymunları) içerir.Şekil 2A).

A) rDNA filogenetik ayak izi için seçilen primat türleri arasındaki ilişkileri gösteren filogenetik ağaç [91'den uyarlanmıştır]. B) İnsan ve primat rDNA birim yapıları gösterilmiştir. 18S, 5.8S ve 28S rRNA alt birimleri (siyah kutular) ve IGS (gri çizgi) dahil olmak üzere rRNA kodlama bölgesi (siyah çizgi), tekrar elemanlarının ve bir cdc27 psödogeninin konumları ile birlikte belirtilir. Çizginin üzerindeki elemanlar ön dizide, alttakiler ise ters dizidedir. rRNA kodlama bölgesi/IGS koordinatları ve rDNA birim uzunlukları belirtilmiştir.

Referans insan rDNA dizisi

Yaygın olarak kullanılan referans insan rDNA birimi (Genbank erişim U13369), farklı laboratuvarlar tarafından elde edilen birkaç kısmi dizinin birleştirilmesiyle oluşturulmuştur [1]. Bu dizinin hatalar içerdiği bilinmektedir [25,92], bu nedenle daha az hataya sahip olması muhtemel olan tek bir kaynaktan bir insan rDNA dizisi kullanmak istedik. Açıklamasız bir BAC klonunda bulunan tam insan rDNA birim dizisini (43.972 bp) seçtik (Genbank erişim GL000220.1 ile aynı Genbank AL592188 S1 Ek) [36] GRCh38 insan referans genomunda yerleştirilmemiş bir yapı iskelesi olarak bulunur ve rDNA uzak yan bölgesinin bir kısmı ile birlikte tam ve kısmi bir rDNA birimi içerir. Bu rDNA dizisini "insan rDNA'sı" olarak adlandırıyoruz ve 13.357 bp'lik bir kodlama bölgesi ve 30.615 bp'lik bir IGS (Genbank insan rDNA dizisiyle karşılaştırılarak belirlendiği üzere) içerir. [36]. Mikro uydudaki kopya sayısı varyasyonu ve IGS'deki diğer tekrarlar hariç (S4 Ek), insan rDNA'sı U13369'a %98.1 dizi özdeşliği gösterir. Bu insan rDNA dizisi, %96,6 dizi özdeşliğine sahiptir (S5 Ek) yakın zamanda yayınlanmış başka bir insan rDNA referans dizisine [Genbank erişim KY962518.1 39], ayrıca rDNA uzak komşu bölgesini içeren bir dizili BAC klonundan türetilmiştir (Genbank erişim FP236383). Farklılıklar, ağırlıklı olarak mikro uydu kanal uzunluklarındaki farklılıklardır. (S5 Ek turuncu renkle vurgulanmıştır), ancak referansımız KY962518'e kıyasla iki silmeye sahiptir (KY962518.1 koordinatları 13923–14720 ve 28.378–28.580 S5 Ek, mavi renkle vurgulanmıştır) toplam yaklaşık 1 kb. Biri, tandem R-tekrar bölgesinden bir tekrar kopyasının silinmesidir. Şempanze bu fazladan kopyanın yaklaşık yarısına sahiptir, ancak diğer primatların hiçbiri yoktur. Diğeri, daha uzun Uzun Tekrar/Kelebek tekrar bölgesinde yer alan üç ardışık tekrardan oluşan bir setten bir tekrar kopyasının silinmesidir ve bu çalışmadaki primat türlerinin hiçbiri bu fazladan tekrar kopyasını paylaşmaz. Bunların doğal kopya sayısı polimorfizmleri mi yoksa montaj yapaylıkları mı olduğu henüz belirlenmemiştir.

Primat rDNA dizilerinin oluşturulması

Filogenetik ayak izini gerçekleştirmek için önce WGA kullanarak seçilen primat türleri için rDNA dizileri oluşturduk. Bir genom içindeki rDNA birimleri arasındaki yüksek düzeyde sekans özdeşliği [93–95], genom birleştiricilerin çoklu rDNA tekrarlarından tek, yüksek kapsamlı bir "konsensüs" rDNA birim sekansı oluşturmasına yol açar. Kapsama seviyesi, benzersiz bölgelerden rDNA kopya sayısının bir faktörü kadar daha yüksek olacaktır (primatlarda yaklaşık 200-500 [96,97]). Bu nedenle, primat türleri için halka açık WGS verileri üzerinde WGA gerçekleştirdik (S1 ve S2 Tabloları) ve seçilmiş yüksek kapsamlı contig'ler. Bu kontigler, rDNA içeren contig'leri tanımlamak için insan rDNA sekansı kullanılarak tarandı, tam rDNA sekansları üretmek için birleştirildi ve birleştirildi. Bundan altı primat türü için 37.5-42,9 kb arasında değişen rDNA birimleri elde ettik (Şekil 2B) ve rRNA kodlama bölgesi ve IGS'ye karşılık gelen bölgeler, insan rDNA'sı ile karşılaştırılarak tanımlandı (S4 Tablosu). İnsan kodlama bölgesi, 5' harici kopyalanmış aralayıcının (ETS) insan 5' ETS'sinden 272 bp daha kısa olduğu marmoset hariç tüm primat rDNA dizilerine tamamen (uçtan uca) hizalanır. Bunun nedeni, marmoset 5' ETS'nin aslında insandan daha kısa olması veya WGA'nın bu bölgeyi düzgün bir şekilde bir araya getirememesi olabilir.

Primat WGA'larında rDNA contig'lerini tanımlamak için insan rDNA'sının kullanılması, insanlarda olmayan ancak diğer primatlarda bulunan bölgelerin gözden kaçırılmasını mümkün kılar. Ayrıca, genomun [98] diğer bölgelerinde de bulunan IGS'de tekrarlayan elemanların varlığı, WGA hatalarına [99] yol açmış olabilir. Bu olasılıkları ortadan kaldırmak için, ilk önce BAC genomik kitaplıklarını tarayarak primat türleri (insanla yüksek düzeyde genomik dizi özdeşliğine sahip olan şempanze hariç) için rDNA içeren BAC klonlarını tanımladık (S3 Tablosu). BAC klonlarını I- ile sindirerek WGA ve BAC rDNA birimlerinin boyutlarını karşılaştırdık.PpoI, rDNA'da (28S'de) yalnızca bir kez kesen, alan inversiyon jel elektroforezi (FIGE) kullanarak parçaları ayıran ve Southern hibridizasyonu gerçekleştiren bir hedef arama enzimi (S1 İncir). BAC'nin (FIGE aracılığıyla) ve WGA rDNA dizilerinin tahmini uzunlukları benzerdir (S1 Fig ve S5 Tablosu), ŞEKİL boyutları tutarlı olarak

WGA boyutlarından 1 kb daha büyük (S5 Tablosu). NS

rDNA referansımız ile yayınlanmış KY962518 referansı arasındaki 1 kb'lik boyut farkı, bu eksik sekans, insan referansımız da dahil olmak üzere tüm primat rDNA sekanslarımızda bir araya getirilemezse, bu farkı açıklayabilir. Bununla birlikte, yukarıda ana hatlarıyla belirtildiği gibi, bu eksik dizilerden bazıları şempanzede bulunur ve bu da bunların doğru bir şekilde birleştirilebileceğini düşündürür. Bu nedenle, FIGE jellerinin boyutu biraz fazla tahmin ettiği ve primat rDNA dizilerinin doğru olduğu yorumunu destekliyoruz. WGA rDNA dizilerinin bütünlüğünü daha da doğrulamak için primat rDNA BAC klonları dizildi ve okumaların karşılık gelen WGA rDNA dizilerine eşlenmesiyle konsensüs primat rDNA dizileri elde edildi. Ortalama olarak, konsensüs BAC rDNA dizileri, WGA dizileriyle >%97 aynıdır (S6 Tablosu). Varyasyon, esas olarak, NGS verilerinde bu bölgelerden okuma olmamasının neden olduğu rRNA kodlama bölgelerindeki boşluklardan kaynaklanmaktadır. Yüksek düzeyde dizi özdeşliği (okumaların mevcut olduğu yerlerde), WGS rDNA dizilerinin gerçek rDNA dizilerinin doğru temsilleri olduğunu ve rDNA bölgelerinin NGS okumalarında temsil edilmediği göz önüne alındığında, WGA dizilerini referans rDNA olarak kullandık. tüm insan olmayan primat türleri için diziler.

Daha sonra, insan rDNA'sına yapısal benzerliklerini belirlemek için bu yeni primat rDNA dizilerini karakterize ettik (S1 Ek). Altı primat türündeki kodlama bölgesinin uzunluğu insandakine benzer. ben.e. biraz daha küçük olan jibon hariç yaklaşık 13 kb (S4 Tablosu). Beklendiği gibi, şempanzeden ortak marmoset'e geçerken, kodlama bölgesi için insanla ikili dizi özdeşliği azalır (S4 Tablosu). Altı primat türünün tümünde rDNA biriminin mikro uydu bileşeni, her tür için genom genel ortalamasından daha yüksektir (tablo 1) ve insan, iki uzun, benzersiz [TC] nedeniyle en yüksek mikro uydu içeriğine sahiptir.n blokları tekrarla (Şekil 2B). Alu elementleri, primat IGS'de en bol bulunan tekrar elementidir (tablo 1) ve bir dizi insan, maymunlar ve al yanaklı makak arasında ortologdur (S2 Fig ve S7 Tablosu ve S4 Ek). Önceki bir raporla tutarlı olarak [56], Aluhuman22, Aluhuman25 ve Aluhuman27'nin şempanze, goril, orangutan, jibon ve al yanaklı makakta bulunduğunu, Aluhuman23'ün maymunlarda bulunduğunu ancak al yanaklı makakta bulunmadığını bulduk. Ayrıca al yanaklı makakta Aluhuman26 ve Aluhuman28 ortologlarının bulunduğu bildirilmiştir [56], ancak sonuçlarımız, bu iki Alus maymunlarda korunurken, al yanaklı makakta benzer bölgelerde bulunan Alu elementlerinin karşı kolda olduğunu göstermektedir. İnsan rDNA'sında işlevi bilinmeyen birkaç tekrar tanımlanmıştır (Uzun tekrarlar ve Kelebek tekrarları olarak adlandırılır [1]). Bunlar primatlar arasında değişen dağılımlar gösterir (Şekil 2B), primat evriminde farklı noktalarda ortaya çıktıklarını düşündürür. İnsan IGS'sindeki cdc27 psödogeni, daha önce bildirildiği gibi maymunlarda da mevcuttur ancak maymunlarda yoktur [56] ve rhesus makak rDNA dizisi, diğer türlerde bulunmayan büyük LTR retrotranspozonları ve uydu tekrarlarını içerir (Şekil 2B). Genel olarak, bu sonuçlar, seçilen primatların rDNA dizilerinde net bir ortoloji ve sinteni sinyalinin korunduğunu, ancak filogenetik ayak izinin etkili olması için yeterli çeşitlilik olduğunu göstermektedir.

İnsan IGS'sinde filogenetik ayak izi ile tanımlanan korunmuş bölgeler

Filogenetik ayak izi yoluyla insan rDNA'sında potansiyel olarak işlevsel olan yeni korunmuş bölgeleri belirlemek için insan ve primat rDNA dizilerini hizaladık. İnsan ve ortak marmoset rDNA dizileri aynı hizada olmasına rağmen, dizilim özdeşliğinin nispeten düşük seviyesi nedeniyle hizalama tehlikeye girer (S4 Tablosu). Bu nedenle, ortak marmoset ile bir hizalama atlanmıştır (MSAinsan-makak) filogenetik ayak izi için kullanıldı. MSAinsan-makak ağırlıklı olarak rhesus makak rDNA'sındaki uydu bloklarının sonucu olan uzun aralıklara sahiptir (S6 Ek). Amaç, insan rDNA'sındaki korunmuş bölgeleri belirlemek olduğundan, insan rDNA'sındaki boşluklarla çoklu dizi hizalamasındaki (MSA) tüm sütunlar çıkarıldı. Dizi koruma seviyesini gözlemlemek için Synplot (Şekil 3). Daha sonra, filogenetik gizli bir Markov modelini hizalamaya uydurmak için maksimum olasılığı kullanan phastCon'lar kullanılarak korunan bölgeleri belirledik [77]. İnsan IGS'sinde kırk dokuz korunmuş bölge (c-1 ila c-49) tanımlanmıştır (Şekil 3 ve S8 Tablosu), uzunluğunun %21.9'una karşılık gelir. Bu korunan bölgeler, rDNA'daki hem benzersiz bölgelere hem de Alu elementlerine eşlenir. (Şekil 3). Bu bölgelerin aynı zamanda ortak marmoset ve fare rDNA'sında (Genbank rDNA referans erişim BK000964.3 kullanılarak) korunup korunmadığına baktık. Ortak marmoset rDNA'sı ile eşlenen yirmi üç korunmuş bölge ve fare rDNA'sı ile eşlenen dördü, her ikisinde de bulunan üç bölge, >%50 özdeşlik eşiği kullanılarak (Şekil 3 ve S9 Tablosu). İlginç bir şekilde, hem fare hem de ortak marmoset (c35-36) ile korunan üç bölgeden ikisi, tek bir Alu tekrarını (Aluinsan20) tanımlanmış bir işlev olmadan. Birlikte, bu filogenetik ayak izi yaklaşımı, potansiyel olarak işlevsel öğeleri temsil eden, derinden korunmuş bazı bölgeler de dahil olmak üzere, insan IGS'sindeki korunmuş bölgeleri ortaya çıkarır.

Yatay eksen, insan rDNA'sındaki konumu temsil eder; dikey eksen, 0 (kimlik yok) ve 1 (tüm bazlar aynı) arasındaki dizi benzerliği seviyesini temsil eder. Benzerlik grafiğini oluşturmak için 1 bp'lik artışla 50 bp'lik bir kayan pencere kullanıldı. IGS'deki (mor kutular) korunan bölgeler, phastCon'lar kullanılarak tanımlandı. Alu elemanlarının (yeşil kutular), mikro uyduların (gri kutular), bir cdc27 psödogeninin (pembe kutu), rRNA promotörünün (mavi çizgiler), önceden tanımlanmış IGS kodlamayan transkriptlerinin (yeşil kıvrımlı çizgiler), c-Myc bağlanma bölgelerinin (turuncu) konumları çizgiler), p53 bağlama bölgesi (yeşil çizgi) ve Sal kutuları (sonlandırıcı elemanlar kırmızı çizgiler) belirtilmiştir. Aşağıda siyah bir daire veya üçgen bulunan korunan bölgeler, sırasıyla ortak marmoset ve fare rDNA'sında korunur.

İnsan IGS'sinde önceden bilinen özelliklerin korunması

Filogenetik ayak izinin insan rDNA'sındaki fonksiyonel elementleri tanımlayabildiğini doğrulamak için, bilinen insan rDNA elementlerinin primatlar arasında korunup korunmadığına baktık. Beklendiği gibi, 18S ve 5.8S rRNA kodlama bölgeleri, primatlar arasında yüksek oranda korunurken, 28S rRNA kodlama bölgesi, daha önce bildirildiği gibi, değişken bölgelerle serpiştirilmiş korunmuş bloklardan oluşur (Şekil 3) [100 Şekil 3,101,102]. rRNA promotörünün iki karakteristik elemanı vardır: -156 ila -107 konumundan bir yukarı akış kontrol elemanı (UCE) ve -45 ila +18 konumundan bir çekirdek kontrol elemanı (CCE) [54] ve her iki eleman da korunur (Şekil 3 ve S3A). 28S rRNA kodlama bölgesinin aşağı akışında birkaç potansiyel rRNA transkripsiyonel sonlandırıcı (Sal kutuları) mevcuttur [55,103] ve hepsi korunur (S3B Şekil). Ek olarak, rRNA promotörünün [55] proksimalindeki Sal kutusu korunur, ancak bu pozisyondaki bir terminatörün fonksiyonel önemi açık değildir. rRNA promotörü çevresinde tanımlanan c-Myc bağlanma bölgeleri, korunan bir bölgeye düşer (c49 Şekil 3), bu alanın c-Myc'yi bağladığı gösterilmiştir [57]. Çoğunluğu (c-Myc'yi bağladığı gösterilen sonlandırıcıya yakın siteler dahil) olmasa da, IGS'deki diğer birkaç tahmin edilen c-Myc bağlanma bölgesi de korunan bölgelere girer (Şekil 3) [57]. Bununla birlikte, gerçek bağlama motifinin korunması, korunan blokları tanımlamak için kullanılan eşikler nedeniyle otomatik olarak korunan bir bölgeye çevrilmez (S4 İncir), ve terminatörün etrafındaki korunmuş bir bölgede olmayan bazı c-Myc bağlama motifleri yine de korunur. Farede rDNA susturmada rol oynayan kodlayıcı olmayan bir RNA transkripti olan pRNA'ya karşılık gelen bölge [104], fare ile korunmamasına rağmen korunmuş bölge c49 ile çakışmaktadır (Şekil 3). Stres sonucu üretilen iki insan IGS transkripti [IGS olarak adlandırılır.21RNA ve IGS28RNA 18]) sırasıyla korunan c20-c23 ve c28-c30 bölgeleriyle örtüşür (Fig 3). The conservation of these noncoding IGS transcripts suggests that their function in stress response may be conserved in primates. Together, our results show that a number of elements in the rDNA that are known or have been suggested to be functional appear as conserved peaks, suggesting that our phylogenetic footprinting approach has the ability to identify functional elements in the IGS.

Association of unknown conserved regions with transcription

Previously known functional elements account for 11 (c1-c3, c20-c23, c28-c30 and c49) of the identified 49 conserved regions. The remaining conserved regions remain uncharacterized, and these regions may represent novel functional elements. Therefore, we next looked for potential functions of these novel conserved regions. The presence of characterized noncoding transcripts in the human IGS [18,104,105], as well as their prominence in the rDNA of other organisms [11,106–108], led us to explore whether some of the conserved regions are associated with noncoding transcription. We mapped publicly available long poly(A+) and poly(A-) (>200bp), and small RNA (< 200 bp) RNA-seq data [109] from all six cell lines of the first two tiers of the ENCODE project to a modified human genome assembly to which we added the human rDNA sequence (“modified human genome assembly”), without repeats masked. The cell lines included two normal cell lines (HUVEC and GM12878), one embryonic stem cell line (H1-hESC), and three cancer cell lines (K562, HeLa-S3, and HepG-2). Several novel poly(A+) and poly(A-) transcripts were identified, including transcripts in common across all cell lines, and transcripts restricted to a subset of cell lines (S5 Fig and S10–S21 Tables). To identify potential transcriptional start sites (TSS) for these noncoding transcripts, we mapped publicly available CAGE data from the FANTOM5 project [82] to the modified human genome assembly with repeats masked (to prevent spurious alignment of the short CAGE sequence reads). Several CAGE peaks were identified that support the presence of some of the novel IGS transcripts (S5 Fig and S22 Table Bed files for RNA-seq transcripts and BedGraph files for CAGE peaks are available at figshare location https://doi.org/10.17608/k6.auckland.6159395.v1).

The presence of transcripts that originate from the human IGS implies that transcriptional regulators (e.g. promoters, enhancers and insulators) are present in the IGS, and may correspond to some of the conserved regions. Therefore, we mapped publicly available ENCODE ChIP-seq data for histone modifications, RNA polymerase-II and III, transcription factors (TBP, c-Myc and ZNF143), and the insulator binding protein CTCF, a highly conserved protein that is involved in the three-dimensional organization of chromatin [110–112], to the modified human genome assembly. We used ChIP-seq data from the six cell lines that were subjected to RNA-seq analysis, as well as from an additional cancer cell line (A549) from tier-3 of the ENCODE project. Several peaks of enrichment for these factors were identified (S6–S12 Figs BedGraph files for ChIP-seq peaks are available at figshare location https://doi.org/10.17608/k6.auckland.6159395.v1), with those associated with active transcription being distinct and sharp, while those associated with transcriptional repression are comparatively broad, as previously observed [59]. Cell line HeLa-S3 is an exception as the histone modifications peaks associated with active transcription are broad as well. The GM12878 cell line has fewer prominent histone modification peaks than the other cell lines, probably because of loss of a substantial number of ChIP-seq reads during the quality control step for this cell line. We then integrated the histone modification, CTCF, and Pol-II profiles for all seven cell lines using Segway [113] to determine putative chromatin states in the IGS (S13 Fig and S23 Table). Finally, we intersected the RNA-seq, CAGE, and chromatin state datasets with the conserved regions to identify transcripts and chromatin states that are potentially functionally conserved. This analysis revealed three prominent zones in the IGS containing several conserved regions that either show evidence for active transcription or have chromatin states associated with transcription (Fig 4). Together, these zones account for 18 of the 38 unknown conserved regions, including 14 of the 23 regions conserved with the common marmoset. The first zone is located near the rRNA transcriptional terminator, and we call this zone-1. It encompasses conserved regions c6 to c23 (

14.8 kb—21.1 kb) (Fig 4) and contains a number of both poly(A+) and poly(A-) transcripts common to all cell lines (S5 Fig), many of which appear to be spliced. There are a number of peaks of histone modifications that indicate chromatin states associated with transcription, most prominently in the H1-hESC and HepG2 cell lines. A number of the putative transcripts appear to originate upstream of this zone, in a region that is enriched for chromatin states associated with active transcription and with CAGE peaks but does not show sequence conservation. Zone-1 also contains the previously identified IGS21RNA noncoding transcript (Fig 3).

The human IGS is shown at top, with the positions of Alu elements (green boxes), microsatellites (grey boxes), conserved regions (purple boxes), and previously identified IGS noncoding transcripts (black arrows) indicated. Below are chromatin and transcriptional features of seven human cell lines. The positions of the conserved regions are indicated by pale shading. For each cell line the presence of transcriptional start site (TSS), promoter (Prom), enhancer (Enh), and CTCF segmentation states, obtained by merging peaks for histone modification, Pol II and CTCF using Segway, are indicated. Below these, CAGE peaks are shown for the forward (black boxes) and reverse (red boxes) strands (CAGE stem cell data come from H9-hESC, not H1-hESC), followed by long poly(A+) and poly(A-) transcripts (green and blue arrows, respectively) with FPKM values >1 gray arrows indicate transcripts with FPKM < 1. Arrowheads indicate the direction of transcription. Peaks of small RNA are shown in pink. Zones 1 and 2 that are enriched for conserved regions and transcription-associated factors are boxed in red. Not all features have data available for all cell lines.

The second zone is roughly in the middle of the IGS, and we call this zone-2. It encompasses conserved regions c28-c34 (

28.2 to 32.6 kb Fig 4) and shows strong enrichment for chromatin states associated with transcription and transcriptional regulation. Conserved regions c28-c30 correspond to the previously identified IGS28RNA noncoding transcript [18,59], and, consistent with previous results [59], show chromatin states associated with transcriptional activity (Fig 4). While we do not detect IGS28RNA specifically, we do find transcripts that overlap it. Conserved regions c31-c32 show an enrichment of active chromatin states, as reported previously [59], as well as transcripts in many cell lines (Figs 4 and S5). This region also shows a peak of CAGE tags in the same position in all cell lines for which CAGE data are available (Figs 4 and S5). Interestingly, there are two oppositely transcribed small RNA peaks in conserved region c31 that may represent transcription from a bidirectional promoter and are only observed in H1-hESC (Figs 4 and S5). In general, more CAGE tag peaks map in the stem cell line than the other cell lines, mirroring genome-wide patterns of embryonic stem cell expression [114] and suggesting the rDNA might be in an unusually permissive chromatin state for noncoding transcription in this cell type. Furthermore, zone-2 was the only part of the IGS for which CTCF segmentation states were predicted in all cell lines that had data.

The final zone encompasses the rRNA promoter (Fig 4). Noncoding transcripts are found in this zone (S6–S11 Figs), including small RNA peaks in the HUVEC cell line. Some of these transcripts may function like the mouse pRNA, a small RNA that influences rRNA transcription [104], with pRNA-like transcripts having been detected in the human rDNA before [59]. This zone also displays chromatin features characteristic of TSSs, promoters, and enhancers, depending on the cell line (Fig 4), and again, some of these features might relate to the presence of the pRNA. However, whether humans have a pRNA that is functionally equivalent to the mouse pRNA has not yet been determined.

Our analyses also show a number of poly(A+) and poly(A-) transcripts, small RNAs, and chromatin states associated with transcriptional activity outside of these zones. In some cases these overlap with conserved regions, but in other cases they do not, and it is difficult to determine whether the transcriptional features that overlap conserved regions are associated with the conservation or not. A number of the nonconserved transcriptional features correspond to microsatellite regions (S12 Fig), suggesting they might be artifacts of the spurious alignment of reads to IGS microsatellites [99]. However, microsatellites have been shown to act as promoters and/or enhancers [115–119], hence we cannot completely rule out that the chromatin states at these sites are real.

Replication and double strand break association

The presence of origin of replication activity is a conserved feature of the rDNA [46,120–124]. Genome-wide mammalian origins of replication are not defined by sequence and there is not agreement on precisely where replication initiates in the rDNA [122,125–128]. We looked to see whether origin of replication complex association overlaps with conserved regions in case the rDNA initiates replication in a sequence-specific manner. We mapped publicly available origin of replication complex (ORC) ChIP-seq data [79] to the modified human genome assembly. The majority of ORC signal in the rDNA is found distributed across the rRNA coding region and the regions immediately flanking this (Fig 5). However, six smaller peaks of ORC enrichment are seen in the IGS, with five of them falling in conserved regions (Fig 5). These results suggest that the majority of replication in the human rDNA initiates in the rRNA coding region and/or the regions flanking it, consistent with reports that mammalian origins of replication are enriched in transcriptionally active regions [79]. Whether there is any biological significance to the minor ORC peaks at the conserved regions in the IGS is unclear.

The black plot represents enrichment of ORC in Hela-S3 cells and grey boxes below represent the position of peaks. Scale on the left is the -fold enrichment, and the scale above shows the position in the rDNA. Purple boxes represent conserved regions. The predicted chromatin states: transcription start site (TSS green boxes), promoter (pink boxes), and enhancer (orange boxes) are shown. CAGE peaks are shown as black boxes (positive strand). Long poly(A+) and poly(A-) transcripts with FPKM values > 1 are shown as green and blue boxes, respectively. Gray arrows show transcripts with FPKM < 1. Arrows indicate the direction of transcription. The purple plot at bottom represents the DSB sites in HEK293T cells.

A key feature of the rDNA repeats in yeast is the presence of double strand breaks (DSB) at a conserved site of unidirectional replication fork stalling known as the replication fork barrier site [49,50,129]. We examined whether recently reported DSB sites in the human rDNA [130] are located around conserved regions, but found no consistent pattern of association (Fig 5). Interestingly, however, the major DSB site in the rDNA lies in a region that is close to one peak of ORC enrichment, potentially suggesting the DSB site is a region of replication restart, such as observed at the yeast rDNA [131]. However, this site is at the opposite end of the IGS to where human replication fork barrier activity has been reported [132].

Long noncoding RNAs are conserved among primates

Finally, we reasoned that the presence of transcripts and chromatin states associated with active transcription in conserved regions of the human IGS suggests that similar transcripts should be present in other primates. To test this, we took publicly available paired end total RNA-seq data from liver, lung, and skeletal muscle of chimpanzee [83], and single end poly(A+) RNA-seq data from liver, heart, and cerebellum of chimpanzee, orangutan, and macaque [84]. These data were mapped to the corresponding species’ genome assembly to which the appropriate rDNA sequence had been inserted. We found IGS transcripts in all tissues from chimpanzee and orangutan (S14–S16 Figs and S24–S27 Tables), but in macaque such transcripts were only present in liver and heart tissue. We compared the primate IGS transcripts to HUVEC IGS transcripts, as HUVEC is a primary cell line that has a normal karyotype and is not artificially immortalized, hence is likely to be the closest to a “normal” human cell state. Transcripts similar to those found around the human promoter region are also found in chimpanzee and orangutan. In addition, transcripts similar to those found in zone-1 in the human IGS are found in all primate species we analyzed (Fig 6). Strikingly, there is conservation of splice junctions between human, chimpanzee and orangutan, even though the full lengths of the transcripts are not the same. No transcripts corresponding to zone-2 were found for the non-human primates analyzed here, and only one IGS transcript was found in macaque in zone-1, although this transcript does not overlap the HUVEC transcripts. Therefore, some but not all of the IGS transcripts that emanate from conserved regions in human are conserved across the apes, supporting the idea that these regions may have been conserved to maintain this transcriptional function. However, the lack of IGS transcripts in macaque suggests that transcriptional conservation does not extend as far as the monkeys, although we cannot rule out that the appropriate macaque tissues have not been sampled to find these IGS transcripts, or that their absence simply reflects a loss that is unique to macaque. The lack of transcripts from zone-2 in apes suggests that enrichment of transcriptional regulatory features in conserved regions in this zone may be involved with determining a specific chromatin structure, or that the production of transcripts is tissue-specific, such as the potentially stem cell-specific bidirectional RNA we identified in this region.

The human IGS is indicated at top along with the conserved regions (purple boxes), Alu elements (green boxes) and cdc27 pseudogene (pink box). Below are poly(A+) IGS transcripts from the HUVEC cell line, followed by total RNA chimpanzee IGS transcripts (orange), and poly(A+) IGS transcripts from chimpanzee, orangutan, and rhesus macaque (green boxes). Only transcripts that are in common with human are shown. Transcript names and their start/end coordinates are indicated alongside, as are percent identities between each transcript and the human IGS (in parentheses). Arrowheads indicate direction of transcription.


Tartışma

The 45S rDNA gives origin to the nucleolus, the nuclear organelle that is the site of ribosome assembly, and transcription and processing of 45S rRNA transcripts to mature rRNAs (Warner 1999 Grummt 2003 Moss etਊl. 2007 Pederson 2011 Woolford and Baserga 2013 Henras etਊl. 2015). The 5S rDNA resides on a single human chromosome, is required for ribosome function, and is transcribed outside of the nucleolus (Sorensen and Frederiksen 1991). Here we examined the genomic architecture and repeat content of the 5S array in multiple human genome assemblies and ascertained contacts between both rDNA arrays (5S and 45S) and the rest of the genome in two human cell lines (erythroleukemia K562 and lymphoblastoid cells). The analyses revealed that 5S and 45S arrays each have thousands of contacts in the folded genome. The analysis also identified an intriguing organization in the 5S array with Alu elements and 5S units adjacent to one another, and organized in opposite orientation along the array. The rDNA contact map displayed conserved and disparate features between two cell types, and pointed to specific chromosomes, genomic regions, and genes with evidence of spatial proximity to the rDNA arrays. The contacts include cell-type specific associations with non-repetitive elements of all human chromosomes. Interestingly, rDNA-associated genes were dispersed across all chromosomes. Moreover, the data showed a lack of direct physical interaction between non-repetitive elements of the 5S and 45S rDNA arrays in K562 and LCLs. This observation suggests that the correlation in copy number between the 5S and 45S array, which has been reported for LCLs (Gibbons etਊl. 2015), might not require direct physical contact between these two arrays. Finally, 5S and 45S contacts with a wide range of chromosome regions and genes are consistent with the global regulatory consequence of rDNA copy number (Gibbons etਊl. 2014).

The substructure of the nucleolus has been carefully described in classical ultra-structural studies (Bouteille etਊl. 1967 Goessens 1984 Fischer etਊl. 1991 Scheer etਊl. 1993), and 45S rDNA units are presumed to form chromosomal loops within the organelle (Raška etਊl. 2006). Hence, the observation that 㸰% of reads containing rDNA sequences had both ends mapping to the 45S arrays is expected. It could reflect rDNA arrays looping in active arrays or be due to a tight packing of array units adopting a silenced state. This is because rDNA array looping has been suggested as a mechanism facilitating coordinate transcription among repeat units of the rDNA array (Henderson etਊl. 1973 Wicke etਊl. 2011). On the other hand, tight packaging of the rDNA array in silenced heterochromatic states is to be expected because not all 10 alleles are presumed to be active at the same time. Both looping to facilitate coordinated transcription as well as tight packaging for silencing could also operate among 45S rDNA arrays on different human chromosomes. Because of the widespread distribution of Alu and other repeats (Batzer and Deininger 2002 Jurka 2004), masking these elements is necessary to remove potential sources of read ambiguity that could confound analyses of Hi-C data. In this regard, analyses with masked repeats indicate a lack of 5S�S rDNA contacts. However, the procedure excluded the possibility that the 5S and 45S arrays might be connected through Alu elements. Hence, we also studied 5S�S rDNA contacts without masking for repeats. The procedure identified only a limited number of hits suggesting a minor contribution of 5S�S contacts even when Alu and other repeats are not masked. Our simulation study was carried out to evaluate this bias and showed that the number of observed contacts between 5S and 45S rDNA is not higher than the number expected from random selected regions with the same length. Finally, when we considered read pairs for which only one end mapped to the 45S rDNA, we found that in 㹰% of the cases the other end cannot be mapped to libraries of human DNA repeats that include Alu and Line1 repeats.

Recent observations of concerted rDNA copy number variation between the 5S and 45S rDNA arrays raise the possibility of cellular processes that promote co-variation in the 5S and 45S arrays. One clue might come from the co-localization of 5S and 45S array subunits in the genome of some fungi and plant species. It suggests that their co-existence in shared 5S�S arrays could have benefits. In yeast, the 5S and 45S units are physically linked in a common array in chromosome XII (Petes 1979 Ganley and Kobayashi 2007). This feature is puzzling in view of 5S and 45S transcription from different RNA polymerases it has been suggested that functional demands contributed to maintain their association. Similarly, in some plant lineages, the conserved linkage of two rDNA clusters (5S and 35S) is thought to be evolutionary ancient (Wicke etਊl. 2011 Barros etਊl. 2012 Galián etਊl. 2012). For instance, in some species of moss (bryophytes) the 5S gene resides in the 26S�S spacers (Sone etਊl. 1999 Wicke etਊl. 2011 Liu etਊl. 2013). These are called L-type rDNA arrays. Observations in gymnosperms (ginkgo and conifers) and angiosperms (flowering plants) suggested that the L-type might have evolved independently at least three times (Garcia etਊl. 2010 Garcia and Kovařík 2013). On the other hand, S-type arrays in which the 5S and 35S elements are located in different chromosomes have also evolved independently in multiple plant lineages (Wicke etਊl. 2011 Garcia and Kovařík 2013). More detailed phylogenetic sampling in plants is necessary to ascertain the multiple evolutionary transitions to and from L-type arrays that appear to be frequent in plants (Garcia etਊl. 2014). Although pseudogenized copies of the 5S rDNA unit exist in animals (Borsuk etਊl. 1988 Sorensen and Frederiksen 1991 Matsuda etਊl. 1994 Martins etਊl. 2002 Kapitonov and Jurka 2003 Kalendar etਊl. 2008) tight physical clustering between functional 5S and 45S elements have not evolved in animals. In humans, the 1q42 rDNA cluster appears to be the only source of mature 5S rRNA species assembled into the ribosome (Barciszewska etਊl. 2001 Ciganda and Williams 2011). Hence, evolutionary evidence of linear co-localization of rDNA clusters in plants and yeast need to be reconciled with data from other eukaryotes.

Studies in plant groups with L and S types of rDNA arrays have yet to find evidence that natural selection favors either case (Garcia and Kovařík 2013). Notwithstanding this, costs and benefits to linked and separated rDNA arrays can be readily envisioned. Evolutionary integration of all rDNA components into a common array suggests that benefits of linked 5S�S might sometimes override potential costs. One plausible advantage of linked 5S�S structures might be to facilitate mechanisms maintaining balance in rRNAs, either through coordinated expression of rRNA units or through co-variation in the abundance of rDNA copies. On the other hand, separation of the arrays might diminish costs from transcription interference due to the high activity of distinct RNA polymerases operating within the same array. For instance, separated 5S and 45S clusters could facilitate the partition of the intracellular environment that are best suited for expression from RNA polymerase I (45S rDNA) or RNA polymerase III (5S rDNA) and diminish resource competition from these two transcriptionally demanding arrays.

In the case of separated 5S and 45S arrays of humans, Drosophila and other eukaryotes, the evolution of cellular functions that promote regulatory and copy number coordination might be expected. In this regard, rDNA centered nuclear organization raises the prospect that spatial co-localization might contribute to resolving tradeoffs of having separated 5S and 45S rDNA arrays with correlated copy number variation and balanced expression of rRNAs. Collectively, the data highlight rDNA array interactions with the rest of the genome and point to cell-line specific rDNA associations with non-repetitive elements of human chromosomes. Portraits of genome folding centered on the ribosomal DNA can help understand the emergence of concerted variation, the control of 5S and 45S expression, as well as provide insights into an organelle that contributes to the spatial localization of human chromosomes during interphase.


Videoyu izle: ระบบยอยอาหาร 22 ลำไสเลก-ทวารหนก (Temmuz 2022).


Yorumlar:

  1. Mojin

    ilginç

  2. Ossian

    Yazar, hangi şehirdensiniz?

  3. Grisham

    Birçok insan hayal güçlerini hafızalarıyla karıştırır….

  4. Doulrajas

    Made you don't turn away. Olan oldu.



Bir mesaj yaz