Bilgi

Bir nötr alelin $p_0$ frekansından başlarken $p_1$ frekansına ulaşması için beklenen süre

Bir nötr alelin $p_0$ frekansından başlarken $p_1$ frekansına ulaşması için beklenen süre


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Kimura ve Ohta (1968), nötr bir alelin fiksasyona ulaşması için beklenen zamanın (fiksasyona ulaşacağı göz önüne alındığında) olduğunu gösterdi.

$$ar t(p_0)=-4Nsol(frac{1-p_0}{p_0}sağ)ln(1-p_0),$$

$p_0$ başlangıç ​​frekansı ve $N$ popülasyon boyutudur.

Çalışmalarından, $p_1$'ın mutlaka $1$'a eşit olmadığı bir yerde (bu sıklığa bir noktada ulaşılacağı düşünüldüğünde) $p_1$ frekansına ulaşmak için beklenen süreyi hesaplamak için bu sonucu genelleştirebilir miyiz?


Düz İngilizce Cevap:

Bu sorunu çözmek için nötr evrimi simüle eden bir bilgisayar işlevi yazdım. Bu kesin bir matematiksel cevap değil, ama temelde Kimura ve Ohta'nın makalelerinin (ikinci yarısında) aldıkları yaklaşımla aynı, ancak bilgisayarımın onlarınkinden daha güçlü olması dışında, simülasyon yaparak çok daha kesin tahminler elde edebildim. onlardan daha fazla nüfus.

Şekil Bir, farklı P1 değerleri (sütun olarak) ve farklı popülasyon büyüklükleri (sıraya göre) için P0 ile P1'e ulaşmak için beklenen süre arasındaki ilişkinin bir kafes grafiğidir. P0, P1 ile P0'dan P1'e varmak için beklenen süre arasındaki aynı ilişkilerin her popülasyon boyutunda görüldüğü açıktır, ancak daha büyük popülasyonlarda P0'dan P1'e ulaşmak için daha uzun bir süre beklemelisiniz.

P0 ve P1 birbirine yakın olduğunda, genellikle P0'dan P1'e gitmek için P0 ve P1'in birbirinden uzak olduğu zamana göre daha kısa bir süre beklersiniz. Bunu, 'daha fazla seyahat etmek daha uzun zaman alır' gibi bir kural olarak düşünebilirsiniz. P0 ve P1 birbirleriyle 0,5'in aynı tarafında olduğunda ve P1, P0'dan 0,5'ten daha uzak olduğunda, P0'ın P1'den 0,5'ten daha uzak olduğu zamana göre P0'dan P1'e gitmek için gereken süre daha küçüktür. Bunu, 'sabitleşmeye veya yok olmaya yakın olduğunuzda seyahat etmek, orta frekanslarda olduğunuzdan daha hızlıdır' gibi bir kural olarak düşünebilirsiniz.

Şekil Bir: P0'daki farklılıklar ve P1 ve popülasyon büyüklüğü tarafından alt çizilenler göz önüne alındığında, bir nötr alelin P0 frekansından P1 frekansına gitmesi için beklenen süre. P0 ve P1'in modellenen frekansları 0.1, 0.3, 0.5, 0.7 ve 0.9'dur. Modellenen popülasyon büyüklükleri N = 10, N = 50 ve N = 100'dür. Her alt grafik, P1 ve popülasyon büyüklüğünün bir kombinasyonunu temsil eder, P1 soldan sağa doğru artar ve popülasyon büyüklüğü aşağıdan yukarıya doğru artar. Tüm beklentiler 10.000 simüle edilmiş popülasyondan tahmin edilmektedir.

Bazı popülasyonların P0'dan P1'e gitmesi diğerlerinden daha uzun sürer. Genel olarak, çoğu popülasyonun P1'e ulaşması az sayıda nesil alır ve daha küçük bir sayı uzun zaman alır - ancak çok azı çok çok uzun zaman alabilir.

Kodumu ekledim, bu nedenle R'yi nasıl kullanacağınızı biliyorsanız, herhangi bir P0, P1 ve popülasyon büyüklüğü kombinasyonu için P0'dan P1'e beklenen süreyi tahmin etmek için kullanabilirsiniz.

Teknik olarak eğimli olanlar için ek ayrıntılar ve varsayımlar:

İlgili teori:

$N$ büyüklüğündeki diploid, eşeyli üreyen bir popülasyonda, belirli bir lokusun 2N$ kopyası vardır. Her lokus bir alel tarafından işgal edilir. İlgi odağımızdaki tüm varyasyonlar seçici olarak nötrdür. Amaçlarımız için, her bir lokusun ya ilgilendiğimiz alelimiz ($A$) ya da başka bir varyant ($a$) tarafından işgal edildiğini ve 'diğer' alellerdeki varyasyonu göz ardı ettiğini düşünebiliriz. İşlemin başlangıcında popülasyondaki $A$ kopya sayısı, $A | t=0$, $2N*P0$ tarafından verilir.

Popülasyon boyutunun sabit olduğunu (tüm $t$ için $Nt+1 = Nt$) ve eşleşmenin rastgele olduğunu varsayalım. Ayrıca nesillerin farklı olduğunu varsayalım. $t = 1$ doğan ilk nesil olsun, vb.

$A$'ın $t+1$ zamanındaki beklenen kopya sayısı bir binom dağılımını takip eder:

$At+1$ dağıtılır $Binom(2N, At/(2N))$

$At → At+1$ için bir geçiş kuralımız olduğundan, bu tür evrim geçiren popülasyonları simüle etmek oldukça basit bir meseledir. Bu simülasyonu gerçekleştirmek ve tarihlerinin bir noktasında $P1$'a ulaşan tüm popülasyonların oranını tahmin etmek için R işlevi nötrFPT'yi yazdım, bu durumda nötr bir alelin $P0$'dan $P1$'a ulaşması için beklenen süre, bir popülasyonun $P1$'a ulaşacağı düşünüldüğünde, $P1$'a ulaşacak ve $P1$'a ulaşmak için geçen sürenin dağılımı. Komut dosyası bu cevabın son bölümünde verilmiştir.

İlk geçiş sürelerinin olasılık yoğunlukları:

$P0$, $P1$ ve $N$ gibi makul değerler üzerindeki ilk geçiş sürelerinin olasılık yoğunlukları benzer bir yapı izler - sol kenarda tek modlu, daha uzun ilk geçiş sürelerinin uzun sağ kuyruğu ile (Şekil 2) .

Şekil 2: P0, P1 ve N'nin farklı değerleri altında P0'dan P1'e ilk geçiş sürelerinin olasılık yoğunlukları. A: P0 = 0.5, P1 = 0.9, N = 50; B: P0 = 0.9, P1 = 0.5, N = 50; C: P0 = 0,5, P1 = 0,9, N = 500.

İşlev: kullanım örnekleriyle birlikte nötrFPT.

## bu işlev, bir # noktada P1'e ulaşacağı göz önüne alındığında, rastgele bir popülasyonda bir nötr alel için başlangıç ​​oranından P0'dan son # orantıya P1 geçmesi için alınan nesil sayısını simüle eder. Alel frekansları, P1'e ulaşıldığında # noktasından sonra modellenmez. ## nötrFPT, Bu Site kullanıcısı Remi.b'ye yanıt olarak # http://biology.stackexchange.com/questions/30812/expected-time-for-a-neutral-allele-to-reach-a-frequency adresinde oluşturulmuştur. -of-p-1-while-starting-a ## nötrFPT Shane Baylis, 2015 # için R sürüm 3.2.2 için yazılmıştır nötrFPT <- function(P0, P1, N, niter) { tOut <- c(rep( NaN, niter)) # boş t değerleri vektörü oluştur statOut <- c(rep(NaN, niter)) # popülasyon durum değerleri vektörü oluştur (P1'e ulaştı veya ulaşmadı) if(P0 == P1) stop("P0 ve P1 aynı değere ayarlanmış!") if(P0 == 0 | P0 == 1) stop("P0 sıfır veya bir olarak ayarlanmış, dolayısıyla frekansı değişemez!") if(P0 < 0 | P0 > 1) stop("P0 sıfır ile bir arasında olmalıdır") if(P1 < 0 | P1 > 1) stop("P1 sıfır ile bir arasında olmalıdır") ## yukarı doğru ilerleyip ilerlemediğinizi öğrenin veya aşağı if(P1 > P0) { # yani, hedefimiz (i in 1:niter) { NAllele <- round(2*(P0*N)) Target <- round(2*(P1*N) için bizim üstümüzde )) t <- 0 while (NAllele < Target && NAllele != 0 && NAllele != 2*N) { t <- t+1 NAllele <- rbinom(1, 2*N, (NAllele/(2*N))) } if(NAllele >= Target) { statOut[i] <- 1 ## 1, P1'in gerçekleştiğini gösterir tOut[i] <- t }else{ statOut[i] <- 0 tOut[i] <- Inf } } }else{ ## yani, hedefimiz (i in 1:niter) { NAllele <- round(2*(P0*) için altımızda N)) Target <- round(2*(P1*N)) t <- 0 while (NAllele > Target && NAllele != 0 && NAllele != 2*N) { t <- t+1 NAllele <- rbinom( 1, 2*N, (NAllele/(2*N))) } if(NAllele <= Target) { statOut[i] <- 1 ## 1, P1'in gerçekleştiğini gösterir tOut[i] <- t }else{ statOut [i] <- 0 tOut[i] <- Inf } } } başarı <- sum(statOut) # # P1'e ulaşılan popülasyonların sayısı propSuccesses <- başarıların / niter # P1'in olduğu popülasyonların oranı # ulaşılan başarı Süreleri <- altküme(tOut, statOut == 1) beklenenFPT <- ortalama(successTimes) medyanFPT <- medyan(successTimes) çıkışları <- liste(successes=successes, propSuccesses=propSuccesses, SuccessTimes=successTimes,beklenenFPT=beklenenFPT=, medya medyanFPT, denemeler=niter) dönüş(çıkışlar) } # işlev kapat ## neu tralFPT örnekleri ############################################# # sim <- nötrFPT(0.5, 0.9, 500, 10000) sim$beklenenFPT # Sayısal. bir # popülasyonun P1'e ulaştığı göz önüne alındığında, nesiller halinde P0'dan P1'e beklenen (yani ortalama) ilk geçiş # süresini gösterir. sim$medyanFPT # Tamsayı. Bir popülasyonun P1'e ulaştığı göz önüne alındığında, nesiller halinde P0'dan P1'e medyan ilk geçiş süresini gösterir. sim$propSuccesses # Tamsayı. # P1'e ulaşan benzetilmiş popülasyonların oranı. Diğer popülasyonlar, P1'e ulaşmadan A'nın sabitlenmesine veya neslinin tükenmesine ulaştı. sim$successTimes # Vektör. P1'e ulaşan tüm popülasyonlar için P1'e ulaşan nesil sayısı. hist(sim$successTimes, xlab="İlk geçiş zamanı (nesiller)", main=paste(sim$successes, "başarılı", sim$trials, "popülasyonlar")) ## ilk geçiş zamanlarının histogramı PZero <- c(rep(c(0.1, 0.3, 0.5, 0.7, 0.9), 15)) POne <- c(rep(c(rep(0.1,5)),rep(0.3,5),rep(0.5,5), rep(0.7,5),rep(0.9,5)),3)) PopSize <- c(rep(10,25),rep(50,25),rep(100,25)) FPT'ler <- c(rep (NaN, uzunluk(başlar))) testFrame <- data.frame(PZero, POne, PopSize, FPT'ler) testFrame <- subset(testFrame, başlar != biter) for(s in 1:nrow(testFrame)) { sim < - with(testFrame, NeutralFPT(PZero[s],POne[s],PopSize[s],10000)) testFrame$FPTs[s] <- sim$expectedFPT } ## bir için P0'dan P1'e beklenen ilk geçiş sürelerini tahmin eder P0, P1 değerlerinin çeşitliliği ve popülasyon büyüklüğü. Tahminleri, testFrame adlı bir tabloya # verir. require(lattice) with(testFrame, dotplot(FPTs~PZero|POne*PopSize, main="P0, P1 ve Nüfus Boyutuna Göre Beklenen İlk Geçiş Süresi", xlab="başlangıç ​​frekansı (P0)")) ## oluşturur # Şekil Bir olarak kullanılan kafes grafiği.

Nüfus Genetiğinde Demografik Stokastikliğin Bazı Sonuçları

Popülasyon genetiğinin çoğu, sabit bir popülasyon büyüklüğünü varsayan Wright-Fisher modelinin yayılma sınırına dayanmaktadır. Bu varsayım, çoğu doğal popülasyonda, özellikle mikroplar için ihlal edilir. Burada doğum ve ölüm olaylarını birbirinden ayıran ve stokastik olarak değişen bir nüfus büyüklüğüne izin veren daha gerçekçi bir model üzerinde çalışıyoruz. Bu model altında, bir mutant alelin fiksasyonundan önceki olasılık ve zaman gibi klasik nicelikler, Wright-Fisher beklentilerinden önemli ölçüde farklı olabilir. Ayrıca, Wright-Fisher varsayımlarına dayanan doğal seleksiyonla ilgili çıkarımlar hatalı ve hatta çelişkili sonuçlar verebilir: küçük popülasyon yoğunluklarında bir alel üstün görünürken, büyük yoğunluklarda diğer alel baskın olacaktır. Sonuç olarak, laboratuvar koşullarındaki rekabet deneyleri, alandaki uzun vadeli evrimin sonucunu yansıtmayabilir. Bu sonuçlar, nüfus genetiğinin temel modellerine demografik stokastikliğin dahil edilmesinin önemini vurgulamaktadır.

Alel frekanslarının MATEMATİKSEL açıklamaları tipik olarak Wright-Fisher modeli (W right 1931 F isher 1958) veya daha doğrusu onun difüzyon limiti (K imura 1962 E wens 2004) üzerine kuruludur. Bu model, Kimura'nın sabitleme olasılıkları (K imura 1955), Ewens'in örnekleme formülü (E wens 1972 L essard 2007), Kingman's birleştirici (Kingman 1982), tarafsızlık testleri (H udson) üzerine çalışmalarının temelini oluşturur. ve diğerleri. 1987 T ajima 1989 M c D onald ve K reitman 1991 Fu ve L i 1992 Fa ay ve W u 2000) ve mutasyon oranları ve seçim baskılarını çıkarsama teknikleri (S awyer ve H artl 1992 Yang ve Bielawski 2000 B ustamante ve diğerleri. 2001).

Wright-Fisher modeli, diğerleri arasında rastgele olmayan çiftleşme, göç ve çoklu lokus gibi çeşitli komplikasyonları hesaba katmak için genelleştirilmiştir (E wens 2004 D urrett 2009). Kimura'nın standart difüzyon yaklaşımı (K imura 1962 E wens 2004) ve onun birleştiricisi (Kingman 1982), modelin altında yatan varsayımların ihlallerine karşı oldukça sağlamdır. Örneğin, popülasyon katmanlara ayrıldığında veya popülasyon büyüklüğü popülasyonun genetik bileşiminden bağımsız ve hızlı bir şekilde değiştiğinde, uygun bir zaman ölçeği değişikliği veya etkili seçim seçimi altında, alel frekans dinamikleri Wright-Fisher difüzyonu tarafından hala doğru bir şekilde tahmin edilir. nüfus büyüklüğü (E wens 1967 O tto ve W hitlock 1997 Wakeley 2005, 2009). Aslında, Moran süreci (M oran 1958), Karlin'in koşullu dallanma süreci (K arlin ve M c G regor 1964) ve bazı Cannings süreçleri (C annings 1974 E wens 2004) dahil olmak üzere çoğu popülasyon-genetik modeli aynı şeyi paylaşır. Wright-Fisher modeli olarak difüzyon limiti (M öhle 2001). Sonuç olarak, Kimura'nın difüzyon yaklaşımının teorik ve uygulamalı popülasyon genetiğinin gelişimi üzerinde muazzam bir etkisi oldu.

Sağlamlığına rağmen, Wright-Fisher difüzyonu her koşulda uygun değildir. Birçok doğal popülasyon, önemli stokastik varyasyon yaşar. Ancak, birkaç istisna dışında (Örneğin., Kaj ve K rone 2003 L amber 2005, 2006 Champagnat ve L amber 2007), modeller tipik olarak sabit veya deterministik olarak değişen popülasyon sayısını varsayar (Örneğin., E wens 1967 Kimura ve Ohta 1974 D sadece 1986 Griffiths ve T avaré 1994 O tto ve W hitlock 1997).

Burada, Moran'ın modelinden (M oran 1958) ve Gause–Lotka–Volterra modelinden (L otka 1925 V olterra 1926 G ause 1934) esinlenen alternatif bir yaklaşımı ele alıyoruz: bireyler, toplam nüfusa göre değişen oranlarda doğum yapar ve ölür. sayı. Popülasyonlar yoğunluğa bağlı faktörlerle sınırlı tutulur (Örneğin., kaynak sınırlaması) örneğin mikrobiyal popülasyonlarda ampirik olarak doğrulanmış olanlar (G ause 1934 V andermeer 1969 P ascual ve K areiva 1996). Bu yaklaşım, doğum olaylarını hemen ölüm olayları takip etmediğinden, nüfus büyüklüğünde stokastik çeşitlilik üretir. Bu çalışmada, bu tür demografik stokastikliği içeren en basit popülasyon sürecini formüle ediyoruz. Modelimizin, standart Kimura difüzyonundan niteliksel olarak farklı olan ve yeni davranış sergileyen bir difüzyon yaklaşımını kabul ettiğini gösteriyoruz. Özellikle, eşit beklenen yaşam boyu üreme çıktısı türleri tarafından kullanılan farklı yaşam öyküsü stratejilerinin, uzun vadeli hayatta kalma için belirgin şekilde farklı sonuçlara sahip olduğunu bulduk. Bu bağlamda, sonuçlarımız Gillespie'nin doğurganlık varyansı ve bahisten korunma üzerine çığır açan çalışmasını tamamlar (G illespie 1974, 1975, 1977) (ilgili soykütüksel süreç için ayrıca bkz. Taylor 2009). örtüşmeyen nesiller, bakım için ayırmayı düşünüyoruz vs. Geçici bahis riskinden korunma biçimi olarak üreme çıktısı. Benzer bir değiş tokuş, farklı genotiplerin farklı yıllık hayatta kalma olasılıkları ve doğurganlıkları olarak ifade edildiği, yaşa göre yapılandırılmış açık bir doğurganlık varyansı modeli aracılığıyla Shpak'ta (2007) ele alınmıştır. Gillespie ve Shpak'ın bu çalışmalarının aksine, modelimiz sabit bir popülasyon büyüklüğü varsaymaz ve bu nedenle yeni yaşam-tarihi değiş tokuş biçimlerini düşünmemize ve küçük, büyüyen popülasyonları dengeye yakın popülasyonlarla karşılaştırmamıza izin verir. Bu tür popülasyonları karşılaştırarak, bahisten korunan mutantların kısa sürelerinde bariz bir çelişki sergileyebileceğini bulduk. vs. uzun vadeli davranış: düşük nüfus yoğunluğunda hızla büyüyen türler az düşük nüfus yoğunluğunda yavaş büyüyen türlere göre düzelmesi muhtemeldir.


Sonuçlar: Modeller ve gözlemler

Aşağıdaki bölümlerin her birinde, kesinlikle tarafsız model ile tek bir parametre aracılığıyla seçimi içeren genelleştirilmiş bir model arasında bir karşılaştırma yapılır. s (Ek'te açıklanmıştır). Analizler katı tarafsızlıkla başlasa da (s = 0) her argümanda, hangi aleller için s < 1/n, nerede n etkin nüfus büyüklüğü, kabul edilebilir neredeyse nötr, sürüklenmenin etkileri seçim kuvvetinden daha ağır basar [11]. Her durumda, bu seçici katsayı aralığında gözlemleri açıklamak, çok düşük etkin popülasyon büyüklüklerini gerektirir.

IS6110'un aktarım oranları

Genetik mutasyonlar seçici olarak nötr olduğunda, ikame oranı mutasyon oranına eşittir [11]. Mevcut durumda, ana bilgisayar içi ikame süreci ilgi çekicidir. Rosenberg et al. [12] konakçı içi ikame oranını belirledi IS6110 işaretleyici, maksimum olabilirlik tahmini 0,0287 ile, kopya başına yılda yaklaşık 0,00184 ila 0,0390 olay olacak. Bu nedenle, tarafsızlık altında, bu oran bir ekleme başına mutasyon oranı μ ben

Aktif enfeksiyonlarda 1 günlük bir üretim süresi varsayılarak, nesil başına site başına 7,9 × 10 -5 olay. Bu rakam, insan monosit kültürlerinde ve kültür ortamında yetiştirilen klinik izolatlara dayalı olarak 24 saate yakın ölçülen bir ikiye katlanma süresinden gelmektedir [13-15]. Nokta mutasyon oranları (olaylar nükleotit başına nesil başına) genellikle 10 -9 civarındadır. Mutatör suşlarda, yani DNA onarım mekanizmasının hasar gördüğü ve mutasyon oranlarının yükselmesine neden olan genomlarda, mutasyon oranı, mertebesine kadar yükselir.

10 -7 – 10 -6 [16]. IS mutasyon oranı6110 bu nedenle, doğası gereği sorunlu olmadığı için, bu yalnızca "duruma dayalı kanıt" olsa da, tarafsızlık altında şüphe uyandıracak kadar yüksek görünmektedir. Gerçekten de, IS için nesil başına element başına 10-4 kadar yüksek mutasyon oranları ölçülmüştür.10 in vitro [17]. Bununla birlikte, pozitif seçime izin verilirse, tahmin edilen mutasyon oranı azalır. Klonal enterferansın [18] karmaşıklaştırıcı etkisi bir yana bırakılırsa, ikame oranı

K = uN μ ben (1)

nerede sen bir mutantın sabitlenme olasılığı, μ benmutasyon oranı ve n popülasyon büyüklüğüdür [11]. Mutantlar avantajlı olduğunda mutasyon oranı tahmini s = K/(uN). Sürüklenmenin difüzyon modeli, aşağıdakiler için bir ifade sağlar: sen nüfus büyüklüğünün bir fonksiyonu olarak n ve seçici katsayı s (Ek'e bakınız). Şekil 1 üzerinde araziler s birkaç farklı değer için n. Her eğride, seçici katsayı arttıkça tahmin edilen mutasyon oranı azalır. Bu analize göre, bir miktar seçilim ve büyük bir popülasyon büyüklüğü olduğunda veya seçilim güçlü ve popülasyon büyüklüğü küçük olduğunda daha düşük mutasyon oranları mümkündür. Mutasyonlar neredeyse nötr ise, tahmini mutasyon oranının yüksek kaldığını unutmayın.

Pozitif seleksiyon hareket ederken mutasyon oranı tahmini. Tahmin, 10 tabanında logaritmik bir ölçekte çizilir. Düz eğri: n = 10 Kesikli n = 1000 Noktalı: n = 10 5 .

Sabitleme süreleri

Çeşitli çalışmalar IS'nin kararlılığını ölçmüştür.6110 Kalıcı enfeksiyonu olan hastalardan elde edilen seri izolatların genotiplerini inceleyerek genetik bir belirteç olarak. Seri izolatlar arasındaki genotiplerdeki az sayıda değişiklik, kararlı bir işaretçiyi gösterir. İlişkili olmayan suşlar tarafından eksojen yeniden enfeksiyona bağlı genotiplerdeki farklılıklar dikkate alınmaz. Niemann'ın verilerine göre et al. [19] ve Rosenberg et al. [12], IS'deki değişikliklerle ilişkili medyan zaman aralığı6110 seri örneklerinden genotipler M. tüberküloz 212 gün ve maksimum 683 gündür. İkinci numune, mutantın sabitlenmesinden bir süre sonra alındığından, gerçek ikame süreleri bilinmemektedir, ancak bunların hepsinin 683 günün altında olduğu açıktır. Şimdi, katı tarafsızlık altında beklenen ikame sürelerinin bu değeri fazlasıyla aştığını göstereceğim.

Yer değiştirmenin gerçekleşmesi için beklenen sürenin, başarılı mutantın ortaya çıkması için geçen ortalama süre artı bu mutantın nihai sabitlenmesine bağlı olarak sabitlenmeye ulaşması için geçen süre olduğu varsayımıyla başlayalım. (Daha sonra mutantın ortaya çıkmasını beklemekle ilgili varsayımı bırakacağım). Ortalama görünüm süresi 1/(μNu) = 1/μ dan beri sen = 1/n katı tarafsızlık altında. Başarılı bir nötr mutantın fiksasyona ulaşması için ortalama süre 4'tür.n nesiller. Bu bağlamdaki mutasyon faiz oranı, orandır. genom başına Çünkü endişe verici olan, belirli bir genomdaki herhangi bir elementin değişim üretip üretmediğidir. Basitlik için, genomik mutasyon hızının kopya sayısıyla doğrusal olarak ölçeklendiğini varsayalım. (Bu analizin çözünürlüğünde, bu makul bir yaklaşıklıktır.) Tipik bir suşun IS elementinin 10 kopyasına sahip olduğu düşünüldüğünde, buradaki ilgili mutasyon oranı şudur: μ = μ ben× 10 = 7.9 × 10 -4 . Bu nedenle, n = 10, 10 3 , 10 5 , beklenen ikame süreleri sırasıyla kabaca 1300, 5300, 4 × 105 nesildir. Bir güne ayarlanan üretim süresi ile, gözlemlenen ikame sürelerinin üst sınırı, teorik beklentilerin oldukça altında olan 683 nesildir.

Şimdi iki alternatif muhafazakar varsayım altında pozitif seçim olasılığını düşünün. İlk numunenin zamanında hiçbir başarılı mutant bulunmadığına dair daha önceki varsayım, ebeveyn suşu için uygundur. Daha muhafazakar bir yaklaşım (mutantları tercih eden), fiksasyona ulaşacak olan mutantın tam olarak ilk numune zamanında ortaya çıktığını söylemek olacaktır. Daha sonra, pozitif olarak seçilirse, bu mutantın sabitlenmeye ulaşmasının ortalama olarak ne kadar sürdüğünü sorabiliriz. Daha da ihtiyatlı bir model, yalnızca ilk numune zamanında var olan ardıl suşun değil, aynı zamanda %30'luk bir frekansta mevcut olmasıdır. Ayrıca, ebeveyn suşun yerini almış sayılması için ikinci numunenin zamanında alt baskın suşun sadece %70'de olması gerektiğini söyleyelim.

Popülasyonlardaki alellerin sabitlenme koşuluna bağlı kalma sürelerinin bir modeli şimdi belirtilmelidir. Yine sürüklenmenin difüzyon modelini kullanarak (bkz. Ek), frekans aralığında bir mutant tarafından harcanan ortalama süre (bir, b) (tedarik edilen a ilk frekanstan daha büyüktür), sabitlemeye bağlı olarak, Ewens [20] ve Maruyama [21] tarafından bulundu

Şekil 2, için iki farklı sınır değerine karşılık gelen iki muhafazakar modeli göstermektedir (bir, b). Sağdaki grafikte gösterilen son derece muhafazakar modelde bile, katı tarafsızlık altında gözlemlenen ikame sürelerini açıklamak için etkin popülasyon büyüklüğü 400'ün altında olmalıdır. Neredeyse nötr mutasyonlar açısından bile verilerin hesaba katılması zordur (s < 1/n) ve etkin bir nüfus büyüklüğü n = 1000. Alternatif açıklama, etkin popülasyon büyüklüğünün daha büyük olduğu, ancak pozitif seçimin popülasyonda daha hızlı süpürme değişiklikleri yapmak için hareket etmesidir.

Seçici katsayının fonksiyonları olarak ortalama bekleme süreleri s , farklı değerler için n . Soldan a = 1/n ile B = 1 - 1/n sağ: itibaren a = 0,3 ila B = 0.7.

Polimorfizm

Patojen genotiplerinin birçok analizi, izole edilmiş suşların klonal olduğunu, yani monomorfik olduğunu varsayar. Bu varsayım De Boer tarafından incelendi. et al. [22], aslında büyük bir kısmının (%93) olduğunu göstermiştir. M. tüberküloz izolatlar IS kullanılarak monomorfiktir6110 işaretleyici olarak. Ayrıca, ikinci bir suşun tespit sınırlarının 0,1 ila 0,3 frekansları civarında olduğunu da gösterirler. Daha hassas araçlar ve rafine genotipleme prosedürlerinin daha fazla polimorfizm ortaya koyması muhtemeldir. Ancak mevcut bilgiler, organizmanın konakçılardaki popülasyonunu aşağıdaki aralıklar kullanılarak incelemek için kullanılabilir. saptanabilir polimorfizm. Bu bölümde, modellerden gelen tahminleri incelerken iki aralık dikkate alınacaktır: birincisi, 0,1 ila 0,9 ve ikincisi, 0,3 ila 0,7.

Polimorfizm argümanı, [22]'de rapor edilen izolatların, mutasyon-sürüklenme dengesindeki bir dizi popülasyondan rastgele bir örnek olarak görülebileceği varsayımına dayanır. İzolat, hastadan alınan bir hücre örneğini temsil ettiğinden, muhtemelen her zaman daha büyük konakçı popülasyondaki hücre çeşitliliğini yansıtmadığına dikkat edilmelidir. Bu nedenle, izolatlardan gözlemlenen polimorfizm veya heterojenlik, gerçek seviyelerin hafife alınmasıdır.

Wright [23] mutasyonlu ve iki alelli difüzyon modeli altında alel frekanslarının durağan olasılık dağılımını buldu. İzin vermek F(x) bu dağılımın olasılık yoğunluk fonksiyonu olsun ve F(x) kümülatif olasılık fonksiyonu olmak F(x) (Ek'e bakınız). Belirli bir popülasyonun (hastanın) frekanslar arasında olma olasılığı a ve B (nerede a <B) NS

Bu miktar alternatif olarak ( tarafından belirlenen saptama sınırlarına göre polimorfik olduğu gözlemlenen popülasyonların oranı olarak yorumlanabilir.bir, b).

İlk önce tarafsız durumu düşünün. Seçim olmadığında (s = 0), tarafından açıklanan dağılım f(x) bir Beta dağıtımıdır. Şekil 3, iki alternatif saptanabilir polimorfizm aralığı kullanılarak bir izolatın polimorfik bir popülasyon olarak puanlanma olasılığını gösterir (bir, b) = (0.1, 0.9) ve (0.3, 0.7) ve bir mutasyon oranı μ = Nesil başına hücre başına 7,9 × 10-4.

Seçimin yokluğunda polimorfizmi tespit etme olasılığı, bir fonksiyonu olarak n . İki farklı saptanabilir polimorfizm aralığı kullanıldı. Kesikli eğri: (0.1, 0.9) noktalı: (0.3, 0.7). Kullanırız μ = 7.9 × 10 -4 . Yatay çubuk, de Boer'den polimorfik popülasyonların (0.074) gözlemlenen fraksiyonunu gösterir. ve diğerleri. [22].

Ardından, seçimi içeren modeli düşünün. Tespit edilebilir iki polimorfizm aralığı için, Şekil 4 seçici katsayının nasıl olduğunu gösterir. s ve etkin nüfus büyüklüğü n polimorfizm gözlemleme olasılığı ile ilgilidir. Olarak s arttıkça, tahmin edilen polimorfizm, özellikle büyük n. Yine, gözlemlenen polimorfizm seviyesinin bir açıklaması sadece muhtemelen n son derece düşük olması.

Bir fonksiyonu olarak polimorfizm olasılığı s . Sol: algılama eşiği 0,3'e ayarlanır Sağ: algılama eşiği 0,1'e ayarlanır. Mutasyon oranı ayarlanır μ = 7.9 × 10 -4


Nötr bir alelin $p_0$ frekansından başlarken $p_1$ frekansına ulaşması için beklenen süre - Biyoloji

Popülasyon Genetiği (devamı)

Hardy-Weinberg varsayımlarını ihlal etmek (devamı)

Son dersi, rastgele olmayan çiftleşmenin nasıl genetik ve evrimsel değişim üretebileceğine dair bir tartışma ile bitirdim. Şimdi evrimsel değişimin diğer dört kuvvetinin her birini inceleyeceğiz - göç, mutasyon, sürüklenme ve seçilim.

Genetik Göç (yüksek gen akışı, popülasyonlar arasındaki benzerliği korur)

Genetik göç, genlerin bir popülasyondan diğerine kalıcı hareketi. Göç, genetik varyasyonu izole edilmiş ve farklılaşmış popülasyonlara geri yükleyebilir veya sık sık meydana geldiğinde popülasyonlar arasındaki varyasyonu azaltabilir. Genetik göçün kalıplarını ve önemini değerlendirmek (genellikle ""gen akışı"), popülasyon genetiğinin ana amaçlarından biridir. Yüksek gen akışı, popülasyonlar arasındaki genetik benzerliği sürdürme eğiliminde olacaktır. Örneğin bir popülasyonda mutasyon sonucu ortaya çıkan yeni aleller, bireyleri dağıtarak diğer popülasyonlara taşınacaktır.

Mutasyon (rastgele yeni genetik varyasyon kaynağı)

Mutasyon, vahşi tipten (ata alelinden) farklı bir gen veya kromozom seti üreten rastgele süreçtir. Mutasyon, yeni aleller üreterek bir popülasyondaki genetik varyasyonu geri yükler. Mutasyonun doğrudan ölçülmesi veya gözlemlenmesi zordur ve mutasyon oranları lokuslar arasında değişebilir. Bu genellikle zayıf bir kuvvettir ve bu nedenle popülasyonları Hardy-Weinberg dengesinden çok uzağa çekmeme eğilimindedir - yeterince uzun zaman periyotlarında, ancak zayıf bir kuvvetin bile büyük etkileri olabilir (örneğin, Büyük Kanyon'un erozyonu). Popülasyonlar coğrafi engellerle ayrıldığında, bağımsız mutasyonlar geliştirme eğiliminde olacaklar ve yeterince farklı mutasyon meydana gelirse, popülasyonlar farklı türler haline gelecek kadar farklılaşacaktır.

Sürüklenme (alel frekanslarını değiştirebilen ve alellerin sabitlenmesine veya kaybına yol açabilen rastgele bir genetik örnekleme süreci)

Şimdi başka bir rastgele kuvvete döneceğiz -- genetik sürüklenme. Çok büyük popülasyonlarda ihmal edilebilir bir etkiye sahip olmasına rağmen, genetik sürüklenme, küçük popülasyonlarda gen frekanslarının değiştirilmesinde büyük bir güç olabilir. Rastgele genetik sürüklenme, yavrularda ortaya çıkan genlerin ebeveyn genlerini tam olarak temsil etmemesi nedeniyle meydana gelen alel frekanslarındaki bir değişikliktir. Sürüklenme rastgele bir süreç olduğundan, sürüklenmenin sonuçları olasılıklar olarak ifade edilmelidir. Sürüklenme, popülasyon büyüklüğü ile ters orantılı bir oranda popülasyondaki genetik çeşitliliği ortadan kaldırır. Popülasyon büyüklüğü azaldıkça, sürüklenme kuvveti artar ve bunun tersi de geçerlidir. Sürüklenme ayrıca yeni mutasyonların hayatta kalma olasılığını da etkiler. Bir alelin fiksasyona geçme olasılığı, popülasyondaki frekansına eşittir -- 0,2 (%20) frekansına sahip bir alelin %20 fiksasyon şansı vardır. Mutasyonla ortaya çıkan yeni aleller neredeyse kaçınılmaz olarak düşük frekanslarda başlar ve düşük bir fiksasyon olasılığına sahiptir. Sürüklenme, nadir alellerin kaybına ve yaygın alellerin sabitlenmesine yol açabilir. Bununla birlikte, nüfus büyükse, sürüklenmenin çok az etkisi vardır. On farklı renkte bir milyon bilye içeren bir kavanoz düşünün. bir çizersek rastgele bir milyonluk numune (değiştirilerek) neredeyse kesinlikle tüm mermerleri orijinal oranlara çok benzer oranlarda içerecektir. Bununla birlikte, elimizde sadece 20 bilye varsa ve ikameli 20'lik bir örnek seçersek, büyük olasılıkla 10 renkten bazılarının eksik olması ve bazı renklerin fazla temsil edilmesi olasıdır. 100 kişilik bir popülasyondan örnekleme yapsak bile, orijinal popülasyonun oranlarını korumamız pek mümkün olmayacaktır -- benzer şekilde, sürüklenme popülasyon büyüklüğü ile ters orantılıdır -- büyük popülasyon, küçük sürüklenme, küçük popülasyon, büyük sürüklenme. Sürüklenme, nesli tükenmekte olan (neredeyse tanım gereği küçük) türler üzerinde büyük etkilere sahip olabilir. Diğer türler için, sürüklenmenin büyük etkilerinin olması uzun zaman alabilir (binlerce, yüz binlerce hatta milyonlarca yıl).

Şekil 35.1. Küçük bir popülasyonda (20 birey) hareket eden genetik sürüklenmenin bilgisayar simülasyonu. kaderi A alel (başlangıç ​​frekansları ile P = 0.2, üzerinde Y-axis), 100 nesillik bir zaman süreci için 20 bireyden oluşan beş tekrarlı popülasyonda gösterilir. x-eksen). Dikkat edin, eğer P 0'a düşer veya sonra 1.0'a yükselir Bir istek kaybolmak (0) veya ulaşmak sabitleme (1.0). [Sabitleme, bir popülasyondaki tüm bireylerin o alele sahip olduğu anlamına gelir - yani, o popülasyondaki o lokusta hiçbir genetik değişkenlik yoktur]. Bu frekanslar (0 ve 1.0) bu nedenle "soğurucu sınırlar" olarak adlandırılır. Frekanslar herhangi bir sınıra ulaştığında değişmezler (mutasyon başka bir alel eklemedikçe veya kayıp aleli "yeniden yaratmadıkça"). Ayrıca, genellikle rastgele süreçleri karakterize eden pürüzlü yörüngelere de dikkat edin.

Seleksiyon, çevreye veya çiftleşme başarısı elde etmeye daha uygun fenotiplerin farklı hayatta kalma ve üremesidir. Seleksiyon sorumlu olan evrimsel güçtür. adaptasyon çevreye. Seçim genellikle popülasyondan genetik varyasyonu ortadan kaldırır ("frekansa bağlı" veya "dengeleyici" seçim gibi bazen özel durumlar, varyasyonu koruyan kuvvetler olarak hizmet edebilir). Hayatta kalma veya üremede avantajlar sağlayan aleller, bir sonraki nesilde daha büyük oranda temsil edilme eğiliminde olacaktır. Sayısız nesilden sonra (gereken zaman, seçilimin yoğunluğuna ve özelliğin kalıtsallığına bağlı olacaktır), avantajlı alel fiksasyona yayılma eğiliminde olacaktır.

Güçler nasıl birleşir: Vaka geçmişi olarak Dodo

Rastgele olmayan çiftleşme, sürüklenme ve seçim genetik çeşitliliği azaltma eğilimindedir. Ne korur? -- mutasyon. Nötr genetik belirteçler (seçime tabi olmayan) için genellikle sürüklenme ve mutasyon arasındaki denge ve popülasyonlar arasında farklılaşmayı önleyen gen akışı seviyesi ile ilgileneceğiz. Küçük izole edilmiş popülasyonlar, onları başka yerlerdeki ilgili popülasyonlara bağlayacak gen akışına sahip olma eğiliminde olmayacaktır. Mutasyonları, genetik çeşitliliği artıracak veya sürdürecek, ancak bu mutasyonlar, ilgili popülasyonlarda ortaya çıkan mutasyonlardan farklı olacaktır. Son olarak, sürüklenmenin etkileri bazı alelleri rastgele sabitleme ve diğer alellerin kaybına neden olma eğiliminde olacaktır. Sonuç, çok farklı biçimlerin oldukça hızlı bir evrimi olabilir - Dodo (Alice Harikalar Diyarında'dan birçok kişiye aşinadır), Mauritius adasında (Madagaskar adasının çok dışında ve orada oldukça izole edilmiş) bulunan çok tuhaf görünümlü, uçamayan bir kuştu. Hint Okyanusu'nda). The Dodo was driven to extinction by overharvest and the introduction of domestic animals in the late 17th century. Recent genetic analyses confirm an earlier suspicion that the Dodo was an extremely divergent form of pigeon. Drift, selection, mutation and low gene flow all combined to cause it to become something that few would recognize as a relative of the familiar Rock Dove (city pigeon) or Mourning Dove.

Fig. 35.2. Artist's reconstruction of the Dodo, a large (> turkey-sized), flightless bird of Mauritius (Indian Ocean), driven to extinction in the late 17th century. Genetic analyses of dried tissue from the one (partial) specimen in the British Museum indicate that the Dodo is a type of pigeon. Mutations, low gene flow, natural selection, genetic drift and probably non-random mating likely all combined to cause the extreme divergence that separates this unusual bird from its closest mainland relatives. Other, usually slightly less dramatic, examples abound of the divergence of island populations from their mainland progenitors. In the Rocky Mountain west mountain chains may act as "islands" of habitat, creating the conditions for genetic divergence among populations on different mountain chains.

Measuring genetic variation in natural populations -- Heterozygosity (or gene diversity)

When we actually go out to assess genetic variability in natural populations, some of the first and most important measures we take are the observed and expected heterozygosities. These tell us how much variation exists in the population and how that variation is distributed across the alleles in the loci we are examining.

Heterozygosity is of major interest to students of genetic variation in natural populations. It is often one of the first "parameters" that one presents in a data set. It can tell us a great deal about the structure and even history of a population. Just for example, very low heterozygosities for allozyme loci in cheetahs and black-footed ferrets indicate severe effects of small population sizes (population bottlenecks or metapopulation dynamics that severely reduced the level of genetic variation relative to that expected or found in comparable mammals).

Several measures of heterozygosity exist. We will focus primarily on expected heterozygosity (HE, also written as Hexp and termed gene diversity by population geneticist Bruce Weir). The simplest way to calculate it for a single locus is as:

Expected heterozygosity is equal to one minus the expected homozygosity.

Why does it work to take the sum of the squared gene frequencies and subtract that from one? Let's think back to basic Hardy-Weinberg:

6 + 5 + 4 + 3 + 2 + 1 = 21 = [6*(6+1)]/2 or more generally

Eqn 35.3

Heterozygosity is maximal when the allele frequencies are equal. What does heterozygosity tell us and what patterns emerge as we go to multi-allelic systems? Let's take an example. Say P = Q = 0,5. The expected heterozygosity, Hexp, for a two-allele system is described by a concave down parabola that starts at zero (when P = 0) goes to a maximum at P = 0.5 and goes back to zero when P = 1.

Fig. 35.3. Expected heterozygosity (Hexp = 2pq) for a 2-allele system as a function of allele frequency, P. Note that the heterozygosity peaks at a value of 0.5, when the allele frequencies are equal (P=Q). It is minimal at both extremes -- in those cases everyone is a homozygote of one type or the other.

Individual’s-eye view of heterozygosity (Hexp = probability that an individual will be heterozygous)

Here is a way that I like to think of heterozygosity (Hexp ). It is the (expected) probability that an individual will be heterozygous at a given locus (or over the assayed loci for a multi-locus system). For many human microsatellite loci, for example, Hexp is often > 0.85, meaning that you have a > 85% chance of being a heterozygote.

From heterozygosity to F-statistics: a way of assessing genetic differences among populations.

Heterozygosity is one of the best ways to approach the analysis of differences among populations. We will use heterozygosities as the basis for calculating something called F-statistics. F-statistics are a general statistical tool for analyzing variances (variation in gene frequencies). They are not restricted to genetic applications. In the 1930's, however, Sewall Wright of the University of Chicago, pioneered their application to genetic studies of natural populations. With the rise of genetic laboratory techniques such as allozymes in the '60's and '70's, F-statistics became one of the fundamental tools of population genetics applied to natural populations.

Local (per subpopulation) F, with no subscript (or just one to denote the subpopulation):
Within a subpopulation, we can calculate the unsubscripted statistic, F, as the ratio of (the difference between expected and observed heterozygosity) to (expected heterozygosity). The general formula is:

Global (over a set of subpopulations) F-statistics, with two subscripts:
For a set of subpopulations for which we have genotypic information, we usually consider F-statistics to have three levels, each named by a different set of subscripts. These reflect three levels of biological organization, ben ndividuals, S ubpopulations, and the T otal population (a set of >= 2 subpopulations). We can assess heterozygosities at each of these levels and use them as the building blocks for creating levels of F-statistics. Here are the three levels. The first two are the most important:

FNS is sometimes called the inbreeding coefficient, It assesses global variation in benndividuals, relative to the variation in their Subpopulation.
Eğer FNS NS olumsuz, then the set of subpopulations, as a whole, is outbred (has an excess of heterozygotes).
Eğer FNS NS pozitif then the set of subpopulations, as a whole, is inbred (deficiency of heterozygotes).

FNS is probably the most important. It assesses the variation in the Subpopulations relative to that in the Total population.
It can have values between 0 and 1.0 (i.e., it cannot be negative).
FNS of zero means that all the subpopulations have the same gene frequencies.
FNS of 1.0 means that the subpopulations have completely nonoverlapping sets of alleles (the subpopulations are fixed for different alleles).
Natural populations tend to have FNS values that range between near zero up to just greater than 0.5.
Values of FNS above approximately 0.2 are considered "high".

FIT is relatively rarely used. It assesses the variation in benndividuals relative to the variation in the Total set of subpopulations.

In general, F-statistics can range from values of -1 to +1. As we saw above, FNS has a more restricted ranges of possible values (0 to 1).

To calculate the F-statistics above we use three kinds of heterozygosity values.

Hben is the average observed heterozygosity in individuals.

HS is the expected heterozygosity (gene diversity) of subpopulations, calculated as the weighted average across a set of subpopulations.
We use Eqn 35.1 to calculate the expected heterozygosity in each subpopulation, then weigh the results by the subpopulation sizes

HT is the expected heterozygosity over the whole set of populations.
We use the global gene (allele) frequencies and then plug them in to Eqn 35.2 to calculate it.

I have set up a complete worked example of calculating gene frequencies, observed versus HWE expected genotypic counts, heterozygosities, and F-statistics on a separate web page. The example is a two-allele, three population case. You will calculate the same sets of statistics for a three-allele, four-population case in Homework 8.


Sonuçlar

In conclusion, our study demonstrates that the frequency and haplotype distribution of Neandertal-like sites can be used in a neutral simulation framework that accounts for local genomic context to investigate the history of selection at a candidate locus for which genome-wide tests of selection provide ambiguous results. When combined with functional data, our results provide the strongest evidence to date in support of adaptive introgression in the OAS region. More generally, our study raises the possibility that adaptive introgression might not necessarily occur to select newly introduced variants but rather as a means to resurrect adaptive variation in modern human populations that had been lost due to demographic events.


Yöntemler

Modeli

We consider a discrete-time version of a model with migration and selection at two biallelic loci (Bürger and Akerman 2011). Individuals are monoecious diploids and reproduce sexually. Soft selection occurs at the diploid stage and then a proportion m (0 < m < 1) of the island population is replaced by immigrants from the continent (Haldane 1930). Migration is followed by gametogenesis, recombination with probability r (0 ≤ r ≤ 0.5), and random union of gametes including population regulation. Generations do not overlap.

We denote the two loci by A and B and their alleles by A1 ve A2, ve B1 ve B2, sırasıyla. Locus A is taken as the focal locus and locus B as background locus. The four haplotypes 1, 2, 3, and 4 are A1B1, A1B2, A2B1, ve A2B2. On the island, the frequencies of A1 ve B1 NS P ve Q, and the linkage disequilibrium is denoted by NS (see Supporting Information, File S1, sect.1, for details).

Biological scenario

We assume that the population on the continent is fixed for alleles A2 ve B2. The island population is of size n and initially fixed for A2 at locus A. At locus B, the locally beneficial allele B1 has arisen some time ago and is segregating at migration–selection balance. Then, a weakly beneficial mutation occurs at locus A, resulting in a single copy of A1 on the island. Its fate is jointly determined by direct selection on locus A, linkage to the selected locus B, migration, and random genetic drift. Eğer A1 occurs on the beneficial background (B1), the fittest haplotype is formed and invasion is likely unless recombination transfers A1 to the deleterious background (B2). Eğer A1 initially occurs on the B2 background, a suboptimal haplotype is formed (A1B2 Equation 1 below) and A1 is doomed to extinction unless it recombines onto the B1 background early on. These two scenarios occur proportionally to the marginal equilibrium frequency q ^ B of B1. Overall, recombination is therefore expected to play an ambiguous role.

Two aspects of genetic drift are of interest: random fluctuations when A1 is initially rare and random sampling of alleles between successive generations. In the first part of the article, we focus exclusively on the random fluctuations when A1 is rare, assuming that n is so large that the dynamics is almost deterministic after an initial stochastic phase. In the second part, we allow for small to moderate population size n on the island. The long-term invasion properties of A1 are expected to differ in the two cases (Ewens 2004, pp. 167�). İle birlikte n sufficiently large and parameter combinations for which a fully polymorphic internal equilibrium exists under deterministic dynamics, the fate of A1 is decided very early on. If it survives the initial phase of stochastic loss, it will reach the (quasi-) deterministic equilibrium frequency and stay in the population for a very long time (Petry 1983). This is what we call invasion, or establishment. Extinction will finally occur, because migration introduces A2, Ama değil A1. Yet, extinction occurs on a timescale much longer than is of interest for this article. For small or moderate n, however, genetic drift will cause extinction of A1 on a much shorter timescale, even for moderately strong selection. In this case, stochasticity must be taken into account throughout, and interest shifts to the expected time A1 spends in a certain range of allele frequencies (sojourn time) and the expected time to extinction (absorption time).

As an extension of this basic scenario, we allow the background locus to be polymorphic on the continent. Allele B1 is assumed to segregate at a constant frequency QC. This reflects, for instance, a polymorphism maintained at drift–mutation or mutation–selection balance. It could also apply to the case where the continent is a metapopulation or receives migrants from other populations. A proportion QC of haplotypes carried by immigrants to the focal island will then be A2B1, and a proportion 1 − QC will be A2B2.

Fitness and evolutionary dynamics

We define the relative fitness of a genotype as its expected relative contribution to the gamete pool from which the next generation of zygotes is formed. Kullanırız wij for the relative fitness of the genotype composed of haplotypes ben ve J (ben, J ∈ <1, 2, 3, 4>). Ignoring parental and position effects in heterozygotes, we distinguish nine genotypes. We then have wij = wji for all benJ ve w23 = w14.

The extent to which analytical results can be obtained for general fitnesses is limited (Ewens 1967 Karlin and McGregor 1968). Unless otherwise stated, we therefore assume absence of dominance and epistasis, yani, allelic effects combine additively within and between loci. The matrix of relative genotype fitnesses wij (Equation 27 in File S1) may then be written as

nerede a ve B are the selective advantages on the island of alleles A1 ve B1 relative to A2 ve B2, sırasıyla. To enforce positive fitnesses, we require that 0 < a, B < 1, and a + B < 1. We assume that selection in favor of A1 is weaker than selection in favor of B1 (a < B). Aksi halde, A1 could be maintained in a sufficiently large island population independently of B1, whenever B1 is not swamped by gene flow (Haldane 1930). As our focus is on the effect of linkage on establishment of A1, this case is not of interest.

The deterministic dynamics of the haplotype frequencies are given by the recursion equations in File S1, Equation 28 (see also File S2). A crucial property of these dynamics is the following. Whenever a marginal one-locus migration–selection equilibrium EB exists such that the background locus B is polymorphic and locus A is fixed for allele A2, this equilibrium is asymptotically stable. After occurrence of A1, EB may become unstable, in which case a fully polymorphic (internal) equilibrium emerges and is asymptotically stable, independently of whether the continent is monomorphic (QC = 0) or polymorphic (0 < QC < 1) at the background locus. Therefore, in the deterministic model, invasion of A1 üzerinden EB is always followed by an asymptotic approach toward an internal equilibrium (see File S1, sect. 3 and 6).

Casting our model into a stochastic framework is difficult in general. By focusing on the initial phase after occurrence of A1, the four-dimensional system in Equation 28 can be simplified to a two-dimensional system (Equation 29 in File S1). This allows for a branching-process approach as described in the following.

Two-type branching process

As shown in File S1, sect. 2, for rare A1, we need to follow only the frequencies of haplotypes A1B1 ve A1B2. This corresponds to A1 initially occurring on the B1 veya B2 background, respectively, and holds as long as A1 is present in heterozygotes only. Moreover, it is assumed that allele B1 is maintained constant at the marginal one-locus migration–selection equilibrium EB of the dynamics in Equation 28. At this equilibrium, the frequency of B1 NS

for a monomorphic continent (see File S1, sect. 3, for details, and Equation 39 for a polymorphic continent).

To model the initial stochastic phase after occurrence of A1 for large n, we employed a two-type branching process in discrete time (Harris 1963). We refer to haplotypes A1B1 ve A1B2 as types 1 and 2, respectively. They are assumed to propagate independently and contribute offspring to the next generation according to type-specific distributions. We assume that the number of J-type offspring produced by an ben-type parent is Poisson-distributed with parameter λij (ben ∈ <1, 2>). Because of independent offspring distributions, the probability-generating function (pgf) for the number of offspring of any type produced by an ben-type parent is f i ( s 1 , s 2 ) = ∏ j = 1 2 f i j ( s j ) , where FbenJ(sJ) = eλbenJ(1−sJ) for ben, J ∈ <1, 2>(File S1, sect. 4). NS λij depend on fitness, migration, and recombination and are derived from the deterministic model (Equation 33 in File S1). The matrix L = (λij), ben, J ∈ <1, 2>, is called the mean matrix. Allele A1 has a strictly positive invasion probability if ν > 1, where ν is the leading eigenvalue of L. The branching process is called supercritical in this case.

We denote the probability of invasion of A1 conditional on initial occurrence on background B1 (B2) by π1 (π2), and the corresponding probability of extinction by Q1 (Q2). The latter are found as the smallest positive solution of


Estimation of the Mean and Variance of Selection Intensity

Results from hundreds of single-sample studies in molecular population genetics suggest that the intensity of directional selection operating at the single-nucleotide level is often on the order of the reciprocal of ne or a factor several-fold larger. Selection coefficients at the nucleotide level >0.01 are exceedingly rare in studies of natural populations, and as these only induce an ∼ 1 % change in allele frequency per generation, the challenges in estimating selection at the DNA level with temporal data are clear. An additional issue (aside from possible contributions from nonselective forces) is that temporal changes in allele frequencies may result from direct selection on the nucleotide site of interest or indirectly from selection operating on adjacent sites in linkage disequilibrium. Thus, the best that we can hope to achieve with a temporal survey is a measure of the net strength of selection operating on a site.

Estimation of Mean Selection Coefficients

An efficient means of estimating μs for a nucleotide site is to perform a least-squares regression of ζT on time. Allowing for both selection and drift in a Wright–Fisher framework, followed by random sampling, computer simulations indicate that the regression coefficients provide unbiased estimates of μs over reasonable sample sizes and allele frequencies, so long as selection is strong enough to dominate random genetic drift ( fig. 2, left). Negative bias occurs, independent of the experimental duration and sample size, when N e s p 0 < 1 , consistent with the view that selection operates in nearly deterministic fashion only after an allele frequency exceeds 1 / ( N e s ) ( Walsh and Lynch 2018, chapter 7), as assumed in equation (9b). In principle, a more elaborate expression for allele-frequency change that allows for the influence of drift might be developed, but this would require an estimate of N e .

—(Left) Mean estimates of the selection coefficient s obtained from the least-squares regression approach. Each point is the average of the results from 10 7 simulations based on Wright–Fisher allele-frequency dynamics incorporating selection and drift, followed by random sampling of n = 100 diploid individuals at each sampling point. Black symbols are for effective population size N e = 10 4 ⁠ , and red for N e = 10 6 ⁠ , and results are reported for a range of starting allele frequencies, P0. The horizontal dashed lines denote the expectations for four evaluated selection coefficients (with temporal variance, σ s 2 ⁠ , equal to zero), and the different symbols denote experiments of different durations (T). (Right) Sampling standard deviations for estimates of s for the case of σ s 2 = 0 ⁠ , from simulations as noted above for three values of ne, four of s, and a sample size of 100, compared with the theoretical expectation, equation (10). The diagonal dashed line denotes points of perfect agreement, and many symbols cannot be seen as they overlie each other on this line.

—(Left) Mean estimates of the selection coefficient s obtained from the least-squares regression approach. Each point is the average of the results from 10 7 simulations based on Wright–Fisher allele-frequency dynamics incorporating selection and drift, followed by random sampling of n = 100 diploid individuals at each sampling point. Black symbols are for effective population size N e = 10 4 ⁠ , and red for N e = 10 6 ⁠ , and results are reported for a range of starting allele frequencies, P0. The horizontal dashed lines denote the expectations for four evaluated selection coefficients (with temporal variance, σ s 2 ⁠ , equal to zero), and the different symbols denote experiments of different durations (T). (Right) Sampling standard deviations for estimates of s for the case of σ s 2 = 0 ⁠ , from simulations as noted above for three values of ne, four of s, and a sample size of 100, compared with the theoretical expectation, equation (10). The diagonal dashed line denotes points of perfect agreement, and many symbols cannot be seen as they overlie each other on this line.

In practical applications, one would ordinarily accept the estimate of the sampling variance of the regression coefficient from direct statistical analysis, but the expectation given by equation (10) provides insight into the optimal design of sampling schemes for estimating μ s . Regardless of the average strength of selection, provided T σ s 2 is small relative to the sampling variance of ζ, için T > 10 or so, the sampling variance of s ^ is inversely related to the product of the sample size and the cube of the number of temporal samples. Thus, for a fixed investment in the total amount of genotyping that can be done, which is proportional to Tn, there is a very strong premium on extending the experiment in time, as the expected standard error of s ^ will be inversely proportional to 1 / T ⁠ .

One can go further and consider the overall design necessary to detect a nucleotide with mean selection coefficient μ s . Assuming σ s 2 is small relative to the sampling-error term in equation (10), which seems likely for most reasonable scenarios, the minimum sampling variance reduces to ≃ 6 / [ T 3 n p 0 ( 1 − p 0 ) ] . To detect a selection coefficient at the 5% significance level, one then requires 24 / [ T 3 n p 0 ( 1 − p 0 ) ] < μ s 2 . The greatest power is achieved with high allele frequencies, so letting p 0 = 0.5 , the critical value for detection in this case is T 3 n = 96 / μ s 2 ⁠ , which implies T 3 n > 10 6 for μ s = 0.01 , and > 10 8 for μ s = 0.001. Assuming a moderate sample size of n = 100, the critical experimental durations in these two cases become 21 and 100 consecutive generations of allele-frequency estimation. For a rarer allele with frequency p 0 = 0.1 , these critical values become 2.8 × larger.

The key point here is that when selection is weak, as is generally the case at the nucleotide level, its detection using temporal series of data demands very long surveys. Increasing the sample size helps, but in expanding n to 1,000, the above critical T values decline by only ∼ 50 % , and temporal variance in the selection coefficient will make such an enterprise more demanding. If one simply desires an estimate of the average absolute value of μs over a large sample of sites (e.g., particular sites within codons at particular frequencies), the sampling variance of the mean estimate is given by equation (10) divided by the number of sites jointly evaluated.

The minimum improvement gained by the full survey is therefore a reduction in the standard error of the estimate s ^ by a factor of ( T / 6 ) 1 / 2 ⁠ , that is, 2 × with T = 24, and 4 × with T = 96. In the limit of weak selection and/or short survey duration, such that p 0 ( 1 − p 0 ) ≃ p T ( 1 − p T ) , the inflation in sampling variance with the simpler method is a factor of ≃ T / 3 , whereas as the allele frequency approaches loss or fixation, that is, p T ( 1 − p T ) → 0 , the inflation factor can exceed T.

Equation (10) can also be used to evaluate the consequences of more intermediate sampling schemes. Rather than sampling each of ( T + 1 ) consecutive generations, one could skip various generations, so that the duration of each sampling interval is NS (rather than 1 or T) generations. The expected sampling variance of s ^ is then obtained by dividing equation (10) by NS and substituting the number of multigenerational time intervals, T ′ ⁠ , for T. İçin T divisible by NS, the inflation in the sampling standard error is ≃ D . As an example, for a full survey with T = 49 and NS = 1, from equation (10), the expected sampling variance is ≃ 0.000050 / [ n p 0 ( 1 − p 0 ) ] . Keeping n p 0 ( 1 − p 0 ) constant, and reducing the overall effort by half by skipping single generations, T ′ = 24 and NS = 2, and the expected inflation of the standard error of s ^ is 1.5 × ⁠ . With T ′ = 12 and NS = 4 (skipping periods of three generations), the expected inflation is 2.1 × ⁠ , and with T ′ = 6 and NS = 8, the expected inflation is 2.6 × ⁠ . From equation (13), the expected inflation in the extreme case of sampling at just the starting and ending points (equivalent to a 25-fold reduction in effort) is ∼ T / 3 = 2.9. The key point here is that, for a given total survey duration, the improvement in the accuracy of estimation of μs with increased frequency of sampling is relatively small compared with the increase in effort.

Estimator for the Variance of Selection Coefficients

Solving equations (16 and 19), and applying to equation (15) then provides an estimate of the variance in the selection coefficient for a nucleotide site.

Computer simulations incorporating generational episodes of selection and random genetic drift, with μ s = 0 , were used to determine the bias and sampling error associated with this estimator of σ s 2 ( fig. 3). Two points are immediately apparent. First, the estimates for σ s 2 tend to be downwardly biased, particularly when initial allele frequencies are low and sample sizes are on the order of 100 or smaller. This bias becomes negligible when sample sizes are as large as 1,000. However, even in the latter case, and even for the long experimental durations illustrated, an unbiased estimate of σ s 2 cannot be achieved if σ s 2 < 10 − 4 . Given that the latter implies a standard deviation of s of 0.01, which may be beyond what operates at most nucleotide sites, the implication is that achieving accurate estimates of σ s 2 at single-nucleotide sites is nearly unattainable without enormous sample sizes and survey durations.

—Mean and CV of estimates of σ s 2 for series of samples taken at T + 1 consecutive time points, each involving sample sizes of n = 100 or 1,000 diploid genomes. Results are given for a range of initial allele frequencies, each based on 10 6 simulations with an effective population size of 10 8 individuals, ensuring essentially no genetic drift on the time scale of the analyses, and mean selection coefficient μ s = 0.0. Closed points refer to situations in which σ s 2 = 10 − 3 ⁠ , whereas open points are for σ s 2 = 10 − 4 . Data points are excluded for some cases at low allele frequencies where the mean estimates of σ s 2 were negative.

—Mean and CV of estimates of σ s 2 for series of samples taken at T + 1 consecutive time points, each involving sample sizes of n = 100 or 1,000 diploid genomes. Results are given for a range of initial allele frequencies, each based on 10 6 simulations with an effective population size of 10 8 individuals, ensuring essentially no genetic drift on the time scale of the analyses, and mean selection coefficient μ s = 0.0. Closed points refer to situations in which σ s 2 = 10 − 3 ⁠ , whereas open points are for σ s 2 = 10 − 4 . Data points are excluded for some cases at low allele frequencies where the mean estimates of σ s 2 were negative.

Second, of even greater concern is the coefficient of variation (CV) of estimates of σ s 2 ⁠ , which is virtually always >1.0 and often as high as 500. With a sampling CV of 1.0, if one wanted an average estimate of σ s 2 pooled over sites to have a standard error <0.1 of the mean, 100 sites would need to be pooled, and with a per-site sampling CV of 500, this same level of accuracy would require the pooling of 25,000,000 sites.


Expected time for a neutral allele to reach a frequency of $p_1$ when starting at frequency $p_0$ - Biology

Sickle Cell Anemia: A Balanced Polymorphism

The sickle cell allele (S) of the gene for hemoglobin causes red blood cells to collapse.

In areas with a high incidence of malaria, heterozygous carriers of the sickle cell allele become more frequent with age, suggesting that selection favors them.

"The ratio of the frequency of the sickle-cell trait carriers among newborns to that among reproducing adults should, in fact, supply a direct estimate of the fitness of the normal homozygote relative to that of the heterozygote."

Cavalli-Sforza & Bodmer (1971) The Genetics of Human Populations.

W AA =0.85 W AS =1

Individuals who are homozygous for sickle cell (SS) are subject to episodes of severe anemia and tend to die at an early age (W SS is near 0).

In areas where malaria is common, what is the expected frequency of the sickle cell allele?

Fundamental Theorem of Natural Selection.

"The rate of increase in fitness of any organism at any time is equal to its genetic variance in fitness at that time."

-- Fisher (1930) The Genetical Theory of Natural Selection

"Against the rate of progress in fitness must be set off, if the organism is, properly speaking, highly adapted to its place in nature, deterioration due to undirected changes either in the organism [mutations], or in its environment [geological, climatological, or organic]."

-- Fisher (1930) The Genetical Theory of Natural Selection

Fixation of Adaptive Mutations

Paquin & Adams (1983) studied haploid and diploid populations of yeast to estimate the relative rate that beneficial mutations would arise in an asexual population of each type.

Populations were kept in a chemostat (a fairly constant environment) at a population size of about 5 billion.

Initially, the population was started from a single clone (one genotype).

A neutral marker, canavanine resistance then increased in frequency due to mutation pressure alone (amino acid mutation rate = 10 -7 ), although the mutations always remained low in frequency ( -5 ) during the hundreds of generations of the experiment.

When a beneficial mutation occurred, it was most likely to arise in a canavanine sensitive cell.

The beneficial mutation would then sweep through the population. Canavanine sensitivity would "hitch-hike" along, driving back down the frequency of canavanine resistance.

"Adaptive mutations are shown to have a higher frequency of fixation in evolving diploid than in evolving haploid populations of the yeast Saccharomyces cerevisiae, providing direct evidence that it may be an evolutionary advantage to be diploid." (Paquin & Adams 1983)

[A further experiment by Adams et al (1985)] provides additional evidence that an adaptive strain is not always derived from the previous one. For example, adaptive strain 3 in the haploid cells could have an advantage over strain 2 because of a released toxin and strain 4 could be a derivative of 2 which is resistant to this toxin."

Dykhuizen (1990) Experimental Studies of Natural Selection in Bacteria

We therefore cannot yet tell whether the haploid or the diploid strain had a higher frequency of fixation of adaptive mutations.

These conclusions come directly from applying the population genetic model of selection to the experimental results.

These projections fall short of the recent estimates of the US population size, which exceed the estimated carrying capacity of the US (197 million).

One likely explanation is that agricultural and technological advances have led to an increased carrying capacity, extending the growth phase of the human population.


12864_2008_2065_MOESM1_ESM.jpeg

Additional file 1:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 1.(JPEG 147 KB)

12864_2008_2065_MOESM2_ESM.jpeg

Additional file 2:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 2.(JPEG 140 KB)

12864_2008_2065_MOESM3_ESM.jpeg

Additional file 3:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 3.(JPEG 141 KB)

12864_2008_2065_MOESM4_ESM.jpeg

Additional file 4:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 4.(JPEG 131 KB)

12864_2008_2065_MOESM5_ESM.jpeg

Additional file 5:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 5.(JPEG 130 KB)

12864_2008_2065_MOESM6_ESM.jpeg

Additional file 6:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 6.(JPEG 144 KB)

12864_2008_2065_MOESM7_ESM.jpeg

Additional file 7:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 7.(JPEG 131 KB)

12864_2008_2065_MOESM8_ESM.jpeg

Additional file 8:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 8.(JPEG 138 KB)

12864_2008_2065_MOESM9_ESM.jpeg

Additional file 9:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 9.(JPEG 122 KB)

12864_2008_2065_MOESM10_ESM.jpeg

Additional file 10:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 10.(JPEG 137 KB)

12864_2008_2065_MOESM11_ESM.jpeg

Additional file 11:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 11.(JPEG 138 KB)

12864_2008_2065_MOESM12_ESM.jpeg

Additional file 12:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 12.(JPEG 119 KB)

12864_2008_2065_MOESM13_ESM.jpeg

Additional file 13:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 13.(JPEG 129 KB)

12864_2008_2065_MOESM14_ESM.jpeg

Additional file 14:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 14.(JPEG 123 KB)

12864_2008_2065_MOESM15_ESM.jpeg

Additional file 15:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 15.(JPEG 119 KB)

12864_2008_2065_MOESM16_ESM.jpeg

Additional file 16:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 16.(JPEG 127 KB)

12864_2008_2065_MOESM17_ESM.jpeg

Additional file 17:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 17.(JPEG 122 KB)

12864_2008_2065_MOESM18_ESM.jpeg

Additional file 18:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 18.(JPEG 111 KB)

12864_2008_2065_MOESM19_ESM.jpeg

Additional file 19:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 19.(JPEG 112 KB)

12864_2008_2065_MOESM20_ESM.jpeg

Additional file 20:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 20.(JPEG 121 KB)

12864_2008_2065_MOESM21_ESM.jpeg

Additional file 21:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 21.(JPEG 104 KB)

12864_2008_2065_MOESM22_ESM.jpeg

Additional file 22:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 22.(JPEG 116 KB)

12864_2008_2065_MOESM23_ESM.jpeg

Additional file 23:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 23.(JPEG 104 KB)

12864_2008_2065_MOESM24_ESM.jpeg

Additional file 24:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 24.(JPEG 113 KB)

12864_2008_2065_MOESM25_ESM.jpeg

Additional file 25:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 25.(JPEG 98 KB)

12864_2008_2065_MOESM26_ESM.jpeg

Additional file 26:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 26.(JPEG 106 KB)

12864_2008_2065_MOESM27_ESM.jpeg

Additional file 27:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 27.(JPEG 100 KB)

12864_2008_2065_MOESM28_ESM.jpeg

Additional file 28:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 28.(JPEG 101 KB)

12864_2008_2065_MOESM29_ESM.jpeg

Additional file 29:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome 29.(JPEG 99 KB)

12864_2008_2065_MOESM30_ESM.jpeg

Additional file 30:Plots for Angus and Holstein examining the frequency of the derived allele and Fst in relation to genomic position for chromosome X.(JPEG 109 KB)


Videoyu izle: Dünya: Bir gezegenin oluşumu - Türkçe Belgesel - HD (Temmuz 2022).


Yorumlar:

  1. Dougul

    Bu ve benimle. Bu konuda iletişim kurabiliriz.

  2. Macnair

    Haklı olmadığınızı düşünüyorum. eminim. tartışılmasını öneriyorum. PM'den yaz, konuşuruz.

  3. Meztigul

    lütfen detay verin

  4. Aren

    Muhtemelen.

  5. Ommar

    Tabii ki, bu konuda çok iyi bilgili değilim, arabaları daha çok seviyorum, ama yeni bir şey öğrenmek için asla çok geç değil))



Bir mesaj yaz