Bilgi

3.6: Doğrusal zamanlı dizi eşleştirmesi için ön işleme - Biyoloji

3.6: Doğrusal zamanlı dizi eşleştirmesi için ön işleme - Biyoloji


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

BLAST algoritmasının özündeki karma tekniği, hızlı arama için güçlü bir dize yöntemidir. Sorgu dizisi elde edildikten sonra, benzer şekilde işlenebilir ve parçaları, dizinlenmiş veritabanına karşı doğrusal zamanda aranabilir.

Bu bölümde, her biri hem pratik hem de teorik öneme sahip hızlı dizi araması için bir veritabanını önceden işlemenin dört ek yolunu kısaca açıklıyoruz.

Sonek Ağaçları

Son ek ağaçları, T'nin tüm son eklerini bir sayı tabanı ağacında yakalayarak, hedef dizi T'nin alt dizilerinin güçlü bir ağaç temsilini sağlar.

Bir sonek ağacında bir dizinin temsili

Bir sonek ağacına karşı yeni bir dizi arama

Sonek ağaçlarının doğrusal zamanlı yapısı

Sonek Dizileri

Birçok genomik uygulama için, sonek ağaçları bellekte saklanamayacak kadar pahalıdır ve daha verimli temsillere ihtiyaç duyulmuştur. Son ek dizileri, son ek ağaçlarının bellek tüketimini azaltmak ve önemli ölçüde azaltılmış alan ihtiyacı ile aynı hedeflere ulaşmak için özel olarak geliştirilmiştir.

Sonek dizilerini kullanarak, sıralı son ekler listesinde ikili arama yaparak herhangi bir alt dizi bulunabilir. Böylece her son ekin önekini keşfederek, tüm alt dizileri ararız.

Burrows-Wheeler Dönüşümü

Burrows-Wheeler Transform (BWT) tarafından sonek ağaçlarından daha verimli bir temsil sağlanır; bu, tüm karma dizenin orijinal dizeyle aynı sayıda karakterde (ve hatta sık homopolimer çalıştırmaları içerdiğinden daha kompakt bir şekilde) depolanmasını sağlar. daha kolay sıkıştırılabilen karakterler). Bu, daha da verimli çalışabilen programların yapılmasına yardımcı oldu.

İlk önce, bir sonek dizisinin bir uzantısı olan BWT matrisini ele alıyoruz, çünkü yalnızca tüm ekleri sıralı (sözlükbilimsel) sırayla içermekle kalmıyor, aynı zamanda i konumundan başlayarak her bir eke i − 1 konumunda biten öneki de ekliyor. böylece her satır orijinal dizenin tam bir dönüşünü içerir. Bu, sorgu dizesinde zaman doğrusal olarak eklerin konumunu bulmak için tüm sonek-dizi ve sonek-ağaç işlemlerini sağlar.

Sonek Dizilerinden temel fark, alan kullanımıdır; burada, sonek dizileri için bile çok pahalı olan tüm ekleri bellekte depolamak yerine, orijinal matrisin kurtarılabileceği temel alınarak BWT matrisinin yalnızca son sütunu depolanır.

İşleri daha da hızlandırmak ve değiştirilmiş sonek dizisindeki her karakterin ilk oluşumunu bulma işlemlerini tekrarlamaktan kaçınmak için yardımcı bir dizi kullanılabilir.

Son olarak, değiştirilmiş dizede (BTW matrisinin son sütunu) 100.000 alt dizenin konumu bulunduğunda, bu koordinatlar orijinal konumlara dönüştürülebilir ve birçok okuma boyunca dönüşümün maliyetini amorti ederek çalışma zamanından tasarruf sağlar. .

BWT'nin kısa dizi eşleştirme algoritmaları üzerinde çok güçlü bir etkisi oldu ve neredeyse en hızlı okuma eşleştiricilerinin tümü şu anda Burrows-Wheeler Dönüşümüne dayanıyor.

Temel ön işleme

Bu, teorik ilgiye sahip ancak biyoinformatikte nispeten az pratik kullanım bulan bir işleme çeşididir. Her i konumunda, aynı zamanda i'den başlayan alt dizeyle eşleşen bir dizenin en uzun önekinin uzunluğunu içeren Z vektörüne dayanır. Bu, geçerli konum i'yi içeren en uzun yinelenen alt dizilerin sonunu gösteren L ve R (Sol ve Sağ) vektörlerinin hesaplanmasını sağlar.

Eğitimli Dize Eşleştirme

Z algoritması, doğrusal zamanlı dizi eşleştirme için hem Boyer-Moore hem de Knuth-Morris-Pratt algoritmalarının kolay bir şekilde hesaplanmasını sağlar. Bu algoritmalar, dize eşleştirmesini iyileştirmek için dizeleri eşleştirirken her karşılaştırmada toplanan bilgileri kullanır. Açık). Saf algoritma şu şekildedir: m uzunluğundaki dizesini karakter karakter diziyle karşılaştırır. Tüm dizeyi karşılaştırdıktan sonra, herhangi bir uyumsuzluk varsa, bir sonraki dizine geçer ve tekrar dener. Bu ( O(m ∗ n) ) zamanında tamamlanır.
Bu algoritmadaki bir iyileştirme, bir uyumsuzluk bulunursa mevcut karşılaştırmayı durdurmaktır. Bununla birlikte, karşılaştırdığımız dize tüm diziyle eşleştiğinde, bu yine de ( O(m ∗ n) ) zamanında tamamlanır.

Anahtar içgörü, karşılaştırılacak dizideki dahili fazlalıktan öğrenmekten ve bunu hedef dizide daha büyük kaymalar yapmak için kullanmaktan gelir. Bir hata yapıldığında, bir sonraki karşılaştırma için düşünülen çerçeveyi daha aşağı taşımak için mevcut karşılaştırmadaki tüm bazlar kullanılabilir. Aşağıda görüldüğü gibi, bu gerekli karşılaştırma sayısını büyük ölçüde azaltır ve çalışma süresini ( O(n) ) değerine düşürür.


Videoyu izle: Doğrusal ve Doğrusal Olmayan Fonksiyonlar: Tablo Matematik. Cebir (Temmuz 2022).


Yorumlar:

  1. Akinomuro

    Bence haklı değilsin. Eminim. Kanıtlayabilirim. Bana PM'de yazın, tartışacağız.

  2. Aiken

    Bilmek istiyorum, bilgi için çok teşekkür ederim.

  3. Al-Fadee

    Mükemmel cevap

  4. Hanlon

    Bilgi için teşekkürler. Bunu bilmiyordum.

  5. Alvino

    Bence hatayı kabul ediyorsunuz. Bana PM'de yaz.



Bir mesaj yaz