Biyoenformatik DNA Mikrodizi Veri Madenciliği
Bu kitap mikrodizi verisi üzerinde temel veri madenciliği analiz yöntemlerini uygulayarak, sınıflandırma ve kümeleme işlemlerinin nasıl yapılacağı ve birliktelik kurallarının nasıl elde edilebileceği konusunu ortaya koymak amacıyla hazırlanmıştır.
Mikrodizi analiz yöntemlerinin uygulanmasında R programlama dili yaygın biçimde kullanılmaktadır. Bu konuda araştırmacıların hazırladığı çok sayıda mikrodizi R paketi bulunmaktadır. Kitabımızda ele alınan veri madenciliği yöntemleri uygulamalarında R paketlerinden yararlanılmıştır. R diline alışkın olmayan okuyucular için kitabın birinci bölümü hazırlanmıştır. Bu bölümdeki bilgiler ele alınan uygulamaların anlaşılması açısından yeterli düzeydedir.
Kitabın ikinci bölümünde biyoloji konusunda eğitim almayan okuyucular için bazı temel bilgilere yer verilmiştir. Hücre bilgisi, DNA, RNA, protein ve kromozomlara ilişkin bilgilerin yanısıra bu kitapta yoğun biçimde kullanılan gen ifadesi kavramına açıklık kazandırılmaktadır. Bu bölümde mikrodizi teknolojilerinin neler olduğu hususuna değinilmektedir.
Üçüncü bölümde, mikrodizi veri yapıları üzerinde durularak yaygın biçimde kullanılan Affymetrix, Agilent ve Illumina platformlarında üretilen mikrodizi dosyaların, R ortamına nasıl yüklenebileceği ve kullanılabileceği konusu işlenmektedir.
Mikrodizi verilerinin analize tabi tutulabilmesi için bazı ön işlemlerden geçirilmesi gerekmektedir. Veri üzerindeki bozulmaların düzeltilmesi için arka plan düzeltme işlemleri yapılır. Bu işlemin ardından verinin normalize edilmesi söz konusudur. Affymetrix veri kümelerinde PM düzeltme aşaması gerçekleştirilir. Son olarak veri özetlenerek veri analizlerinde kullanılabilecek gen ifadeleri elde edilmektedir. Sözü edilen bu aşamalar dördüncü bölümde ayrıntılı biçimde incelenmektedir.
Beşinci bölümden itibaren veri madenciliği yöntemleri ele alınmaktadır. Veri madenciliği sürecinde verinin analizi için uygun hale getirilmesi gerekmektedir. Bu amaçla ön işleme yöntemleri uygulanır. Beşinci bölümde veri madenciliği ön işleme yöntemleri arasında yer alan ayrıklaştırma konusu ayrıntılı biçimde incelenmektedir. Bunun dışında nitelik seçme konusu gen seçimi kavramı içinde ele alınarak analiz edilmektedir.
Kitap içinde yer alan yöntemleri ortaya koymak amacıyla iki tür uygulama yapılmaktadır. Birinci tür uygulamalarda ele alınan bir algoritmayı açıklamaya yönelik az sayıda veriden oluşan bir veri kümesi ele alınmıştır. Sözü edilen veri kümeleri tarafımızdan oluşturulmuş, gerçek olmayan bir tür sanal veri kümeleridir. İkinci tür veri kümeleri ise R ortamında yaygın biçimde kullanılan gerçek veri kümeleridir. Bu veri kümeleri beşinci bölümde tanıtılmaktadır. Veri kümelerini Bioconductor ortamından seçmeye özen gösterdik.
Altıncı bölümde veri madenciliğinin sınıflandırma ile ilgili konusu ele alınarak çeşitli sınıflandırma algoritmalarına yer verilmiştir. Sınıflandırma ağaçlarının oluşturulması, veri madenciliğinde önemli bir konu olarak karşımıza çıkmaktadır. Entropi tabanlı sınıflandırma ağaçları arasında yer alan C4.5 algoritması bu bölümde yer almaktadır. Bu yöntemin dışında sınıflandırma ağaçları kapsamında Gini algoritması, Regresyon ağaçları ve Rastgele Orman algoritmasına da yer verilmiştir. Sözü edilen yöntemler dışında En yakın k-komşu algoritması, Bayes sınıflandırıcılar ve Destek Vektör Makineleri ile sınıflandırma ayrıntılı biçimde incelenmiştir.
Mikrodizi verisini gen anlatım düzeylerine göre gruplandırma veya bir başka deyişle kümeleme yaygın biçimde uygulanmaktadır. Kitabın yedinci bölümü mikrodizi verisine, veri madenciliğinin kümeleme algoritmalarının nasıl uygulanabileceği konusuna ayrılmıştır. Bu kapsamda hiyerarşik olan ve hiyerarşik olmayan kümeleme yöntemleri işlenmiştir. Hiyerarşik kümeleme yöntemleri arasında AGNES, DIANA, Ortalama Link, Ward ve Küme Merkezi; hiyerarşik olmayan yöntemler arasında K-ortalamalar, PAM ve CLARA algoritması ayrıntılı biçimde incelenmiştir.
Kitabın son bölümünü Birliktelik Kuralları konusu oluşturmaktadır. Olayların birlikte gerçekleşme durumlarını çözümleyen veri madenciliği yöntemlerine birliktelik kuralları XE "birliktelik kuralları" adını veriyoruz. Genlerin ifade düzeyleri göz önüne alındığında, birlikte hareket eden ve etmeyen genlerin belirlenmesi birliktelik kuralları algoritmaları ile sağlanabilir. Bu bölümde birliktelik kuralları konusu Apriori ve Eclat algoritmaları yardımıyla açıklanmaktadır.
- Açıklama
Bu kitap mikrodizi verisi üzerinde temel veri madenciliği analiz yöntemlerini uygulayarak, sınıflandırma ve kümeleme işlemlerinin nasıl yapılacağı ve birliktelik kurallarının nasıl elde edilebileceği konusunu ortaya koymak amacıyla hazırlanmıştır.
Mikrodizi analiz yöntemlerinin uygulanmasında R programlama dili yaygın biçimde kullanılmaktadır. Bu konuda araştırmacıların hazırladığı çok sayıda mikrodizi R paketi bulunmaktadır. Kitabımızda ele alınan veri madenciliği yöntemleri uygulamalarında R paketlerinden yararlanılmıştır. R diline alışkın olmayan okuyucular için kitabın birinci bölümü hazırlanmıştır. Bu bölümdeki bilgiler ele alınan uygulamaların anlaşılması açısından yeterli düzeydedir.
Kitabın ikinci bölümünde biyoloji konusunda eğitim almayan okuyucular için bazı temel bilgilere yer verilmiştir. Hücre bilgisi, DNA, RNA, protein ve kromozomlara ilişkin bilgilerin yanısıra bu kitapta yoğun biçimde kullanılan gen ifadesi kavramına açıklık kazandırılmaktadır. Bu bölümde mikrodizi teknolojilerinin neler olduğu hususuna değinilmektedir.
Üçüncü bölümde, mikrodizi veri yapıları üzerinde durularak yaygın biçimde kullanılan Affymetrix, Agilent ve Illumina platformlarında üretilen mikrodizi dosyaların, R ortamına nasıl yüklenebileceği ve kullanılabileceği konusu işlenmektedir.
Mikrodizi verilerinin analize tabi tutulabilmesi için bazı ön işlemlerden geçirilmesi gerekmektedir. Veri üzerindeki bozulmaların düzeltilmesi için arka plan düzeltme işlemleri yapılır. Bu işlemin ardından verinin normalize edilmesi söz konusudur. Affymetrix veri kümelerinde PM düzeltme aşaması gerçekleştirilir. Son olarak veri özetlenerek veri analizlerinde kullanılabilecek gen ifadeleri elde edilmektedir. Sözü edilen bu aşamalar dördüncü bölümde ayrıntılı biçimde incelenmektedir.
Beşinci bölümden itibaren veri madenciliği yöntemleri ele alınmaktadır. Veri madenciliği sürecinde verinin analizi için uygun hale getirilmesi gerekmektedir. Bu amaçla ön işleme yöntemleri uygulanır. Beşinci bölümde veri madenciliği ön işleme yöntemleri arasında yer alan ayrıklaştırma konusu ayrıntılı biçimde incelenmektedir. Bunun dışında nitelik seçme konusu gen seçimi kavramı içinde ele alınarak analiz edilmektedir.
Kitap içinde yer alan yöntemleri ortaya koymak amacıyla iki tür uygulama yapılmaktadır. Birinci tür uygulamalarda ele alınan bir algoritmayı açıklamaya yönelik az sayıda veriden oluşan bir veri kümesi ele alınmıştır. Sözü edilen veri kümeleri tarafımızdan oluşturulmuş, gerçek olmayan bir tür sanal veri kümeleridir. İkinci tür veri kümeleri ise R ortamında yaygın biçimde kullanılan gerçek veri kümeleridir. Bu veri kümeleri beşinci bölümde tanıtılmaktadır. Veri kümelerini Bioconductor ortamından seçmeye özen gösterdik.
Altıncı bölümde veri madenciliğinin sınıflandırma ile ilgili konusu ele alınarak çeşitli sınıflandırma algoritmalarına yer verilmiştir. Sınıflandırma ağaçlarının oluşturulması, veri madenciliğinde önemli bir konu olarak karşımıza çıkmaktadır. Entropi tabanlı sınıflandırma ağaçları arasında yer alan C4.5 algoritması bu bölümde yer almaktadır. Bu yöntemin dışında sınıflandırma ağaçları kapsamında Gini algoritması, Regresyon ağaçları ve Rastgele Orman algoritmasına da yer verilmiştir. Sözü edilen yöntemler dışında En yakın k-komşu algoritması, Bayes sınıflandırıcılar ve Destek Vektör Makineleri ile sınıflandırma ayrıntılı biçimde incelenmiştir.
Mikrodizi verisini gen anlatım düzeylerine göre gruplandırma veya bir başka deyişle kümeleme yaygın biçimde uygulanmaktadır. Kitabın yedinci bölümü mikrodizi verisine, veri madenciliğinin kümeleme algoritmalarının nasıl uygulanabileceği konusuna ayrılmıştır. Bu kapsamda hiyerarşik olan ve hiyerarşik olmayan kümeleme yöntemleri işlenmiştir. Hiyerarşik kümeleme yöntemleri arasında AGNES, DIANA, Ortalama Link, Ward ve Küme Merkezi; hiyerarşik olmayan yöntemler arasında K-ortalamalar, PAM ve CLARA algoritması ayrıntılı biçimde incelenmiştir.
Kitabın son bölümünü Birliktelik Kuralları konusu oluşturmaktadır. Olayların birlikte gerçekleşme durumlarını çözümleyen veri madenciliği yöntemlerine birliktelik kuralları XE "birliktelik kuralları" adını veriyoruz. Genlerin ifade düzeyleri göz önüne alındığında, birlikte hareket eden ve etmeyen genlerin belirlenmesi birliktelik kuralları algoritmaları ile sağlanabilir. Bu bölümde birliktelik kuralları konusu Apriori ve Eclat algoritmaları yardımıyla açıklanmaktadır.Stok Kodu:9786054220892Boyut:16x24Sayfa Sayısı:432Basım Tarihi:2015Kapak Türü:Karton KapakKağıt Türü:2. HamurDili:Türkçe
- Taksit Seçenekleri
- Taksit SayısıTaksit tutarıGenel ToplamTek Çekim312,00312,002165,36330,723112,32336,96658,76352,56941,25371,28Taksit SayısıTaksit tutarıGenel ToplamTek Çekim312,00312,002--3--6--9--
- Yorumlar
- Yorum yazBu kitabı henüz kimse eleştirmemiş.