Farklı popülasyonlardan genotipik bilgi içeren çok büyük bir veri kümem var. Verileri popülasyona göre sıralamak istiyorum ama nasıl olduğunu bilmiyorum.İlk 7 harfe dayanan veri/veri ayıklama verileri
"pedigree_dhl" ile sıralamak istiyorum. Aşağıdaki kodu kullanıyordum, ancak hata mesajları almaya devam ettim.
newdata <- project[pedigree_dhl == CCB133$*1, ]
Sorunum 'soy-dhl bireysel genotiplerin bütün isimleri içerdiğini, aynı zamanda. 'Pedigree-dhl' sütunundaki ilk 7 harf sadece nüfus ismidir. Bu örnekte: CCB133. R'ye, CCB133 içeren tüm sütunların verilerini ayıklamak istediğimi nasıl anlayabilirim?
Allele1 Allele2 SNP_name gs_entry pedigree_dhl
1 T T ZM011407_0151 656 CCB133$*1
2 T T ZM009374_0354 656 CCB133$*1
3 C C ZM003499_0591 656 CCB133$*1
4 A A ZM003898_0594 656 CCB133$*1
5 C C ZM004887_0313 656 CCB133$*1
6 G G ZM000583_1096 656 CCB133$*1
'substr', bir karakter vektörünün alt dizelerini çıkarmanızı sağlar. Sütunun aslında bir karakter vektörü olduğundan ve 'substr' kullanmadan önce bir faktör olmadığından emin olmak istersiniz veya beklenmeyen bazı sonuçlar alabilirsiniz. Alt kümeleme için, "R alt kümesi" için SO ara ve çok cevap bulacaksınız. 'Subset()' fonksiyonunun kendisi interaktif oturum için oldukça kullanışlıdır. – Chase