Bir RK'nin gayet iyi okuduğu bir CSV'de yabancı ülkelerden bir sürü yazar ismim var. Mekanik Türk'e yüklemek için onları temizlemeye çalışıyorum (ki bu gerçekten tek bir uluslararası karakterden bile hoşlanmıyor). Bunu yaparken, bir sorum (daha sonra yayımlanacaktır) var, ama ben bile dput
onları mantıklı bir şekilde olamaz: başarısız Başka bir deyişleUluslararasılaştırılmış metin nasıl doğru şekilde verilir?
> dput(df[306,"primauthfirstname"])
"Gwena\xeblle M"
> test <- "Gwena\xeblle M"
<simpleError in nchar(val): invalid multibyte string 1>
, dput
inşaat iyi ama sonuç yapıştırarak içinde . Neden dput
, R'ye yeniden kopyalamaya/yapıştırmaya izin vermek için gerekli bilgileri verir (muhtemelen tüm yapması gereken kodlama niteliklerini yapı ifadesine ekler?). Bunu nasıl yapacağım? \xeb
geçerli bir karakter kadarıyla R söz konusu olduğunda olduğuna
Not:
> gsub("\xeb","", turk.df[306,"primauthfirstname"])
[1] "Gwenalle M"
Ama tek tek karakterleri değerlendirmek olamaz - bu altıgen kod \ x ## ya da hiçbir şey:
> gsub("\\x","", turk.df[306,"primauthfirstname"])
[1] "Gwena\xeblle M"
Bu benim için iyi çalışıyor: '(test <-" Gwena \ xeblle M ")' verim [1] "Gwenaëlle M" '. R 2.14.0'ı LANG = en_US.UTF-8' ile kullanıyorum. –
@MichaelHoffman "LANG" parçası nedir? Nasıl kontrol ederim? –
Bu bir ortam değişkeni. Sys.getenv ("LANG") 'yi deneyin. Hangi R sürümünü kullanıyorsunuz? –