Web sitesi Curl'den doğrudan erişimi engelliyor gibi görünüyor.Canlı Olimpiyat Madalyası Verilerini R
library(XML)
library(RCurl)
theurl <- "http://www.london2012.com/medals/medal-count/"
page <- getURL(theurl)
page # fail
[1] "<HTML><HEAD>\n<TITLE>Access Denied</TITLE>\n</HEAD><BODY>\n<H1>Access Denied</H1>\n \nYou don't have permission to access \"http://www.london2012.com/medals/medal-count/\" on this server.<P>\nReference #18.358a503f.1343590091.c056ae2\n</BODY>\n</HTML>\n"
Doğrudan Tablodan erişip erişemeyeceğimizi görmeye çalışalım.
page <- readHTMLTable(theurl)
orada Ar içine bu tabloyu alma hakkında gitmek nasıl Error in htmlParse(doc) : error in creating parser for http://www.london2012.com/medals/medal-count/
Olmuyor mu?
Güncelleme: Yorumlara ve tokatlamaya yanıt olarak, içeriği almak için bir kullanıcı aracısı dizesini taklit ederek çalıştı. Ancak readHTMLtable bir hata döndürür. Bu biçimde
page <- getURLContent(theurl, useragent="Mozilla/5.0 (Windows NT 6.1; rv:15.0) Gecko/20120716 Firefox/15.0a2")
Lynx yanı bloke gibi görünüyor. –
Sayfa Firefox'ta yüklendiğinden, kaynağı görüntüleyin ve diske kaydedin? –
getURL ile verileri almak için çalışan bir yanlış kullanıcı aracı dizesi belirtebilirsiniz. Ama readHTMLTable hala güzel bir şekilde kaka değil. Bir hata döndürür ('isim (ans) 'deki hata = üstbilgi:' isimler 'özniteliği [13] vektör [7]' ile aynı uzunlukta olmalıdır) nasıl hata ayıklayacağından emin değil. –