2012-02-14 42 views
8

İnternetten bir pdf dosyası indirip yerel HD kalitesinde kaydetmek istiyorum. İndirildikten sonra, pdf çıktı dosyasının çok sayıda boş sayfa var. Düzeltmek için ne yapabilirim?ile ilgili sorunlar Pdf dosyası indirme ile ilgili sorunlar R

Örnek: Önceden

require(XML) 
url <- ('http://cran.r-project.org/doc/manuals/R-intro.pdf') 
download.file(url, 'introductionToR.pdf') 

teşekkürler. Böyle wb-modu ile

+2

Ben kopyalanan ve kodunuzu yapıştırılan ve olması gerektiği gibi 109 sayfa belge var tabulizer kullanarak data.frame olarak pdfs ve ihracat tabloları indirebilirsiniz. Belki de PDF görüntüleyicinizle ilgili bir sorun mu var? – vaettchen

+0

benim için iyi çalışıyor. (R 2.14.1, Linux) 'sessionInfo()' nin sonuçlarını yayınlayabilir misiniz? Bu oldukça basit bir işlevsellik olduğu için bir görüntüleyici veya başka bir işletim sistemi sorunu gibi görünüyor ...) Bu arada, siz Bunun için 'xml' paketine gerek duyulmuyor -' download.file', R –

+0

PS'nin bir parçasıdır. Windows üzerinde olduğunuzu tahmin ediyorum: "? Download.file" diyor ki: "İkili dosyaları indirmek için yazılan kod" mode = "wb" yi kullanmalıdır, ancak bir metin aktarımının neden olduğu problemler sadece Windows'ta görülecektir. " –

cevap

23

Dene:

download.file(url, 'introductionToR.pdf', mode="wb").

Benim için bu şekilde çalışır.

+1

Bu kadar! mod = 'wb' problemi çözdü. Teşekkürler! – Diogo

+1

Bu cevap bana çok fazla iş kurtardı! (win OS'de) – userJT

+1

Bir açıklama eklemek için, 'mode =" wb "', dosyayı metin yerine ikili olarak işlemek işlevini belirtir. – Matt

-1

paketi

https://ropensci.org/tutorials/tabulizer_tutorial.html

install.packages("devtools") 
# on 64-bit Windows 
ghit::install_github(c("ropenscilabs/tabulizerjars", "ropenscilabs/tabulizer"), INSTALL_opts = "--no-multiarch") 
# elsewhere 
ghit::install_github(c("ropenscilabs/tabulizerjars", "ropenscilabs/tabulizer")) 

library(tabulizer) 

f2 <- "https://github.com/leeper/tabulizer/raw/master/inst/examples/data.pdf" 
extract_tables(f2, pages = 1, method = "data.frame")