2016-04-12 21 views
0

numaralı sütundaki sütunlara dönüştürün Mapceduce gerçekleştirmek için Wikipedia Veri Kümesini kullanıyorum. Kullanmakta olduğum veri kümesi (Vikipedi Wiki ad alanı) here'dan. BuSatırları

REVISION 724 234015 Wikipedia:Adding_Wikipedia_articles_to_Nupedia 2001-03-28T22:33:49Z ip:Larry_Sanger ip:Larry_Sanger 
CATEGORY 
IMAGE 
MAIN Larry_Sanger LMS Adding_Nupedia_articles_to_Wikipedia Jimbo_Wales Nupedia Wikipedia 
TALK 
USER 
USER_TALK 
OTHER 
EXTERNAL http://www.nupedia.com/write.shtml http://www.nupedia.com/policy.shtml http://www.nupedia.com/newsystem/signup.phtml http://www.nupedia.com/newsystem/writearticle.phtml?instr=on http://www.nupedia.com/editors.phtml 
TEMPLATE 
COMMENT * 
MINOR 0 
TEXTDATA 685 

REVISION 724 431753 Wikipedia:Adding_Wikipedia_articles_to_Nupedia 2002-05-19T17:36:09Z Eclecticology 372 
CATEGORY 
IMAGE 
MAIN Larry_Sanger LMS LMS Adding_Nupedia_articles_to_Wikipedia Jimbo_Wales Nupedia Wikipedia Mores Adding_Wikipedia_articles_to_Nupedia/Help 
TALK 
USER 
USER_TALK 
OTHER 
EXTERNAL http://www.nupedia.com/write.shtml http://www.nupedia.com/policy.shtml http://chalkboard.nupedia.com http://www.nupedia.com/newsystem/signup.phtml http://www.nupedia.com/newsystem/writearticle.phtml?instr=on http://www.nupedia.com/editors.phtml 
TEMPLATE 
COMMENT "mores" linked; -/Talk 
MINOR 1 
TEXTDATA 738 

Temelde tüm diğer detayları ile revizyonu bir set tek bir satırda olacak şekilde bir satıra her revizyon dönüştürmek istedikleri gibi bz2 dosyasında veridir. this'a benzer bir şey izlemeye çalıştım ama çalışmıyor. Birisi bana nasıl gideceği konusunda rehberlik edebilir mi?

cevap

0

Verileri ön işlemenin en kolay yolu (muhtemelen en zarif değil). Bağlantınıza dayalı olarak, yapılabilen 18 GB hakkında konuşuyoruz. Ve neyse, verileri şemadan ayırmanız gerekir (veriler dosyalanmış isimleri de içerir).

Bu tür veriler için kendi yükleyicinizi yazmak için daha güzel bir çözüm. Burada örnek bir proje ve bir eğitici bulacaksınız http://help.mortardata.com/technologies/pig/write_your_own