2013-04-17 30 views
6

Arıyorum Ben sadece bana uygun olduğunu düşünüyorum wikidump python kütüphane tökezledi.Örnek veya belgeler için wikidump python lib

Kaynak koduna bakabilirim ama python'da yeniyim ve ihtiyaç duyduğum proje için BS kodu yazmak istemiyorum, benim için önemli.

'wiki-SPECIFICDATE-pages-articles.xml.bz2' dosyasını aldım ve bunu tek makale getirme için kaynağım olarak kullanmam gerekir. Birisi bana bunu düzgün bir şekilde elde etmek için bazı işaretçiler verebilir mi, hatta daha iyisi, bazı belgelere işaret edebilir mi? Ben bulamadım!

ben soruyu anlamadım, ama eğer varsa Vikipedi dökümü eğer

+1

Bir örnek olarak kullanılabilen https://github.com/saffsd/wikidump/blob/master/src/wikidump/__init__.py adresindeki komut satırı istemcilerini incelediniz mi? – MaxSem

+1

Wikipedia'yı düz metne dönüştürmek için http://medialab.di.unipi.it/wiki/Wikipedia_Extractor kullanıyorum. Herhangi bir makale almak için kolayca değiştirilebilir. Sadece bir makalenin işlenişini ayıklayın ve getirme için bir regex eşleşmesinin nereye ekleneceğini göreceksiniz. – Den

cevap

0

emin değil (eğer daha iyi ve düzgün doc'd lib sahipsek ps, söyle lütfen) ile wikicode ayrıştırmak gerekiyor, ben mwparserfromhell lib öneririm.

diğer güçlü çerçeve Pywikibot, yani Wikipedia'da bot kullanıcıları için tarihi çerçeve (böylece, bunun yerine okuma ve ayrıştırma makalelerin, yazma sayfalarına adanmış birçok senaryo vardır). Çok fazla belgelere sahip (ancak bazen eski) ve MediaWiki API'sini kullanıyor.

Her ikisini de kullanabilirsiniz: elbette, makaleleri almak için PWB ve ayrıştırma için mwparserfromhell.