2010-04-21 12 views
18

Kolej projem için tam Wikipedia metin indirmek için arıyorum. Bunu indirmek için kendi örümcekimi yazmak zorunda mıyım yoksa Wikipedia'nın çevrimiçi bir veri kümesi var mı?Wikipedia metin indir

Size projem hakkında biraz bilgi vermek için, ilgimi çeken az sayıda makalenin ilginç sözlerini bulmak istiyorum. Ancak, bu ilginç kelimeleri bulmak için, terim sıklığını hesaplamak için tf/idf'yi uygulamayı planlıyorum. her kelime ve yüksek frekanslı olanları seçin. Fakat tf'yi hesaplamak için, tüm Wikipedia’daki toplam olayları bilmem gerekiyor.

Bu nasıl yapılabilir?

+0

o basitçe google eğer hoş karşılanmaz cevaplarınızı sahip olduğunu işaret 'Wikipedia metninin tamamını indir' diye tıkladınız, link ilk hit. Bunu google-fu'nuzu geliştirmeye yardımcı olacak umuduyla söylüyorum. –

+0

@Sam Tutucu Sadece onaylamak istiyorum. Bu tüm sayfaları -http: //dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2 – Boolean

+0

indirmek için doğru link tüm geçerli sayfaları gibi görünüyor ve muhtemelen ne Tabii ki, tam olarak söylemesi zor olmasa da, –

cevap

20
wikipedia

: http://en.wikipedia.org/wiki/Wikipedia_database

Vikipedi ilgilenen kullanıcılara mevcut tüm içeriğin ücretsiz kopyalarını sunuyor. Bu veritabanları yansıtma, kişisel kullanım, informal yedeklemeler, çevrimdışı kullanım veya veritabanı sorguları için kullanılabilir (örneğin: Vikipedi: Bakım). Tüm metin içeriği Creative Commons Attribution-ShareAlike 3.0 Lisansı (CC-BY-SA) ve GNU Özgür Belgeleme Lisansı (GFDL) altında çoklu lisanslıdır. Resimler ve diğer dosyalar, açıklama sayfalarında açıklandığı gibi farklı şartlar altında kullanılabilir. Bu lisanslara uyma konusunda tavsiyemiz için bkz. Vikipedi: Telif Hakları.

Şansınız da var gibi görünüyor. dökümü bölümde:

12 Mart 2010'da, Vikipedi Bu 2008 beri yaratılmış İngilizce dil Wikipedia'nın ilk tam bir dökümü http://download.wikimedia.org/enwiki/20100130/ bulunabilir İngilizce yayınlanan en son komple dökümü itibariyle

Lütfen daha yeni çöplüklerin (20100312 dökümü gibi) eksik olduğunu unutmayın.

Yani veri, muhtemelen daha iyi İngilizce dilinde kelime frekansı kullanarak hizmet olacağını veya kullanmak üzere sadece 9 günlük :)

+4

cevabını diğerlerinden daha fazla kullandım çünkü sadece daha sonra yaptığın bir link ver. – UnkwnTech

+0

Çok kestim ve yapıştırdım :) –

+0

Sadece onaylamak istiyorum. Bu tüm sayfaları -http: //dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2 – Boolean

3

gör Sayfaları rastgele (veya en çok başvurulan sayfalarda) yoklamak için MediaWiki API. Bu API'ye (Ruby, C#, ...) dayalı olarak size yardımcı olabilecek robotlar oluşturmak için çerçeveler var. Yalnızca sürüm değil, bir Mediawiki XML metin gerekiyorsa

9

, o zaman buradan indirebilirsiniz: Sorunuzun yanıtını ve rağmen http://kopiwiki.dsd.sztaki.hu/

+0

Harika! Çok iyi iş. Lütfen daha fazla dil ekle :-) –

+3

Bağlantı bozuk. – tmnol

+0

Yeni bağlantı burada: https: //dsd.sztaki.hu/ürün/kopiwiki. – thuzhf