Kolej projem için tam Wikipedia metin indirmek için arıyorum. Bunu indirmek için kendi örümcekimi yazmak zorunda mıyım yoksa Wikipedia'nın çevrimiçi bir veri kümesi var mı?Wikipedia metin indir
Size projem hakkında biraz bilgi vermek için, ilgimi çeken az sayıda makalenin ilginç sözlerini bulmak istiyorum. Ancak, bu ilginç kelimeleri bulmak için, terim sıklığını hesaplamak için tf/idf'yi uygulamayı planlıyorum. her kelime ve yüksek frekanslı olanları seçin. Fakat tf'yi hesaplamak için, tüm Wikipedia’daki toplam olayları bilmem gerekiyor.
Bu nasıl yapılabilir?
o basitçe google eğer hoş karşılanmaz cevaplarınızı sahip olduğunu işaret 'Wikipedia metninin tamamını indir' diye tıkladınız, link ilk hit. Bunu google-fu'nuzu geliştirmeye yardımcı olacak umuduyla söylüyorum. –
@Sam Tutucu Sadece onaylamak istiyorum. Bu tüm sayfaları -http: //dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2 – Boolean
indirmek için doğru link tüm geçerli sayfaları gibi görünüyor ve muhtemelen ne Tabii ki, tam olarak söylemesi zor olmasa da, –