2012-02-07 14 views
13

Olası Çoğalt:
Looking for dataset to test FULLTEXT style searches onÇok miktarda metin dosyası nereden bulabilirim?

Ben test için düz metin 100 GB gerekir bunun için veri madenciliğinin bir projeye son zamanlarda değilim ... Ben arama yoruldum Bütün gün net. Birisi, bu tür metin dosyalarını indirebileceğim bağlantıları sağlayarak bana yardımcı olun. Teşekkürler.

+1

http://dumps.wikimedia.org/ indirmek 100GB metin dosyasını çalışıyorsun kullanmalıdır: http://www.gutenberg.org/

Vikipedi ayrıca makalelerin bir arşiv indirmek için izin verir:

Gutenberg Projesi iyi bir başlangıç ​​olabilir. .... – vikky

+0

Evet ..! Gerçekte 100 GB'den fazlası .. 1TB hedefimiz ..! – Sri

+0

Gutenberg'in tamamını bir 7zip dosyasına alın: http://www.gutenberg-tar.com/ – JoeRocc

cevap

8

Ne tür bir metin arıyorsunuz? Konuşmalar, makaleler, kitaplar - ya da her şeyin iyi bir şekilde yayılması? http://en.wikipedia.org/wiki/Wikipedia:Database_download

+0

Yep ... metin dosyalarının her türlü Tamam ... evet .. konuşma, makaleler, belgeseller, romanlar .. vb ...! – Sri

+0

Proje Gutenberg muhtemelen en iyi bahistir, orada 38.000'den fazla ücretsiz kitap var. Bunların çoğu düz metin dosyaları olarak indirilebilir. – Jordan

+0

Her metin dosyasını bir diğerinden sonra indirmek yerine ... daha iyi bir yolu var mı ... Boyutu 1GB olan bir sıkıştırılmış dosya alabilir miyim ?? – Sri

3

Eğer

+1

lütfen bana özel bir bağlantı verebilirsiniz ..! n 230 mm civarında bir xml biçimli sıkıştırılmış dosya gördüm. Heres bağlantı ... http://en.wikipedia.org/wiki/Wikipedia:Database_download .. indirmeden önce tam olarak neyin içinde bulunduğunu bilmek istiyorum .. ps: bazı anlamlı olan metin dosyalarını arıyoruz metin ... konuşmalar, belgeseller vb. gibi! – Sri

+0

aslında Wikimedia dosyasının döküm dosyasının döküm dosyasına girer ve genellikle xml biçiminde Wikipedia makalesini içerir. Bunu kontrol edebilirim. Size yardımcı olması gerektiğini düşünüyorum. – vikky

İlgili konular