2015-06-05 18 views
5
'a aktarma

Python'da bazı metin çözümleme çalışmaları yapıyorum. Ne yazık ki, belirli bir paketi kullanmak için R'ye geçmem gerekiyor (maalesef paket Python'da kolayca kopyalanamaz). Seyrek Matrisi Python'dan R

Şu metin yaklaşık 11.000 Bigramlar bir kelime düşürüldü Saklı Markov sayıları ayrıştırılır ve daha sonra bir sözlük olarak depolanır:

{id1: {'bigrams':[(bigram1, count), (bigram2, count), ...]}, 
id2: {'bigrams': ...} 

Ben R bir dgCMatrix, satırlar içine bu almak gerekir id1, id2, ... ve sütunlar, bir hücre o id-bigram için 'sayımı' temsil edecek şekilde farklı bigramlardır.

Herhangi bir öneriniz var mı? Bunu sadece büyük bir CSV'ye genişletmeyi düşündüm, ancak bu bellek verimsizliği nedeniyle muhtemelen süper etkisiz ve muhtemelen mümkün görünmüyor.

+1

Gerçek değerler ve daha büyük sayılarda bir örnek daha kullanışlı olabilir. Bize kod yazmadan önce bile biraz iş yapmamızı bekliyorsunuz. Belki de Python kodlayıcıları bu düzeni R-coder'dan daha iyi kavramış olabilirsiniz, ama daha fazla madde sağlayabilir misiniz? –

cevap

4

Eğer scipymmwrite kullanarak MatrixMarket formatında matrisi olarak yazın ve ardından Matrix paketinden readMM kullanılarak R içine okuyabilir misin?

+1

Bu işe yaradı! Bunu yapmak için süper bir bellek etkin bir yol değil (anlayabildiğim kadarıyla), fakat bilgisayarımın üzerinde çalışacak kadar iyi başardı. – Craig

+0

Umarım oldukça verimli olur! LOL! :) Yardımcı olduğuma sevindim. – earino