ı bu dizeBelirli bir pencere boyutu içindeki tüm bigramları nasıl alabilirim?
my_string = "This is an example string"
var Ve belirli bir "pencere" içindeki tüm Bigramlar hesaplamak için hızlı yolu olup olmadığını merak ediyorum diyelim. Pencere iki kelime ise
Örneğin, tüm olası Bigramlar
["This is","is This","is an","an is","an example","example an","example string","string example"]
olan Ama pencere üç kelime eğer biz ilk üç kelimelik penceresinin
["This is","is an","This an","an this",...]
bu Bigramlar varsa
sklearn kullanarak bigram elde etmek kolaydır. Mesela biri
bigrams = CountVectorizer(analyzer = "word",
strip_accents = "ascii",
lowercase = True,
ngram_range = (2,2))
bigrams_counts = bigrams.fit_transform(my_string)
yapabilir ve size tüm Bigramlar listesini (ve hatta sayımları) verecek, ancak yani (dize değil, diğer kombinasyonlar mevcut Bigramlar "Bu" sadece içerecektir ve "bu" orada olmayacak.
Belirli bir pencerede tüm bigramları almanın bir yolu var mı? Örneğin itibaren
[Saklı Markov] (https tanımını kontrol edin: //en.wikipedia.org/wiki/Bigram). Bir pencerede kelime kombinasyonları için sorduğunuz çoğu zaman bana benziyor, –