2013-07-24 19 views
5

tarihinde bir "terimi-vektör algoritması" popüler anahtar kelimeler belirlemek için kullanılabileceğini belirtir. http://en.wikipedia.org/wiki/Vector_space_model üzerinde çalıştım, ancak "term-vektör algoritması" terimini anlayamıyorum. okuyucu bir çocuk sanki "Terim vektörü algoritması" nedir?

, kısa bir özet olarak çok basit bir dil anlatmaya ediniz.

I "vektör" matematik tanımı, bir miktar olan yönde hem de büyüklük belirtir inanıyoruz. Anahtar kelimelerin bir yönde hareket eden bir miktarı nasıldır?

http://en.wikipedia.org/wiki/Vector_space_model durumları "Her boyut ayrı terimine karşılık gelir." Boyutun kardinalite ile ilgili olduğunu düşündüm, doğru mu?

Örnek: Alex Holmes Uygulama olarak kitabı Hadoop'un, kaynaktan

enter image description here

, sayfa 12.

+0

Sorunuzu cevapladım, ancak [programmers.se] için daha uygun olduğunu düşünüyorum (http://programmers.stackexchange.com) –

+1

Bir web sayfasındaki anahtar kelimeler gibi tüm terimlerin kümesi olsun . Bir terim vektörü N^| T | N, doğal sayılardır. Terim vektörünün her bileşeni, bu terimin bir aramada veya bir web sayfasında mı gerçekleştiğini veya bu terimin bir aramada veya bir web sayfasında kaç defa gerçekleştiğini gösterebilir. – Paul

cevap

8

Her sözcük, ayrı bir boyuta oluşturduğu anlamına gelir (shamelessly here alınan)

sadece üç kelime içeren bir model için

sana ulaşabilir:

dict = { dog, cat, lion } 

Document 1 
“cat cat” → (0,2,0) 

Document 2 
“cat cat cat” → (0,3,0) 

Document 3 
“lion cat” → (0,1,1) 

Document 4 
“cat lion” → (0,1,1) 
+0

Yani bu durumda vektör, bir yönde hareket eden miktar anlamına gelmez mi? – davidjhp

+0

@davidjhp Hayır, geometrik anlamda bir vektör değil. C++ 'yı biliyorsanız, bu' std :: vector 'ile aynı kavramdır. – Thomas

0

MapReduce en popüler örnek çalışma frekansı hesaplamak için olduğu; Yani, kelime değeri 1 olarak bir değer olarak çıktılamak için bir harita adımı ve her bir kelimenin sayılarını toplamak için bir azaltma adımı. Dolayısıyla, bir web sayfası, (muhtemelen çift) kelimelerin bir listesini içeriyorsa, bu listedeki her sözcük 1 ile eşleşir. Azaltma adımı, esasen, bu sayfada her bir kelimenin kaç defa gerçekleştiğini sayar. Bunu, sayfalar, web siteleri veya herhangi bir kriter dahilinde yapabilirsiniz. Elde edilen veriler, etkili bir şekilde bir frekans vektörü olan frekansa bir sözlük haritalama sözcüğüdür. Sadece her bir terim muhtemelen terimi belirtilen sayısına tekabül eden, bağlı bir ağırlık ya da sayı değerine sahip anlamına gibi

Example document: "a be see be a" 
Resulting data: { 'a':2, 'be':2, 'see':1 } 
0

Dönem vektör duyulur.

Vektör kelimesinin geometrik anlamını düşünüyorsunuz, ancak sadece birden fazla boyut anlamına gelen başka bir matematiksel anlam var, yani x, y, z demek yerine, x'in x1. x3 ... xn ve bazı değerler. Bu yüzden bir vektör için vektör terimdir ve term1, term2 terimini n terimine kadar alır. Her biri, x, y veya z'nin bir değere sahip olduğu gibi bir değere sahip olabilir.

Örnek bir terim olarak 1 köpek olabilir, terim 2 kedi, terim3 aslan ve her biri bir ağırlığa sahiptir, 2, 3, 1, yani köpek kelimesi iki kez, kedi 3 kez ve aslan 1 kez anlamına gelir.

İlgili konular