“Canon D1000 4MP Fotoğraf Makinesi 2X Zoom LCD” gibi yapılandırılmamış ürün başlıklarını {brand: canon, model number: d1000, lens: 4MP zoom: 2X, display type: LCD}
gibi yapılandırılmış verilere ayırmak istiyorum.Ürün başlıklarını (yapılandırılmamış) yapısal veriler nasıl ayrıştırılır?
- Kaldırılan engellenecek kelimeleri ve
- kelimelere uzun dizeleri tokenizing (
-
;
:
/
gibi karakterler kaldırmak) temizlenmiş:Şimdiye kadar var.
Herhangi teknikleri/kitaplık/yöntem/algoritmalar çok takdir!
DÜZENLEME: Ürün başlıkları için bir buluşsal yöntem yoktur. Bir satıcı, numaralı herhangi bir şeyi bir başlık olarak girebilir. Örneğin: 'Canon D1000' sadece başlık olabilir. Ayrıca, bu alıştırma sadece kamera veri setleri için değil, başlık herhangi bir üründe olabilir. Yalnızca (amazon ürünleri gibi) başlıkları alıyorsanız
Herhangi bir eğitim verisi var mı? 1000 ürün için ürün özelliklerini belirtin mi? – Jirka
Çok fazla eğitim verisi var. Bunu 100 milyon ürün için yapmam gerekiyor, ancak şu anda Kameralarla ilgili yaklaşık 10.000 ürün içeren bir prototip oluşturmaya çalışıyorum. – stealthspy
Aynı sorunu çözmeye çalışıyorum. 50K ürünüm var, hepsi yapılandırılmamış, eğitim verisi yok. Benim için ilk adım, tanımlanmış özelliklere sahip ürünler anlamında eğitim için veri bulmaktır: marka, model vb. Ürünler elektronik eşyalara (telefonlar, dizüstü bilgisayarlar, kameralar) aittir. Nitelikli ürünler nerede bulunur? – dzeno