2016-03-23 67 views
0

Bir dizi web sayfasından metin almaya çalışıyorum ancak almak istediğim bazı metinler hiçbir etikete dahil değil. İçeriğin geri kalanını kolayca alabilirim, ancak her sayfada sadece çift tırnak içine alınmış bir metin paragrafı var ve başka bir şey yok. Şu an içinde bulunduğu öğeyi bulabiliyorum, ancak bu öğede çok fazla içerik var, bu nedenle bu öğeye giren ve yalnızca çift tırnak içine alınan metni alan bir xpath belirtmek mümkün mü?Selenyum - Yalnızca çift tırnak işareti içeren metni bul

Düzenleme: Aşağıda, h1 etiketinin altındaki iki satırlık metin almak istiyorum. Öğede daha çok şey var, ancak herhangi bir alakası yok. Bu yüzden arıyorum xpath 'widget içerik "sınıfı ile makale-öğesi içinde herhangi unenclosed metin bulmak' çizgisinde bir şeydir

<article class="widget-content"> 
 
    
 
<meta http-equiv="Content-Type" content="text/html; charset=utf-8"> 
 
<script src="/Modules/Orchard.jQuery/scripts/jquery-1.9.1.js" type="text/javascript"></script> 
 

 

 
    <h1>Placeholder title</h1> 
 
Placeholder text Placeholder text Placeholder text Placeholder text Placeholder text Placeholder text Placeholder text Placeholder text Placeholder text Placeholder text Placeholder text Placeholder text Placeholder text <br /> 
 
    <br /> 
 
Placeholder: Another placeholder <br /> 
 
    <br />

+1

Eğer –

+0

şimdi biraz kodunu ekledikten için problem oluşturabilir, elemanın bir örneği ve HTML kodunu gönderin olabilir, @ShubhamJain – user3630098

+0

Örneğin, bahsettiğiniz alıntılar yok. "Herhangi bir kapatılmamış bul ..." satırı da eksik. –

cevap

0

S:. yüzden arıyorum xpath 'widget içerik "sınıfı ile makale-öğesi içinde herhangi unenclosed metin bulmak' çizgisinde bir şeydir
Bu olacaktır:

//article[@class='widget-content']/text() 

Ama bu onları denemek kaçınmak için boş metin düğümü yağma (boşluk için) içerecektir:

//article[@class='widget-content']/text()[normalize-space() !=''] 

S: aşağıda ben, H1 altında iki satır metin almak istiyorum ne etiket.

Bu arada (/h1/following-sibling::text()), ya da olacaktır:

"//article[@class='widget-content']/h1/following-sibling::text()[normalize-space() !='']" 
0

Sizin xpath

xpath=//article[contains(@class, 'widget-content')]/article[1] 
böyle bir şey olmalı:

//article/text() 

O çıktısı yalnızca Herhangi bir tag dışında bir metin.

Umut eder!

İlgili konular