web

2012-02-09 10 views
6

sadece ilgili kısmını alın Nasıl Evernote's Web Clipper plugin veya Announcify plugin sayfanın yalnızca olsun alakalı makale/yayın/içerik parçası yapar? İşte Evernote eklentisinden bir ekran görüntüsü:web

enter image description here

olursa olsun, bu her zaman sayfanın size haber/yayın/içerik kısmını elde edebiliyoruz hangi diğer düzen wises tamamen farklı olan ziyaret web sitesi.

Her web sitesi bazıları değil, farklı etiketler, ana/makale/içerik kısmı için, HTML5 başkalarının bazı kullanım <article> veya <section><h1> > <p> kullanıyoruz, bazı kenar çubuğu var, farklı düzenler vardır, bazı kullanım <h2> > <p> ve diğerleri kullanmayın hiç Dolayısıyla, web sitelerinin düzenlerinin yanı sıra etiketlerin farklı kombinasyonu da vardır.

Herkes, ana makalesinin/içeriğinin/içeriğinin Javascript veya PHP yoluyla edinilmesini önerebilir mi?

+0

Bu akıllıcadır ... – Jivings

+0

Belki bu sayfadaki en büyük 'div 'ya da diğer elementi arar? – Jivings

+0

@Jivings: Büyük div tüm siteyi içerecek biz Bu korkunç bir çözümdür ana/makale parçasını :) – Dev555

cevap

7

Basit bir DOM ayrıştırma yapmak ve daha fazla metin içeren <div> s ve <p> s için arama yapabilirsiniz (metin! Değil HTML kodunu!). Ancak, ne olursa olsun içerik olduğu belirlemek için seçecektir akıllı yöntemden bağımsız olarak, ayrıştırma DOM başlamak, bu yüzden PHP kütüphanelerini ayrıştırma DOM bir göz atalım olmalıdır.

Neyse, bundan başlatabilirsiniz:

http://w-shadow.com/blog/2008/01/25/extracting-the-main-content-from-a-webpage/

oldukça iyi görünüyor, ve kendi içinde bir şeyler yazmak isterseniz teknik açıklamalar verir

.

+0

içeren eleman bulmak mümkün olmak istiyorum. Ama muhtemelen en iyisi. – Jivings

+1

@Jivings Neden korkunç? –

+0

DOM ayrıştırma beni ürperti yapar çünkü. Ama bağlantın ilginç görünüyor. – Jivings

0

Çoğu blog motorları işte içeriği 'kimliğine div verir.

  • javascript olarak size DOMDocument :: getElementById ('content') yapacağını php olarak
  • ('# içeriği') $ tıpkı olacaktır.
İlgili konular