2008-08-22 21 views
19

Metin aramak, resimleri aramak ve hatta videolar için kaç tane arama tekniği bulunduğunu hep merak ettim. Ancak, ses dosyaları içinde içerik arayan bir çözüme rastlamamıştım.
Örneğinİçeriği, ses dosyaları/akışları içinde nasıl ararım?

: bize ben mp3, wav ve ogg dosyaları şeklinde benim PC'ye indirilen yaklaşık 200 podcast olduğunu varsayalım. Bunların hepsi genel olarak podcast1.mp3, podcast2.mp3, vs olarak adlandırılır. Yani, içeriğin ne olduğunu, aslında onları duymadan tanımak mümkün değildir. Podcast'lerin 'oyun programlaması' hakkında konuştuklarını öğrenmek istediğimi söylüyoruz. 01:12:31 , 00:16:21, 00:43:45 - zaman indeksi (ler) 3 sonuç (lar) -

  • Podcast1.mp3: Ben sonuç olarak gösterilmesini istediğiniz
  • Podcast21.ogg - 1 sonuç (lar) zaman indeksi (ler) de - Yani 0:12:01

sorularım:

  • nasıl olur bir yaklaşımla bu sorunu?
  • Böyle bir şey yapmak için geliştirilmiş uygun algoritmalar var mı?

Bir fikir aklımda kadar kırpılmış ses dosyalarının her biri daha sonra almak için transkript ayrıştırmak için, bir kez endeksler ile birlikte transkript almak için bir 'konuşma-metin' yazılımı kullanmak olabilir oldu çıktı.

Bunu benim hobi projelerimden biri olarak düşünüyordum. Teşekkürler! Bir ses akışı içinde (yani söylenenleri) metni aramak istiyorsanız

cevap

8

ses tanıma algoritması çeşit işleyecek ve dosyalarla ilişkili meta veri olarak metni saklamak zorunda kalacaktı. Video için videonun içindeki metinler için metin tanıma da yapabilirsiniz. Evernote zaten görüntü dosyaları içindeki metin için bunu yapar, ancak bildiğim kadarıyla ses desteği yoktur.

Ses aramak için ses kullanırken benzer bir şey mümkündür. Bu algoritmaların ayrıntılarını bilmiyorum, ama sanırım bir çeşit frekans analizi içeriyorlar. Shazam, ses kliplerine dayalı şarkıları tanımlamak için bu tür bir teknolojiyi kullanıyor. İşte

yararlı olabilecek bazı Vikipedi makaleleri şunlardır:

İlgili konular