2016-04-05 22 views
0

Kullanıcılardan işleri kabul eden bir sistemim var. Bu işler dataproc'de kıvılcım işler olarak çalışır. Gün boyunca çok sayıda iş var ama gece orada hiç olmayabilir. Bu kesinti süreleri boyunca kümeyi sonlandırmanın en iyi yolunun ne olduğunu merak ediyorum ve yeni bir iş alındıktan sonra bir kümeyi yeniden başlatın veya yeniden oluşturun? Buradaki amaç, hareketsizlik dönemlerinde ücretlendirilmemektir.Kullanılmadığında dataproc kümesi nasıl sonlandırılır?

cevap

1

kullanabilirsiniz ya iki ana yaklaşım,: işçiler (2 işçi) minimal sayıda küme downscale

  1. [1]
  2. küme Sil ve [2]
  3. daha sonra yeniden

Her iki yaklaşım da verilerinizi saklamak için HDFS yerine Google Cloud Storage Connector [3] kullandığınızda en iyi şekilde çalışır. Eğer, Potansiyel

gcloud dataproc clusters delete my-dataproc-cluster-name 

: Bunu kullanmak,

gcloud dataproc clusters update <cluster-name> --num-workers <new-number-of-workers> 

boş saatler boyunca küme silmek için:

Kümenizi downscale için, yoğun olmayan saatlerde bu komutu aday olacağını Dataproc'un devam eden maliyetlerini Dataproc ile tam olarak desteklenen Preemptible VM'ler [4] ile% 70'e kadar azaltabilir.

[1] Scaling Dataproc Clusters

[2] Managing Dataproc Clusters

[3] Google Cloud Storage Connector for Spark/Hadoop

[4] Preemptible VMs

İlgili konular