Mékanisme beberesih data Spark Streaming
(I) DStream sareng RDD
Sakumaha anu urang terang, komputasi Spark Streaming dumasar kana Spark Core, sareng inti Spark Core nyaéta RDD, janten Spark Streaming kedah aya hubunganana sareng RDD ogé.Sanajan kitu, Spark Streaming teu ngantep pamaké ngagunakeun RDD langsung, tapi abstracts sakumpulan konsep DStream, DStream na RDD mangrupakeun hubungan inklusif, anjeun tiasa ngartos eta salaku pola hiasan di Java, nyaeta, DStream mangrupa ningkatna RDD, tapi kabiasaan téh sarupa jeung RDD.
DStream sareng RDD duanana gaduh sababaraha kaayaan.
(1) gaduh tindakan tranformasi anu sami, sapertos peta, reduceByKey, jsb, tapi ogé sababaraha anu unik, sapertos Window, mapWithStated, jsb.
(2) sadayana gaduh tindakan Aksi, sapertos foreachRDD, count, jsb.
Modél programming konsisten.
(B) Bubuka DStream dina Spark Streaming
DStream ngandung sababaraha kelas.
(1) Kelas sumber data, sapertos InputDStream, khusus sapertos DirectKafkaInputStream, jsb.
(2) Kelas konvérsi, biasana MappedDStream, ShuffledDStream
(3) kelas kaluaran, biasana sapertos ForEachDStream
Ti luhur, data ti mimiti (input) nepi ka ahir (output) dilakukeun ku sistem DStream, nu hartina pamaké normal teu bisa langsung ngahasilkeun jeung ngamanipulasi RDDs, nu hartina DStream boga kasempetan jeung kawajiban pikeun jadi. jawab siklus kahirupan RDDs.
Dina basa sejen, Spark Streaming boga hijibeberesih otomatisfungsi.
(iii) Prosés generasi RDD dina Spark Streaming
Aliran kahirupan RDD dina Spark Streaming kasar sapertos kieu.
(1) Dina InputDStream, data anu ditampi dirobih janten RDD, sapertos DirectKafkaInputStream, anu ngahasilkeun KafkaRDD.
(2) teras ngalangkungan MappedDStream sareng konversi data anu sanés, waktos ieu langsung disebut RDD anu cocog sareng metode peta pikeun konvérsi
(3) Dina operasi kelas kaluaran, ngan nalika RDD kakeunaan, anjeun tiasa ngantep pamaké nedunan gudang pakait, itungan sejen, sarta operasi lianna.