Mekanismo de purigado de datumoj Spark Streaming
(I) DStream kaj RDD
Kiel ni scias, Spark Streaming-komputado baziĝas sur Spark Core, kaj la kerno de Spark Core estas RDD, do Spark Streaming ankaŭ devas rilati al RDD.Tamen, Spark Streaming ne lasas uzantojn uzi RDD rekte, sed abstraktas aron de DStream-konceptoj, DStream kaj RDD estas inkluzivaj rilatoj, vi povas kompreni ĝin kiel la ornamadan ŝablonon en Java, tio estas, DStream estas plibonigo de RDD, sed la konduto estas simila al RDD.
DStream kaj RDD ambaŭ havas plurajn kondiĉojn.
(1) havas similajn transformajn agojn, kiel map, reduceByKey, ktp., sed ankaŭ iuj unikaj, kiel Window, mapWithStated, ktp.
(2) ĉiuj havas Agajn agojn, kiel foreachRDD, kalkuli, ktp.
La programa modelo estas konsekvenca.
(B) Enkonduko de DStream en Spark Streaming
DStream enhavas plurajn klasojn.
(1) Datumfontaj klasoj, kiel InputDStream, specifa kiel DirectKafkaInputStream, ktp.
(2) Konvertaj klasoj, tipe MappedDStream, ShuffledDStream
(3) eligo klasoj, tipe kiel ForEachDStream
De ĉi-supra, la datumoj de la komenco (enigo) ĝis la fino (eligo) estas faritaj de la DStream-sistemo, kio signifas, ke la uzanto normale ne povas rekte generi kaj manipuli RDD-ojn, kio signifas, ke la DStream havas la ŝancon kaj devon esti. respondeca por la vivociklo de RDDs.
Alivorte, Spark Streaming havasaŭtomata purigadofunkcio.
(iii) La procezo de RDD-generacio en Spark Streaming
La vivfluo de RDD-oj en Spark Streaming estas malglata jene.
(1) En InputDStream, la ricevitaj datumoj estas transformitaj en RDD, kiel DirectKafkaInputStream, kiu generas KafkaRDD.
(2) tiam per MappedDStream kaj alia datuma konvertiĝo, ĉi tiu fojo estas rekte nomita RDD responda al la mapo-metodo por konvertiĝo
(3) En la eligoklasa operacio, nur kiam la RDD estas elmontrita, vi povas lasi la uzanton plenumi la respondan stokadon, aliajn kalkulojn kaj aliajn operaciojn.