• novaĵstandardo

Servo

Mekanismo por purigi datumojn de Spark Streaming
(I) DStream kaj RDD
Kiel ni scias, la komputado de Spark Streaming baziĝas sur Spark Core, kaj la kerno de Spark Core estas RDD, do Spark Streaming devas esti rilata ankaŭ al RDD. Tamen, Spark Streaming ne permesas al uzantoj uzi RDD rekte, sed abstraktas aron de DStream-konceptoj. DStream kaj RDD estas inkluzivaj rilatoj, kiujn oni povas kompreni kiel ornaman ŝablonon en Java, tio estas, DStream estas plibonigo de RDD, sed la konduto similas al RDD.
Kaj DStream kaj RDD havas plurajn kondiĉojn.
(1) havas similajn transformajn agojn, kiel ekzemple map, reduceByKey, ktp., sed ankaŭ kelkajn unikajn, kiel ekzemple Window, mapWithStated, ktp.
(2) ĉiuj havas Agajn agojn, kiel ekzemple foreachRDD, count, ktp.
La programa modelo estas kohera.
(B) Enkonduko de DStream en Spark Streaming
DStream enhavas plurajn klasojn.
(1) Datenfontaj klasoj, kiel ekzemple InputDStream, specifaj kiel DirectKafkaInputStream, ktp.
(2) Konvertaj klasoj, tipe MappedDStream, ShuffledDStream
(3) eliraj klasoj, tipe kiel ForEachDStream
El la supre menciitaj, la datumoj de la komenco (enigo) ĝis la fino (eligo) estas faritaj de la DStream-sistemo, kio signifas, ke la uzanto normale ne povas rekte generi kaj manipuli RDD-ojn, kio signifas, ke DStream havas la ŝancon kaj devon respondeci pri la vivciklo de RDD-oj.
Alivorte, Spark Streaming havasaŭtomata purigadofunkcio.
(iii) La procezo de RDD-generado en Spark Streaming
La vivfluo de RDD-oj en Spark Streaming estas malglata jene.
(1) En InputDStream, la ricevitaj datumoj estas transformitaj en RDD, kiel ekzemple DirectKafkaInputStream, kiu generas KafkaRDD.
(2) tiam per MappedDStream kaj alia datumkonverto, ĉi tiu fojo estas rekte nomata RDD korespondanta al la mapmetodo por konverto
(3) En la operacio de la elira klaso, nur kiam la RDD estas eksponita, vi povas permesi al la uzanto plenumi la respondan stokadon, aliajn kalkulojn kaj aliajn operaciojn.