ಸ್ಪಾರ್ಕ್ ಸ್ಟ್ರೀಮಿಂಗ್ ಡೇಟಾ ಕ್ಲೀನಿಂಗ್ ಯಾಂತ್ರಿಕತೆ
(I) DStream ಮತ್ತು RDD
ನಮಗೆ ತಿಳಿದಿರುವಂತೆ, ಸ್ಪಾರ್ಕ್ ಸ್ಟ್ರೀಮಿಂಗ್ ಕಂಪ್ಯೂಟೇಶನ್ ಸ್ಪಾರ್ಕ್ ಕೋರ್ ಅನ್ನು ಆಧರಿಸಿದೆ ಮತ್ತು ಸ್ಪಾರ್ಕ್ ಕೋರ್ನ ಕೋರ್ ಆರ್ಡಿಡಿ ಆಗಿದೆ, ಆದ್ದರಿಂದ ಸ್ಪಾರ್ಕ್ ಸ್ಟ್ರೀಮಿಂಗ್ ಆರ್ಡಿಡಿಗೆ ಸಂಬಂಧಿಸಿರಬೇಕು.ಆದಾಗ್ಯೂ, ಸ್ಪಾರ್ಕ್ ಸ್ಟ್ರೀಮಿಂಗ್ ಬಳಕೆದಾರರಿಗೆ ನೇರವಾಗಿ RDD ಅನ್ನು ಬಳಸಲು ಅನುಮತಿಸುವುದಿಲ್ಲ, ಆದರೆ DStream ಪರಿಕಲ್ಪನೆಗಳ ಒಂದು ಸೆಟ್, DStream ಮತ್ತು RDD ಅಂತರ್ಗತ ಸಂಬಂಧಗಳು, ನೀವು ಅದನ್ನು ಜಾವಾದಲ್ಲಿ ಅಲಂಕಾರ ಮಾದರಿ ಎಂದು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಬಹುದು, ಅಂದರೆ, DStream RDD ಯ ವರ್ಧನೆಯಾಗಿದೆ, ಆದರೆ ನಡವಳಿಕೆಯು RDD ಯಂತೆಯೇ ಇರುತ್ತದೆ.
DStream ಮತ್ತು RDD ಎರಡೂ ಹಲವಾರು ಷರತ್ತುಗಳನ್ನು ಹೊಂದಿವೆ.
(1) ಇದೇ ರೀತಿಯ ರೂಪಾಂತರ ಕ್ರಿಯೆಗಳನ್ನು ಹೊಂದಿವೆ, ಉದಾಹರಣೆಗೆ ನಕ್ಷೆ, ಕಡಿಮೆ ಬೈಕೇ, ಇತ್ಯಾದಿ, ಆದರೆ ಕೆಲವು ವಿಶಿಷ್ಟವಾದ, ಉದಾಹರಣೆಗೆ ವಿಂಡೋ, ಮ್ಯಾಪ್ವಿತ್ಸ್ಟೇಟೆಡ್, ಇತ್ಯಾದಿ.
(2) ಎಲ್ಲಾ ಕಾರ್ಯ ಕ್ರಮಗಳನ್ನು ಹೊಂದಿವೆ, ಉದಾಹರಣೆಗೆ foreachRDD, ಎಣಿಕೆ, ಇತ್ಯಾದಿ.
ಪ್ರೋಗ್ರಾಮಿಂಗ್ ಮಾದರಿಯು ಸ್ಥಿರವಾಗಿದೆ.
(B) ಸ್ಪಾರ್ಕ್ ಸ್ಟ್ರೀಮಿಂಗ್ನಲ್ಲಿ ಡಿಸ್ಟ್ರೀಮ್ನ ಪರಿಚಯ
ಡಿಸ್ಟ್ರೀಮ್ ಹಲವಾರು ವರ್ಗಗಳನ್ನು ಒಳಗೊಂಡಿದೆ.
(1) ಇನ್ಪುಟ್ಡಿಸ್ಟ್ರೀಮ್ನಂತಹ ಡೇಟಾ ಮೂಲ ವರ್ಗಗಳು, ಡೈರೆಕ್ಟ್ಕಾಫ್ಕಾಇನ್ಪುಟ್ಸ್ಟ್ರೀಮ್ನಂತಹ ನಿರ್ದಿಷ್ಟ, ಇತ್ಯಾದಿ.
(2) ಪರಿವರ್ತನೆ ತರಗತಿಗಳು, ಸಾಮಾನ್ಯವಾಗಿ ಮ್ಯಾಪ್ಡ್ ಡಿಎಸ್ ಸ್ಟ್ರೀಮ್, ಶಫಲ್ಡ್ ಡಿಎಸ್ ಸ್ಟ್ರೀಮ್
(3) ಔಟ್ಪುಟ್ ತರಗತಿಗಳು, ಸಾಮಾನ್ಯವಾಗಿ ForEachDStream ನಂತಹವು
ಮೇಲಿನವುಗಳಿಂದ, ಪ್ರಾರಂಭದಿಂದ (ಇನ್ಪುಟ್) ಅಂತ್ಯದವರೆಗೆ (ಔಟ್ಪುಟ್) ಡೇಟಾವನ್ನು ಡಿಸ್ಟ್ರೀಮ್ ಸಿಸ್ಟಮ್ನಿಂದ ಮಾಡಲಾಗುತ್ತದೆ, ಅಂದರೆ ಬಳಕೆದಾರರು ಸಾಮಾನ್ಯವಾಗಿ ಆರ್ಡಿಡಿಗಳನ್ನು ನೇರವಾಗಿ ಉತ್ಪಾದಿಸಲು ಮತ್ತು ಕುಶಲತೆಯಿಂದ ನಿರ್ವಹಿಸಲು ಸಾಧ್ಯವಿಲ್ಲ, ಅಂದರೆ ಡಿಸ್ಟ್ರೀಮ್ಗೆ ಅವಕಾಶ ಮತ್ತು ಬಾಧ್ಯತೆ ಇದೆ. RDD ಗಳ ಜೀವನ ಚಕ್ರಕ್ಕೆ ಕಾರಣವಾಗಿದೆ.
ಬೇರೆ ರೀತಿಯಲ್ಲಿ ಹೇಳುವುದಾದರೆ, ಸ್ಪಾರ್ಕ್ ಸ್ಟ್ರೀಮಿಂಗ್ ಅನ್ನು ಹೊಂದಿದೆಸ್ವಯಂಚಾಲಿತ ಶುದ್ಧೀಕರಣಕಾರ್ಯ.
(iii) ಸ್ಪಾರ್ಕ್ ಸ್ಟ್ರೀಮಿಂಗ್ನಲ್ಲಿ ಆರ್ಡಿಡಿ ಉತ್ಪಾದನೆಯ ಪ್ರಕ್ರಿಯೆ
ಸ್ಪಾರ್ಕ್ ಸ್ಟ್ರೀಮಿಂಗ್ನಲ್ಲಿ ಆರ್ಡಿಡಿಗಳ ಜೀವನ ಹರಿವು ಈ ಕೆಳಗಿನಂತೆ ಒರಟಾಗಿರುತ್ತದೆ.
(1) InputDSstream ನಲ್ಲಿ, ಸ್ವೀಕರಿಸಿದ ಡೇಟಾವನ್ನು RDD ಆಗಿ ಪರಿವರ್ತಿಸಲಾಗುತ್ತದೆ, ಉದಾಹರಣೆಗೆ DirectKafkaInputStream, ಇದು KafkaRDD ಅನ್ನು ಉತ್ಪಾದಿಸುತ್ತದೆ.
(2) ನಂತರ MappedDSream ಮತ್ತು ಇತರ ಡೇಟಾ ಪರಿವರ್ತನೆಯ ಮೂಲಕ, ಈ ಸಮಯವನ್ನು ನೇರವಾಗಿ RDD ಎಂದು ಕರೆಯಲಾಗುತ್ತದೆ ಪರಿವರ್ತನೆಗಾಗಿ ನಕ್ಷೆ ವಿಧಾನಕ್ಕೆ ಅನುಗುಣವಾಗಿ
(3) ಔಟ್ಪುಟ್ ಕ್ಲಾಸ್ ಕಾರ್ಯಾಚರಣೆಯಲ್ಲಿ, ಆರ್ಡಿಡಿ ತೆರೆದುಕೊಂಡಾಗ ಮಾತ್ರ, ನೀವು ಬಳಕೆದಾರರಿಗೆ ಅನುಗುಣವಾದ ಸಂಗ್ರಹಣೆ, ಇತರ ಲೆಕ್ಕಾಚಾರಗಳು ಮತ್ತು ಇತರ ಕಾರ್ಯಾಚರಣೆಗಳನ್ನು ನಿರ್ವಹಿಸಲು ಅವಕಾಶ ನೀಡಬಹುದು.