हम इंटरनेट युग में जी रहे हैं जहां पूरी दुनिया डैटा से घिरी हुई है। यह डैटा और कुछ नहीं बल्कि हमारी यादें, अनुभव, सूझ-बूझ, दुख-दर्द के क्षण और कभी-कभी सांसारिक गतिविधियों के बारे में है। जैसे, कोई विगत यात्रा या महीने और वर्ष में दिन के किसी विशेष घंटे में क्या खाया या फिर दैनिक जीवन के सामान्य घटनाक्रम का लेखा-जोखा।
क्या ऐसा पहले नहीं था? ऐसे तथ्यात्मक, भावनात्मक, आनुभविक और व्यवहारिक क्षणों को संग्रहित और संरक्षित करना हमेशा से एक मानवीय प्रवृत्ति रही है। अंतर केवल इतना है कि हमारे पूर्वज डैटा को अपनी स्मृतियों में या गुफाओं, पत्थरों या कागजों पर उकेरी गई छवियों के माध्यम से संग्रहित करते थे, जबकि आज हम प्रौद्योगिकी एवं उपकरणों की मदद से ऐसा करते हैं!
अतीत में, बातों को मानव स्मृति में संग्रहित करने के साथ-साथ पत्थर पर नक्काशी करना, पत्तों पर और बाद में कागज़ो पर ग्रंथ लिखना काफी श्रमसाध्य था। यह संग्रहण कुछ समय तक ही रह पाता था। समय के साथ, जलवायु के प्रहार पत्थरों, कागज़ों को नष्ट कर डैटा को भी विलोपित कर देते थे। मानव स्मृति की भी डैटा संग्रहण की एक निर्धारित क्षमता होती है। दूसरे शब्दों में, प्राचीन काल से चली आ रही डैटा संग्रहण की मानवीय प्रवृत्ति, वर्तमान युग की वैज्ञानिक तकनीकों एवं साधनों की आसान उपलब्धता से डैटा विज्ञान का उदय हुआ है।
डैटा विज्ञान: शुरुआती वर्ष
शब्द ‘डैटा विज्ञान’ 1960 के दशक में एक नए पेशे का वर्णन करने के लिए गढ़ा गया था, जो उस समय भारी मात्रा में एकत्रित होने वाले डैटा को समझने और उसका विश्लेषण करने में सहायक सिद्ध हुआ। वैसे संरचनात्मक रूप से इसने 2000 की शुरुआत में ही अपनी उपस्थिति दर्ज कराई।
यह एक ऐसा विषय है जो सार्थक भविष्यवाणियां करने और विभिन्न उद्योगों में सूझ-बूझ प्राप्त करने के लिए कंप्यूटर विज्ञान और सांख्यिकीय पद्धतियों का उपयोग करता है। इसका उपयोग न केवल सामाजिक जीवन, खगोल विज्ञान और चिकित्सा जैसे क्षेत्रों में बल्कि व्यापार में भी बेहतर निर्णय लेने के लिए किया जाता है।
1962 में अमेरिकी गणितज्ञ जॉन डब्ल्यू. टुकी ने सबसे पहले डैटा विज्ञान के सपने को स्पष्ट किया। अपने प्रसिद्ध लेख ‘दी फ्यूचर ऑफ डैटा एनालिसिस’ में उन्होंने पहले पर्सनल कंप्यूटर (पीसी) से लगभग दो दशक पहले इस नए क्षेत्र के उद्गम की भविष्यवाणी की थी।
एक अन्य प्रारंभिक व्यक्ति डेनिश कंप्यूटर इंजीनियर पीटर नॉर थे, जिनकी पुस्तक कॉन्साइस सर्वे ऑफ कंप्यूटर मेथड्स डैटा विज्ञान की सबसे पहली परिभाषाओं में से एक प्रस्तुत करती है।
1990 और 2000 के दशक की शुरुआत में हम स्पष्ट रूप से देख सकते हैं कि डैटा विज्ञान एक मान्यता प्राप्त और विशिष्ट क्षेत्र के रूप में उभरा। कई डैटा विज्ञान अकादमिक पत्रिकाएं प्रकाशित होने लगीं, और जेफ वू और विलियम एस. क्लीवलैंड आदि ने डैटा विज्ञान की आवश्यकता और क्षमता को विकसित करने और समझने में मदद करना जारी रखा।
पिछले 15 वर्षों में, पूरे विषय को व्यापक उपकरणों, प्रौद्योगिकियों और प्रक्रिया के द्वारा परिभाषित और लागू करने के साथ एक भलीभांति स्थापित पहचान मिली है।
डैटा विज्ञान और जीवन
पिछले 100 वर्षों में मानव जीवन शैली में बहुत कुछ बदला है और विज्ञान और प्रौद्योगिकी से 20 वर्षों में तो बदलावों का सैलाब-सा ही आ गया है। अलबत्ता, जो चीज़ समय के साथ नहीं बदली, वह है मूल मानव व्यवहार और अपने क्षणों और अनुभवों को संग्रहित करने की उसकी प्रवृत्ति।
मानवीय अनुभव और क्षण (डैटा!), जो मानव स्मृति, नक्काशी और चित्रों में रहते थे, उन्हें प्रौद्योगिकी के ज़रिए एक नया शक्तिशाली भंडारण मिला है। अब मानव डैटा छोटे/बड़े बाहरी ड्राइव्स, क्लाउड स्टोरेज जैसे विशाल डैटा भंडारण उपकरणों में संग्रहित किए जा रहे हैं। मज़ेदार बात यह है कि अब डैटा को, पहले के विपरीत, बिना किसी बाधा के, जितना चाहें उतना और जब तक चाहें तब तक संग्रहित रखा जा सकता है।
पिछले 20 वर्षों में, एक और दिलचस्प बदलाव इंटरनेट टेक्नॉलॉजी के आगमन से भी हुआ। इंटरनेट टेक्नॉलॉजी की शुरुआत के साथ, मानव व्यवहार और उसके सामाजिक संपर्क की प्रवृत्ति ने एक बड़ी छलांग लगाई। लोगों ने दिन-प्रतिदिन हज़ारों किलोमीटर दूर विभिन्न भौगोलिक क्षेत्रों में अन्य मनुष्यों से जुड़ना शुरू कर दिया और इस तरह विभिन्न तरीकों से बातचीत करने और अभिव्यक्ति की मानवीय क्षमता कई गुना बढ़ गई।
आज छत्तीसगढ़ के घने जंगलों के ग्रामीण इलाके का कोई बच्चा बॉलीवुड की किसी मशहूर हस्ती को सुन सकता है और उससे जुड़ सकता है, वहीं न्यूयॉर्क में रहते हुए एक व्यक्ति उत्तरी अफ्रीका में रह रहे किसी पीड़ित बच्चे की भावनाओं से रूबरू हो सकता है। इंटरनेट क्रांति ने इस पूरी दुनिया को मानो एक बड़े से खेल के मैदान में बदल दिया है जहां हर एक व्यक्ति किसी दूसरे व्यक्ति, विषय या घटना से तत्काल जुड़ सकता है।
इन क्षमताओं के रहते पूरा विश्व नई तरह की संभावनाओं और अभिव्यक्तियों के प्रयोगों से भर गया है। इस तरह की गतिविधियों ने अपनी एक छाप छोड़ी है (जिन्हें हम डैटा कह सकते हैं) और टेक्नॉलॉजी ने इसे असीमित रूप से एकत्रित और संग्रहित करना शुरू कर दिया है।
नई दुनिया के ये परिवर्तन विशाल डैटा (Big Data) के रूप में प्रस्फुटित हुए। अधिकांश लोग (जो इंटरनेट वगैरह तक पहुंच रखते हैं) डैटा (यानी शब्द, आवाज़, चित्र, वीडियो वगैरह के रूप में) के ज़रिए यादों और अनुभवों से सराबोर हैं। ये डैटा न केवल सामाजिक या अंतर-वैयक्तिक स्तर पर, बल्कि आर्थिक मोर्चे पर (जैसे ऑनलाइन भुगतान, ई-बिल, ई-लेनदेन, क्रेडिट कार्ड) और यहां तक कि अस्पतालों के दौरों, नगर पालिका की शिकायतों, यात्रा के अनुभवों, मौसम के परिवर्तन तक में नज़र आते हैं। दूसरे शब्दों में कहें तो संपूर्ण जीवन की गतिविधियां डैटा पैदा कर रही हैं और इसे संग्रहित किया जा रहा है।
आधुनिक जीवनशैली बड़ी मात्रा में डैटा उत्पन्न करती है। डैटा की मात्रा इसलिए भी बढ़ गई है क्योंकि आधुनिक तकनीक ने बड़ी मात्रा में डैटा निर्मित करना और संग्रहित करना आसान बना दिया है। पिछले कुछ वर्षों में, दुनिया में पैदा किया गया 90% से अधिक डैटा संग्रहित कर लिया गया है। उदाहरण के लिए, सोशल मीडिया उपयोगकर्ता हर घंटे 2 करोड़ से अधिक छवियां पोस्ट करते हैं।
डैटा विज्ञान: कार्यपद्धति
मानव मस्तिष्क विभिन्न उपकरणों में संग्रहित विशाल डैटा का समय-समय पर उपयोग करना चाहता है। इस कार्य के लिए एक अलग प्रकार की तकनीकी क्षमता की आवश्यकता थी, जो संग्रहित डैटा को निकालने और निर्णय लेने का काम कर सके। यह मस्तिष्क के संचालन की नकल करने जैसा था। ऐसे जटिल दिमागी ऑपरेशनों को दोहराने के लिए एक कदम-दर-कदम चलने वाले एक समग्र वैज्ञानिक दृष्टिकोण की आवश्यकता होती है ताकि:
– डैटा इष्टतम तरीके से संग्रहित किया जाए;
– डैटा को कुशलतापूर्वक, शीघ्रता से प्रबंधित, पुनर्प्राप्त, संशोधित, और विलोपित किया जा सके;
– डैटा की व्याख्या आसानी से और शीघ्रता से की जा सके; इससे भविष्य के बारे में निर्णय लेने में मदद मिलती है।
वैसे तो हमारा मस्तिष्क सूक्ष्म और जटिल तरीके से डैटा को आत्मसात करने और निर्णय लेने का काम करता आया है, लेकिन मस्तिष्क की क्षमता सीमित है। डैटा से जुड़ी उक्त प्रक्रियाओं को पूरा करने के लिए, विज्ञान और प्रौद्योगिकी के मानव मस्तिष्क जैसे एक विशाल स्पेक्ट्रम की आवश्यकता हुई। टेक्नॉलॉजी ने इस प्रक्रिया के लिए डैटा भंडारण (विशाल डैटा सर्वर), पुनर्प्राप्ति के विभिन्न साधनों को सांख्यिकीय/गणितीय जानकारी से युक्त करना शुरू कर दिया। जावा, पायथन, पर्ल जैसी कोडिंग भाषा, विभिन्न मॉडलिंग तकनीकों (जैसे क्लस्टरिंग, रिग्रेशन, भविष्यवाणी और डैटा माइनिंग) के साथ-साथ ऐसी मशीनें विकसित हुईं जो डैटा को बार-बार समझ सकती हैं और स्वयं सीखकर खुद को संशोधित कर सकती हैं (मशीन लर्निंग मॉडल)। मूल रूप से कोशिश यह थी कि प्रौद्योगिकी और विज्ञान के सहारे हम अपने मस्तिष्क जैसी निर्णय लेने की क्षमता मशीन में पैदा कर सकें!
प्रौद्योगिकी द्वारा मानव मस्तिष्क की क्षमताओं के प्रतिरूपण की इस पूरी प्रक्रिया को डैटा विज्ञान का नाम दिया गया है। डैटा विज्ञान एक ऐसा क्षेत्र है जो डैटा से अपेक्षित परिणाम प्राप्त करने के लिए सांख्यिकी, वैज्ञानिक तकनीक, कृत्रिम बुद्धि (एआई) और डैटा विश्लेषण सहित कई विषयों को जोड़ता है। डैटा वैज्ञानिक वे हैं जो वेब, स्मार्टफोन, ग्राहकों और सेंसर सहित विभिन्न स्रोतों से प्राप्त डैटा का विश्लेषण करने के लिए विभिन्न प्रकार की क्षमताओं को एकीकृत करते हैं।
डैटा साइंस का भविष्य
क्या यह डैटा विज्ञान, भारत जैसे देश में अंतिम व्यक्ति के जीवन को छू सकता है या यह केवल थ्रिलर फिल्म या सस्ते दाम में कॉन्टिनेंटल खाने के लिए सर्वश्रेष्ठ रेस्तरां की खोज करने जैसे कुछ मनोरंजक/आनंद/विलास की गतिविधियों तक ही सीमित है? क्या यह हमारे समाज को बेहतर बनाने और वंचितों को कुछ बुनियादी सुविधाएं देने में मदद कर सकता है?
यकीनन। किसी भी अन्य गहन ज्ञान की तरह विज्ञान भी राष्ट्र, पंथ, जाति, रंग या एक वर्ग तक सीमित नहीं है। इरादा हो तो यह सभी के लिए है। संक्षेप में इसका उपयोग भारत में समाज को कई तरीकों से बेहतर बनाने के लिए किया जा सकता है। कुछ उदाहरण देखिए।
चिकित्सा/स्वास्थ्य
यह एक प्राथमिक क्षेत्र हो सकता है जहां डैटा विज्ञान का लाभ उठाया जा सकता है। डैटा के संदर्भ में, वर्तमान अस्पताल प्रणाली अभी भी रोगियों के प्रवेश, निदान और उपचार जैसे सामान्य संदर्भो में ही काम करती है। इस क्षेत्र में जनसांख्यिकी, स्वास्थ्य मापदंडों से लेकर रोगियों के विभिन्न चरणों में किए गए निदान/उपचार जेसे डैटा को संग्रहित करने की आवश्यकता है, जिसे नैदानिक परिणामों और उपचार विकल्पों को एकत्रित, संग्रहित, और व्याख्या के द्वारा व्यापक रूप से चिकित्सा समुदाय में साझा किया जा सके। यह डैटा विज्ञान को भारतीय स्थिति में रोगियों को समझने और सर्वोत्तम संभव उपचार विकल्पों के साथ-साथ रोकथाम के उपायों को समझने में सक्षम करेगा। यह रोगियों/डॉक्टरों का बहुत सारा धन और समय बचा सकता है, त्रुटियों को कम कर सकता है और मानव जीवन को अधिक सुरक्षित और स्वस्थ बना सकता है। आवश्यकता यह है कि सरकारी और निजी अस्पताल डैटा रिकॉर्ड करना और संग्रहित करना शुरू करें ताकि इसका उपयोग अनुसंधान और विकास के लिए किया जा सके। यूएस जैसे विकसित देशों में ऐसी प्रक्रिया से समाज को काफी लाभ मिलता है। डैटा विज्ञान वास्तव में भारत में स्वास्थ्य क्षेत्र को कई लाभकारी तरीकों से सम्पन्न कर सकता है।
कृषि उत्पादकता
भारत जैसे कृषि प्रधान देश में डैटा विज्ञान तरह-तरह की जानकारी के ज़रिए किसानों को लाभ पहुंचा सकता है:
– मिट्टी किस प्रकार की फसल के लिए अच्छी है;
– मौसम और जलवायु की परिस्थिति में किन पोषक तत्वों की आवश्यकता होती है;
– फसल के प्रकार के लिए आवश्यक मिट्टी की पानी और नमी की आवश्यकता;
– अप्रत्याशित मौसम की भविष्यवाणी और फसलों की सुरक्षा;
– ऐतिहासिक आंकड़ों के साथ-साथ मौसम के मिज़ाज के आधार पर निश्चित समय में किसी निश्चित क्षेत्र में इष्टतम फसल की पैदावार की भविष्यवाणी करना।
इस तरह के डैटा का सरकार द्वारा समय-समय पर निरीक्षण करना और भौगोलिक सेंसर व अन्य उपकरणों की मदद से डैटा तैयार करने की आवश्यकता है। डैटा विज्ञान फसलों की बहुत बर्बादी को बचा सकता है और हमारी उपज में भारी वृद्धि कर सकता है।
शिक्षा एवं कौशल विकास
अशिक्षा का मुकाबला करने के लिए शैक्षणिक सुविधाओं के अधिक प्रसार की और शिक्षकों की दक्षता, अनुकूलित शिक्षण विधियों के विकास की भी आवश्यकता है। इसके अलावा विभिन्न छात्रों की विविध और व्यक्तिगत सीखने की शैलियों/क्षमताओं के संदर्भ में गहरी समझ की भी आवश्यकता है। डैटा विज्ञान इस संदर्भ में समाधान प्रदान कर सकता है:
– देश भर में छात्रों के साथ-साथ शिक्षकों के विस्तृत प्रोफाइल तैयार करना;
– छात्रों के सीखने और प्रदर्शन के आंकड़े जुटाना;
– प्रतिभाओं के कुशल प्रबंधन के लिए व्यक्तिगत शिक्षण विधियों/शैलियों का विकास
– देश भर में कनेक्टेड डैटा के साथ अकादमिक अनुसंधान को बढ़ाना।
पर्यावरण संरक्षण
– भूमि, जल, वायु/अंतरिक्ष और जीवन के सम्बंध में डैटा एकत्र करना और पृथ्वी ग्रह के स्वास्थ्य को बढ़ाना;
– वनों की कटाई के विभिन्न कारणों जैसे मौसम पैटर्न, मिट्टी या नदियों की स्थलाकृति के बीच सम्बंध का पता लगाना;
– ग्रह-स्तरीय डिजिटल मॉडल निरंतर, वास्तविक समय में डैटा कैप्चर करेगा और चरम मौसम की घटनाओं और प्राकृतिक आपदाओं (जैसे, आग, तूफान, सूखा और बाढ़), जलवायु परिवर्तन और पृथ्वी के संसाधनों से सम्बंधित अत्यधिक सटीक पूर्वानुमान प्रदान कर सकता है;
– विलुप्ति की प्रक्रिया का कारण जानने और इसे उलटने के तरीके के लिए वर्षों से एकत्र किए गए आंकड़ों का विश्लेषण;
– विलुप्ति के खतरे से घिरे जीवों को बचाने के लिए कारणों का विश्लेषण।
ग्रामीण एवं शहरी नियोजन
भारत में नगर पालिकाओं, ग्राम पंचायतों, भू-राजस्व सम्बंधी डैटा अभी भी विशाल कागज़ी फाइलों में संग्रहित किया जाता है, जिससे कुशल निर्णय लेने में देरी होती है। डैटा विज्ञान डैटा को एकीकृत करने में मदद कर सकता है और डैटा साइंस राज्य के प्रबंधन के लिए प्रभावी नीति निर्माण और निर्णय प्रक्रिया में गति ला सकता है।
कुल मिलाकर डैटा विज्ञान के उपयोग के कई लाभ हैं। देश की विशाल प्रतिभा और अपेक्षाकृत कम श्रम लागत की बदौलत भारत तेज़ी से डैटा साइंस का केंद्र बनता जा रहा है। नैसकॉम विश्लेषण का अनुमान है कि भारतीय डैटा एनालिटिक्स बाज़ार 2017 के 2 अरब डॉलर से बढ़कर 2025 में 16 अरब डॉलर का हो जाएगा। यह तीव्र वृद्धि कई कारकों से प्रेरित है, जिसमें डैटा की बढ़ती उपलब्धता, डैटा-संचालित निर्णय-प्रक्रिया, कृत्रिम बुद्धि (एआई) की वृद्धि शामिल हैं। भारत में कई विश्वविद्यालयों में डैटा साइंस के कोर्सेस भी चलाए जा रहे हैं। (स्रोत फीचर्स)
नोट: स्रोत में छपे लेखों के विचार लेखकों के हैं। एकलव्य का इनसे सहमत होना आवश्यक नहीं है।
Photo Credit : https://techvidvan.com/tutorials/wp-content/uploads/sites/2/2020/02/data-science-application.jpg