आंकड़ों की गोपनीयता और सटीकता का संतुलन

सोमेश केलकर

यूएस में जनगणना हर 10 वर्ष में होती है। इसमें नागरिकों को यह आश्वासन दिया जाता है कि उनसे सम्बंधित आंकड़े गोपनीय (confidential) रहेंगे। लेकिन यह आश्वासन रस्सी पर चलने जैसा होता है – जितनी सशक्त प्रायवेसी (privacy) होगी, आंकड़ों की सटीकता (accuracy) उतनी ही कम होती जाएगी।

इनके बीच संतुलन बनाना विवाद का विषय बन गया है। आंकड़ों को अनाम बनाए रखने के लिए जिस तकनीक का उपयोग प्रस्तावित है, वह है डिफरेंशियल प्रायवेसी (differential privacy)  और इसी के समर्थकों और विरोधियों के बीच विवाद चल रहा है। विरोधियों का मत है कि डिफरेंशियल प्रायवेसी जैसी तकनीक से महत्वपूर्ण आंकड़ों की विश्वसनीयता (reliability) प्रभावित हो सकती है। तो पहले यह देखते हैं कि डिफरेंशियल प्रायवेसी क्या है और कैसे काम करती है। इसे समझने के लिए हम टेक कंपनियों (tech companies) का उदाहरण लेंगे। ये कंपनियां अपने मकसद से उपयोगकर्ताओं की जानकारी एकत्रित करने के लिए मशहूर हैं।

आजकल ये कंपनियां अपने उत्पादों और सेवाओं को बेहतर बनाने के लिए हमसे मिली जानकारी का अधिकाधिक उपयोग कर रही हैं। कंपनी के दृष्टिकोण से देखें तो यह काफी मददगार होता है। लेकिन उपभोक्ता की नज़र से देखें तो यह खतरनाक हो सकता है। उपभोक्ता का वैसे भी इस बात पर कोई नियंत्रण नहीं होता कि किस तरह की जानकारी जुटाई जा रही है। समस्या तब आएगी जब इन कंपनियों पर कोई सायबर हमला (cyber attack) सफल हो जाए और सारी संग्रहित सूचनाएं लीक हो जाएं। हाल ही में सोनी कंपनी के साथ ऐसा हो चुका है।

अर्थात उपभोक्ताओं और कंपनियों के बीच हितों का टकराव है। हितों के इसी टकराव के चलते डिफरेंशियल प्रायवेसी तकनीक का विकास हुआ है। डिफरेंशियल प्रायवेसी के चलते यह संभव हुआ है कि कंपनियां सूचनाएं एकत्रित करती रहें और उपभोक्ता की प्रायवेसी का उल्लंघन भी न हो। आप सोच रहे होंगे कि इतना सब तामझाम करने की बजाय हम सारे आंकड़ों को अनाम (anonymize) बनाकर काम क्यों नहीं चला सकते।

आंकड़ों के अनामीकरण का उपयोग उद्योगों में किया जाता रहा है, और यह सोचना सही है कि हम उपयोगकर्ताओं के आंकड़ों को पूरी तरह अनामीकृत कर सकते हैं। इसके लिए करना यह होगा कि हर आंकड़े में से व्यक्ति की पहचान करने वाले चिन्हों (आइडेंटिफायर्स) को हटा दिया जाए। आइडेंटिफायर सूचना के वे अंश होते हैं जिनकी मदद से यह पहचाना जा सकता है कि वह सूचना किस व्यक्ति-विशेष की है। अलबत्ता, आंकड़ा अनामीकरण की अपनी समस्याएं हैं।

एक बड़ी समस्या यह है कि अनामीकरण की प्रक्रिया कंपनी के सर्वर (servers) पर की जाती है और यह कहना मुश्किल है कि इन सर्वर्स पर कितना भरोसा करें। और फिर यह मुद्दा भी है कि अनामीकरण में कम-ज़्यादा का क्या अर्थ होता है।

वर्ष 2006 में नेटफ्लिक्स (Netflix) ने नेटफ्लिक्स प्राइज़ नामक एक पुरस्कार की शुरुआत की थी। इस पुरस्कार के लिए विभिन्न टीम्स को एक एल्गोरिद्म (algorithm) का निर्माण करना था जो यह भविष्यवाणी कर सके कि कोई व्यक्ति किसी फिल्म की क्या रेंटिंग करेगा। इसमें मदद के लिए नेटफ्लिक्स ने एक डैटासेट उपलब्ध कराया था जिसमें 1700 फिल्मों के 10 करोड़ रेंटिंग्स दिए गए थे। ये रेटिंग्स 4,80,000 उपयोगकर्ताओं से प्राप्त हुए थे।

नेटफ्लिक्स ने आंकड़ा अनामीकरण की उपरोक्त प्रक्रिया की मदद ली थी। इसके तहत हर आंकड़े में से उपयोगकर्ता का नाम हटा दिया गया था और कुछ रेंटिंग की जगह झूठे रेंटिंग्स डाल दिए गए थे। लगता तो है कि आंकड़े काफी अनामीकृत हैं लेकिन वास्तव में ऐसा नहीं है। टेक्सास विश्वविद्यालय के दो कंप्यूटर वैज्ञानिकों – अरविंद नारायणन और विताली श्मतिकोव ने एक शोध पत्र में दावा किया था कि उन्होंने उपरोक्त ‘अनामीकृत’ आंकड़ों को इंटरनेट मूवी डैटाबेस (IMDb) के साधारण आंकड़ों के साथ जोड़कर देखा तो वे एक-एक व्यक्ति को पहचान पाए थे। IMDb डैटा सार्वजनिक रूप से उपलब्ध है।

इस तरह के हमले को लिंकेज अटैक (linkage attack) कहते हैं और यहां तथाकथित अनामीकृत आंकड़ों को गैर-अनामीकृत आंकड़ों के साथ जोड़कर व्यक्ति की पहचान उजागर की जा सकती है।

ऐसा ही एक अन्य उदाहरण है जो ज़्यादा परेशान करने वाला है। यह उदाहरण है गवर्नर विलियम वेल्ड का। 1990 के दशक में अमेरिका सरकार के समूह बीमा आयोग ने तय किया कि वह सरकारी कर्मचारियों के अस्पताल जाने से सम्बंधित आंकड़े सार्वजनिक कर देगा। आयोग ने आंकड़ों को अनामीकृत करने के लिए उनमें से व्यक्ति के नाम, पते तथा अन्य पहचान चिन्ह हटा दिए थे।

एक कंप्यूटर वैज्ञानिक नातन्या स्वीनी (Natanya Sweeney) ने यह दर्शाने का निर्णय लिया कि अनामीकरण की इस प्रक्रिया को उलटना कितना आसान है। उन्होंने उपरोक्त प्रकाशित स्वास्थ्य रिकॉर्ड को वोटर रजिस्ट्रेशन रिकॉर्ड (voter registration records)  के साथ जोड़कर देखा। उन्होंने पाया कि इस डैटा में मात्र एक व्यक्ति ऐसा था जिसके निवास का ज़िप कोड, जिसका जेंडर और जिसकी जन्म तिथि गवर्नर से मेल खाते थे। इस तरह गवर्नर वेल्ड का स्वास्थ्य रिकॉर्ड सार्वजनिक रूप से उजागर हो गया था।

अपने अगले शोध पत्र में स्वीनी ने दावा किया कि 87 प्रतिशत अमरीकियों को मात्र तीन जानकारियों के आधार पर पहचाना जा सकता है: ज़िप कोड, जन्म तिथि और जेंडर।

स्पष्ट है कि आंकड़ा अनामीकरण उतना अनामीकारक नहीं है, जितना हम सोचते हैं। और यहीं डिफरेंशियल प्रायवेसी का प्रवेश होता है। डिफरेंशियल प्रायवेसी का एक फायदा यह बताया जाता है कि इसकी मदद से उपरोक्त किस्म के सायबर हमलों को नाकाम किया जा सकता है। इसे समझने के लिए हम एक अजीबोगरीब उदाहरण का सहारा लेंगे। जैसे, यह पता करना है कि कितने लोग नाक में उंगली डालते रहते हैं।

हम एक सर्वेक्षण करते हैं जिसमें मात्र एक सवाल पूछा गया है:

“क्या आप अपनी नाक में उंगली डालते हैं?

क –       हां

ख –       नहीं।”

इस सवाल के जो भी उत्तर मिलेंगे, उन्हें हम एक सर्वर पर संग्रहित कर लेंगे। लेकिन इसमें हम वास्तविक उत्तर को रिकॉर्ड करने की बजाय उसमें कुछ शोरगुल (नॉइज़) जोड़ देंगे।

मान लीजिए, सर्वेक्षण के एक उत्तरदाता अनीष का जवाब है ‘हां’। यहां डिफरेंशियल प्रायवेसी का एल्गोरिद्म यह है कि एक सिक्का उछाला जाएगा। यदि सिक्का चित गिरता है तो यह एल्गोरिद्म अनीष का वास्तविक जवाब सर्वर को भेज देगा। लेकिन यदि पट आता है तो सिक्का फिर से उछाला जाएगा। इस बार यदि चित आता है तो उत्तर के रूप में ‘नहीं’ भेजा जाएगा और पट आने पर वास्तविक उत्तर सर्वर में जाएगा।

ध्यान रखें कि डिफरेंशियल प्रायवेसी का एल्गोरिद्म चित-पट पर आधारित नहीं बल्कि कहीं अधिक जटिल हो सकता है। कुल मिलाकर एल्गोरिद्म आंकड़ों में नॉइज़ जोड़ने का काम करता है।

सर्वर पर जो आंकड़े आते हैं उनमें यह नॉइज़ शामिल होता है और इसलिए हम एक-एक व्यक्ति की सूचना प्राप्त नहीं कर सकते। हो सकता है कि अनीष का जवाब ‘हां’ रहा हो लेकिन रिकॉर्ड में वह ‘नहीं’ लिखा जाएगा। दरअसल लगभग 25 प्रतिशत संभावना है कि हमारा व्यक्तिगत आंकड़ा गलत होगा। यानी आप किसी व्यक्ति के जवाब को लेकर यकीनी तौर पर कुछ नहीं कह सकते और इस वजह से आप व्यक्तियों को लेकर फैसले नहीं सुना सकते। यह बात खास तौर पर अवैध या प्रतिबंधित गतिविधियों के बारे में महत्वपूर्ण है।

चूंकि आपको पता होता है कि नॉइज़ किस तरह से शामिल किया गया है और कैसे आंकड़ों में वितरित है, तो आप इसकी भरपाई करके काफी सटीकता से यह पता लगा सकते हैं कि किसी आबादी में कितने लोग नाक में उंगली डालते हैं, हालांकि एक-एक व्यक्ति के बारे में कुछ नहीं कह पाएंगे।

हमने अपने उदाहरण को सरल रखने के लिए सिक्का उछालने वाला एल्गोरिद्म लिया था, लेकिन वास्तव में डिफरेंशियल प्रायवेसी के एल्गोरिद्म में लाप्लेस वितरण का उपयोग किया जाता है। इस एल्गोरिद्म की मदद से आंकड़ों को एक बड़े परास में फैला दिया जाता है जिससे अनामीकरण में वृद्धि होती है।

डिफरेंशियल प्रायवेसी के इस संक्षिप्त परिचय के आधार पर हम समझ सकते हैं कि इस तकनीक की खूबी यह है कि यह व्यक्तिगत सूचना की प्रायवेसी सुनिश्चित करती है जबकि उस डैटासेट के समग्र परिणामों पर कोई असर नहीं डालती। अर्थात चाहे डिफरेंशियल प्रायवेसी तकनीक का इस्तेमाल किया जाए या न किया जाए, अंतिम परिणाम समान रहेगा।

लेकिन इसके साथ दिक्कत यह है कि इसका क्रियांवयन बहुत पेचीदा होता है और इसे आंकड़ों के विशाल भंडार पर ही लागू किया सकता है। तभी आंकड़ों की सटीकता से समझौता किए बगैर इसका उपयोग किया जा सकता है।

इसकी एक और कमज़ोरी यह है कि कतिपय संवेदनशील मामलों में आंकड़ों की सटीकता तो महत्वपूर्ण होती ही है, साथ में उन आंकड़ों से जुड़े नैतिक मूल्य भी महत्वपूर्ण होते हैं। जैसे, मतदाता आंकड़ों में नॉइज़ जोड़ना स्वीकार्य नहीं हो सकता, हालांकि अंतिम परिणाम शायद एक से हों। ऐसे मामलों में डिफरेंशियल प्रायवेसी शायद सर्वोत्तम विधि न हो। अब देखते हैं कि यूएस जनगणना के संदर्भ मे गोपनीयता बनाम सटीकता की बहस क्या है।

यूएस जनगणना

हर दशक में की जाने वाली जनगणना के दौरान नागरिकों को आश्वस्त किया जाता है कि उनके द्वारा दिए गए जवाब गोपनीय रहेंगे अर्थात कोई नहीं जान पाएगा किसी व्यक्ति-विशेष ने क्या जवाब दिए थे। लेकिन यूएस सेंसस ब्यूरो के इस आश्वासन में एक अगर-मगर जुड़ा है। बहुत सशक्त गोपनीयता आंकड़ों की सटीकता को कम कर सकती है। यह मुद्दा खास तौर से इसलिए महत्वपूर्ण हो गया क्योंकि सरकार ने 2020 की जनगणना में गोपनीयता-सुरक्षा की नई विधि शामिल की। इसकी वजह से जनांकिकीविदों के बीच यह चिंता फैली कि इसकी वजह से डैटा में घटियापन बढ़ेगा। जनगणना से प्राप्त डैटा अकादमिक अनुसंधान, संसदीय क्षेत्रों के निर्धारण और संघीय बजट के आवंटन की दृष्टि से महत्व रखता है। पुरानी विधि बनाम नई विधि के बीच बहस चलती रही, जब तक कि साइन्स एडवांसेस नामक शोध पत्रिका में एक अध्ययन प्रकाशित न हो गया। इस अध्ययन ने उपरोक्त चिंताओं के संदर्भ में स्वतंत्र आंकड़े प्रस्तुत किए। विशेषज्ञों का मत है कि इस पर्चे के निष्कर्ष 2030 की यूएस जनगणना में संशोधन करके मताधिकार सम्बंधी कानूनी मुद्दों को प्रभावित करेंगे।

जनगणना के आंकड़े शोधकर्ताओं और सरकार दोनों को देश में हो रहे जनांनिक परिवर्तनों को समझने में मदद करते हैं। ये आंकड़े सरकार को स्वास्थ्य, पोषण, आवास तथा इंफ्रास्ट्रक्चर जैसी चीज़ों को लेकर नियोजन में भी मदद करते हैं। यूएस जनगणना का प्रमुख संवैधानिक कारण यह है कि इसके आधार पर यूएस संसद में प्रांतवार सीटों का आवंटन किया जाता है। इसके लिए ज़रूरी होता है कि आपके पास सबसे छोटी मतदान इकाई तक के आंकड़े उपलब्ध हों ताकि वोटिंग राइट्स एक्ट, 1965 का समुचित क्रियांवयन हो सके।

जनांकिकीविद काफी समय से आंकड़ों की सटीकता और गोपनीयता के बीच संतुलन के महत्व को जानते आए हैं। उन्होंने 1990, 2000 और 2010 में इस्तेमाल की गई विधि के कारण उत्पन्न विकृतियों से तालमेल बनाना सीख लिया था। इन तीनों जनगणनाओं में जिस विधि का सहारा लिया गया था उसे अदला-बदली (swapping) कहते हैं।

साइन्स में एक लेख प्रकाशित हुआ है: “यूएस में गोपनीयता के नाम पर जनगणना के आंकड़ों को पर्दे में रखने का एक नया तरीका आया है। यह सटीकता को कैसे प्रभावित करेगा?” इसमें अलग-अलग जनगणना ब्लॉक्स के बाशिंदों के उम्र, नस्ल, जनजातीयता और पारिवारिक गुणधर्मों सम्बंधी जवाबों की परस्पर अदला-बदली की जाएगी ताकि उनकी गोपनीयता बनी रहे। ऐसे ब्लॉक्स की संख्या लगभग 1.1 करोड़ है और प्रत्येक की औसत आबादी 23 व्यक्ति है। इसके बाद इनके आंकड़ों को ज़्यादा बड़े क्षेत्र के डैटा के रूप में समेकित कर दिया जाएगा। शोधकर्ताओं का मत है कि ऐसी अदला-बदली उन व्यक्तियों को निशाना बनाती है, जिनके जनांकिक लक्षण निराले हैं और इनकी पहचान ज़्यादा आसानी से की जा सकती है। वैसे सेंसस ब्यूरो ने यह नहीं बताया है कि उसने इस विधि का उपयोग कितनी अधिक बार किया है।

2020 की जनगणना के संदर्भ में अधिकारियों ने माना कि अदला-बदली गोपनीयता सुनिश्चित करने की दृष्टि से पर्याप्त नहीं है। अधिकारियों को लगता था कि कोई ज़िद्दी हैकर सेंसस के आंकड़ों को अन्य सार्वजनिक सूचनाओं के साथ जोड़कर व्यक्तियों की पहचान कर सकता है। जिसे हम पहले ही लिंकेज अटैक के रूप में परिभाषित कर चुके हैं।

लिहाज़ा, सेंसस ब्यूरो ने पूर्ण गोपनीयता सुनिश्चित करने के लिए अदला-बदली के स्थान पर डिफरेंशियल प्रायवेसी को अपनाया है। इस तरीके में आंकड़ों में सांख्यिकीय नॉइज़ जोड़ दिया जाता है; अधिक संवेदनशील आंकड़ों में अधिक नॉइज़ डाला जाता है।

डिफरेंशियल प्रायवेसी का आंकड़ों की गुणवत्ता पर क्या असर होगा? इसे समझने के लिए शोधकर्ताओं के एक समूह ने सेंसस ब्यूरो से निवेदन किया कि वह 2020 की जनगणना की नॉइज़युक्त मापन फाइल जारी कर दे। इस फाइल में मूल आंकड़ों पर डिफरेंशियल प्रायवेसी एल्गोरिद्म लागू करने के बाद के आंकड़े होते हैं।

काफी जद्दोजहद के बाद ब्यूरो ने 2010 की वह फाइल उपलब्ध करवाई जिसमें अदला-बदली का इस्तेमाल किया गया था और साथ ही वह फाइल दी जिसमें प्रायोगिक तौर पर 2010 के आंकड़ों पर डिफरेंशियल प्रायवेसी लागू की गई थी।

इन फाइलों का विश्लेषण करके हारवर्ड, न्यूयॉर्क और येल विश्वविद्यालय के शोधकर्ता यह तुलना कर पाए कि इन दो तरीकों का आंकड़ों की सटीकता पर क्या असर होता है। अध्ययन का नतीजा था कि डिफरेंशियल प्रायवेसी और अदला-बदली दोनों ही बड़ी आबादी (जैसे समूचे प्रांत) के संदर्भ में आंकड़ों की सटीकता बनाए रखने में बराबर कारगर हैं। लेकिन सेंसस ब्लॉक जैसी छोटी भौगोलिक इकाइयों के मामले में डिफरेंशियल प्रायवेसी ज़्यादा त्रुटियों को जन्म देती है। ये त्रुटियां खास तौर से हिस्पेनिक तथा बहु-नस्लीय आबादियों के लिए ज़्यादा होती हैं। कई बार तो त्रुटि का परिमाण किसी समूह की कुल आबादी से भी अधिक होता है। जैसे, तीन हिस्पेनिक बाशिंदों वाले ब्लॉक में डिफरेंशियल प्रायवेसी द्वारा शामिल किए गए शोर की वजह से हो सकता है कि बाशिंदों की संख्या शून्य हो जाए या छ: हो जाए।

एक मायने में अदला-बदली और डिफरेंशियल प्रायवेसी के बीच का अंतर दरअसल ब्लॉक स्तर पर नज़र आने लगता है। यह अंतर इन दो विधियों के एक मूल अंतर में निहित है। अदला-बदली के अंतर्गत किसी भी ब्लॉक की कुल और मतदान उम्र की आबादी को वैसा ही रखा जाता है। अर्थात यदि किसी ब्लॉक की जनसंख्या 23 है, तो अदला-बदली के बाद भी 23 ही रहेगी। इसके विपरीत डिफरेंशियल प्रायवेसी में ऐसी कोई गारंटी नहीं होती। इसमें जोड़ा गया नॉइज़ कुल जनसंख्या में भी परिवर्तन कर सकता है और कभी-कभी तो असंभव से आंकड़े निकल सकते हैं – जैसे बाशिंदों की ऋणात्मक संख्या या बगैर वयस्क के रह रहे बच्चे, या किसी ब्लॉक में मकान की अनुपस्थिति।

इस तरह की विसंगतियों से बचने के लिए सेंसस अधिकारी आंकड़े जारी करने से पहले इन विचित्र स्थितियों को समायोजित करते हैं। अलबत्ता, सुधार की यह प्रक्रिया नई विकृतियां पैदा कर सकती है।

बहरहाल, डिफरेंशियल प्रायवेसी बेतरतीब नॉइज़ जोड़कर बेहतर नतीजे देती है, खास तौर से इसलिए कि इस नॉइज़ के सांख्यिकीय गुणधर्म सुस्पष्ट होते हैं। इसके चलते विकृतियों को संभालना अपेक्षाकृत आसान होता है जबकि अदला-बदली विधि में विकृतियां बहुत बेतरतीब होती हैं। लेकिन कुछ शोधकर्ताओं का मत है कि यदि ऋणात्मक आंकड़ों को शून्य में तबदील कर दिया जाता है तो यह एक बड़ा नुकसान है।

यूएस सेंसस ब्यूरो 2030 की जनगणना की तैयारी कर रहा है। ऐसे में उपरोक्त निष्कर्ष डैटा की सटीकता और प्रायवेसी सुरक्षा की विधियों पर विचार-विमर्श की ज़रूरत को रेखांकित करते हैं। एक तरीका यह हो सकता है कि सेंसस ब्यूरो थोड़े कम विस्तृत आंकड़े जारी करे। इसमें अनावश्यक रूप से सांख्यिकीय त्रुटियां जोड़ना नहीं पड़ेगा। लेकिन डैटा की बारीकियां सीमित करने से शोधकर्ताओं के लिए जनांकिक परिवर्तनों का विश्लेषण करना मुश्किल होगा और नीतिगत निर्णय प्रक्रिया भी बाधित होगी।

एक महत्वपूर्ण असर यह होगा कि विभिन्न सर्वेक्षण कार्य बाधित होंगे। किसी भी आबादी के प्रतिनिधिमूलक नमूने चुनने के लिए विस्तृत आंकड़े एक अनिवार्यता होती है। इन्हीं के आधार पर तय होता है कि क्या कोई नमूना समूची आबादी का प्रतिनिधित्व करता है। और ऐसे अध्ययनों के दम पर सार्वजनिक नीतियों, आर्थिक नियोजन, सामाजिक कार्यक्रमों वगैरह का मार्गदर्शन होता है।

तो हमारे सामने डैटा की प्रायवेसी सुनिश्चित करने और सटीकता अक्षुण्ण रखने के बीच संतुलन बनाने की चुनौती है। उपरोक्त कारणों से इनके बीच संतुलन काफी महत्वपूर्ण है। (स्रोत फीचर्स)

नोट: स्रोत में छपे लेखों के विचार लेखकों के हैं। एकलव्य का इनसे सहमत होना आवश्यक नहीं है।
Photo Credit : https://miro.medium.com/v2/resize:fit:786/format:webp/1*ZIHUABQCdmkT0bv6yx6oTw.png

प्रातिक्रिया दे