डेटा इम्प्यूटेशन: तकनीक और महत्व
-2024

डेटा इम्प्यूटेशन: तकनीक और महत्व -2024

डेटा इंप्यूटेशन एक ऐसी विधि है जिसका उपयोग डेटासेट में गुम डेटा को स्थानापन्न मानों से बदलने के लिए किया जाता है। यह आवश्यक है क्योंकि गुम डेटा को पूरी तरह से हटाने से डेटासेट का आकार कम हो सकता है, जिससे पूर्वाग्रह पैदा हो सकता है और गलत विश्लेषण हो सकता है।

इंप्यूटेशन को बेहतर ढंग से समझने के लिए, आइए ऊपर दी गई छवि देखें। बाईं तालिका में, हम लाल रंग में हाइलाइट किए गए गुम डेटा को देख सकते हैं। इंप्यूटेशन तकनीक लागू करके, हम डेटासेट के समग्र आकार को कम किए बिना, पीले रंग से चिह्नित दाईं तालिका में गुम डेटा भरते हैं। वास्तव में, इंप्यूटेशन हमें गुम मानों के लिए एक श्रेणी जोड़कर कॉलम के आकार को बढ़ाने की अनुमति देता है।

इंप्यूटेशन एक सांख्यिकीय तकनीक है जिसका उपयोग लुप्त डेटा को स्थानापन्न मानों से बदलने के लिए किया जाता है। एकल डेटा बिंदु को प्रतिस्थापित करते समय इसे “यूनिट इंप्यूटेशन” और डेटा बिंदु के घटक को प्रतिस्थापित करते समय “आइटम इंप्यूटेशन” के रूप में जाना जाता है।

गुम डेटा पक्षपात का कारण बन सकता है, डेटा विश्लेषण को अधिक चुनौतीपूर्ण बना सकता है, और दक्षता को कम कर सकता है। इस समस्या को हल करने के लिए, लापता मानों वाले मामलों को खत्म करने के लिए आरोपण को एक विकल्प माना जाता है। लापता डेटा वाले मामलों को हटाने के बजाय, आरोपण अन्य उपलब्ध डेटा के आधार पर अनुमानित मूल्यों के साथ लापता जानकारी को भरता है।

इससे डेटासेट में सभी मामलों को संरक्षित करने की अनुमति मिलती है और संपूर्ण डेटा के लिए डिज़ाइन किए गए तरीकों का उपयोग करके विश्लेषण करना संभव हो जाता है। यह ध्यान रखना महत्वपूर्ण है कि आरोपण के विभिन्न दृष्टिकोण डेटा में पूर्वाग्रह ला सकते हैं।

डेटा इम्प्यूटेशन का महत्व

डेटा इंप्यूटेशन एक सांख्यिकीय तकनीक है जिसका उपयोग गायब डेटा को स्थानापन्न मानों से बदलने के लिए किया जाता है। यह महत्वपूर्ण है क्योंकि गायब डेटा कई समस्याओं का कारण बन सकता है। सबसे पहले, यह चर के वितरण और विभिन्न श्रेणियों के सापेक्ष महत्व को बदलकर डेटासेट को विकृत करता है।

दूसरा, इससे SkLearn जैसी मशीन लर्निंग लाइब्रेरीज़ के साथ काम करना कठिन हो जाता है, क्योंकि वे गुम हुए डेटा को स्वचालित रूप से संभाल नहीं पाते हैं।

तीसरा, डेटा गायब होने से डेटासेट में पूर्वाग्रह आ सकता है, जो अंतिम मॉडल के विश्लेषण को प्रभावित कर सकता है। अंत में, हम किसी भी महत्वपूर्ण जानकारी को खोने से बचने के लिए पूरे डेटासेट को पुनर्स्थापित करना चाह सकते हैं। अगले भाग में, हम डेटा इंप्यूटेशन की विभिन्न तकनीकों और विधियों का पता लगाएंगे।

 

विभिन्न डेटा इम्प्यूटेशन तकनीकें

डेटा इंप्यूटेशन तकनीक का उपयोग डेटासेट में लुप्त मानों को बदलने के लिए किया जाता है। यहाँ कुछ सामान्य रूप से उपयोग की जाने वाली तकनीकें दी गई हैं:

अगला या पिछला मान: समय-श्रृंखला या क्रमबद्ध डेटा के लिए, श्रृंखला में अगला या पिछला मान लुप्त मान को प्रतिस्थापित करने के लिए उपयोग किया जाता है।

K निकटतम पड़ोसी: k निकटतम उदाहरणों में सबसे अधिक बार आने वाली विशेषता का मान लुप्त मान के स्थानापन्न के रूप में उपयोग किया जाता है।

अधिकतम या न्यूनतम मान: यदि डेटा की एक विशिष्ट सीमा है और लुप्त मान सीमा से बाहर है, तो सीमा के न्यूनतम या अधिकतम मान का उपयोग उसे प्रतिस्थापित करने के लिए किया जा सकता है।

लुप्त मान पूर्वानुमान: मशीन लर्निंग मॉडल का उपयोग डेटासेट में अन्य विशेषताओं के आधार पर लुप्त मान का पूर्वानुमान लगाने के लिए किया जाता है।

सर्वाधिक बारंबार आने वाला मान: स्तंभ में सर्वाधिक बारंबार आने वाले मान का उपयोग लुप्त मानों को प्रतिस्थापित करने के लिए किया जाता है।

औसत या रैखिक प्रक्षेप: लुप्त मान का अनुमान औसत की गणना करके या पिछले और अगले उपलब्ध मानों के बीच रैखिक प्रक्षेप का उपयोग करके लगाया जाता है।

(गोलाकार) माध्य या चल औसत या माध्यिका मान: फीचर के माध्य, गोलाकार माध्य या माध्यिका मान का उपयोग लुप्त मानों को प्रतिस्थापित करने के लिए किया जाता है।

डेटा प्रकार और विश्लेषण की विशिष्ट आवश्यकताओं के आधार पर उपयुक्त आरोपण तकनीक का चयन करना महत्वपूर्ण है।

 

अक्सर पूछे जाने वाले प्रश्नों

प्रश्न 1. डेटा इम्प्यूटेशन क्या है?

उत्तर: डेटा इंप्यूटेशन से तात्पर्य लापता या असंगत डेटा तत्वों को अनुमानित मूल्यों से बदलने की प्रक्रिया से है। इंप्यूटेशन का उद्देश्य एक संपूर्ण डेटा रिकॉर्ड बनाना है जो विशिष्ट मानदंडों को पूरा करता हो।

प्रश्न 2. मशीन लर्निंग में डेटा इम्प्यूटेशन का उपयोग कैसे किया जाता है?

उत्तर: मशीन लर्निंग में, मॉडल-आधारित इंप्यूटेशन का आमतौर पर उपयोग किया जाता है। इसमें डेटा के वितरण के बारे में मान्यताओं के आधार पर गुम मूल्यों का अनुमान लगाना शामिल है। माध्यिका और माध्य इंप्यूटेशन जैसी तकनीकें मॉडल-आधारित इंप्यूटेशन के उदाहरण हैं। वैकल्पिक रूप से, लक्ष्य चर और अन्य चर के बीच संबंधों के बारे में मान्यताएँ बनाकर भी इंप्यूटेशन किया जा सकता है ताकि गुम मूल्यों की भविष्यवाणी की जा सके।

प्रश्न 3. डेटा इम्प्यूटेशन के लिए उपयोग की जाने वाली कुछ तकनीकें क्या हैं?

उत्तर: डेटा इम्प्यूटेशन के लिए कई तकनीकें हैं, जिनमें शामिल हैं:

  • अगला या पिछला मूल्य आरोपण
  • K निकटतम पड़ोसी आरोपण
  • अधिकतम या न्यूनतम मूल्य आरोपण
  • लापता मूल्य भविष्यवाणी
  • सबसे अधिक बार होने वाला मूल्य आरोपण
  • औसत या रैखिक प्रक्षेप
  • गोल माध्य या चल औसत या मध्यिका मूल्य आरोपण
  • निश्चित मूल्य आरोपण

प्रश्न 4. डेटा इम्प्यूटेशन कब किया जाना चाहिए?

उत्तर: डेटा इंप्यूटेशन सबसे प्रभावी तब होता है जब केवल कुछ ही डेटा बिंदु गायब होते हैं। यह गायब डेटा के लिए प्रशंसनीय परिकल्पनाएँ बनाने में मदद करता है।

प्रश्न 5. डेटा इम्प्यूटेशन क्यों महत्वपूर्ण है?

उत्तर: डेटा इंप्यूटेशन महत्वपूर्ण है क्योंकि यह हमें अन्य उपलब्ध जानकारी के आधार पर अनुमानित मूल्यों के साथ लापता मूल्यों को प्रतिस्थापित करके डेटासेट में सभी मामलों को संरक्षित करने की अनुमति देता है। एक बार सभी मानों को इंप्यूट कर दिए जाने के बाद, डेटासेट का विश्लेषण आमतौर पर पूर्ण डेटा के लिए उपयोग की जाने वाली विधियों का उपयोग करके किया जा सकता है।

अनुशंसित पठन

 साक्षात्कार प्रश्न और उत्तर

डेटा साइंस इंटर्नशिप प्रोग्राम

डेटा विज्ञान में मास्टर

आईआईटी मद्रास डेटा साइंस कोर्स

बीएससी डेटा साइंस पाठ्यक्रम

you may be interested in this blog here:-

Advanced OOP Concepts in SAP ABAP A Comprehensive Guide

Salesforce Developer Salary in India An In-Depth Analysis

SAP MM Consultant resume 3 years experience

admin
admin
https://www.thefullstack.co.in

Leave a Reply