ब्यूटीफुलसूप: पायथन में वेब स्क्रैपिंग के लिए शुरुआती गाइड-2024
सुंदर सूप: वेब पर डेटा पर बढ़ती निर्भरता के साथ, विभिन्न कार्यों के लिए वेब से डेटा निकालना एक महत्वपूर्ण कार्य है। मशीन लर्निंग मॉडल को कभी-कभी अपने डेटासेट बनाने के लिए वेब पेज से डेटा की आवश्यकता होती है।पायथन में वेब स्क्रैपिंग
ब्यूटीफुलसूप टूल एक पायथन वेब स्क्रैपिंग टूल है जिसका उपयोग XML और HTML फ़ाइलों से डेटा निकालने के लिए किया जाता है। यह शीर्षक, पैराग्राफ, लिंक आदि जैसे तत्वों को निकाल सकता है। यह पायथन लाइब्रेरी में एक शक्तिशाली वेब स्क्रैपिंग टूल है जो आसानी से असंरचित डेटा को संरचित प्रारूप में परिवर्तित कर सकता है।
पायथन में ब्यूटीफुलसूप क्या है?
ब्यूटीफुलसूप एक पायथन पैकेज है जिसका उपयोग HTML और XML फ़ाइलों से उपयोगी डेटा निकालने के लिए किया जाता है। जैसा कि नाम से पता चलता है, इसका उपयोग आम तौर पर अवांछित, अव्यवस्थित डेटा को व्यवस्थित करने और हटाने के लिए किया जाता है।
यह फ़ाइलों को स्पष्ट रूप से प्रस्तुत करने के लिए खराब कोड को व्यवस्थित और व्यवस्थित करता है। आजकल, मशीन लर्निंग मॉडल के लिए डेटा निकालने के लिए वेब पेजों पर विभिन्न वेब स्क्रैपिंग प्रक्रियाओं के लिए इसका अक्सर उपयोग किया जाता है। यह यह भी सत्यापित करता है कि क्या सभी HTML तत्व ठीक से व्यवस्थित हैं। यह डेवलपर्स के लिए एक उपयोगी उपकरण हो सकता है। इसका उपयोग वेब पेजों से डेटा निकालने और साफ करने के लिए किया जाता है।
यह भी पढ़ें: पायथन में आर्मस्ट्रांग संख्या
ब्यूटीफुलसूप: वेब स्क्रैपिंग क्यों?
वेब स्क्रैपिंग उद्यमों के लिए कई कारणों से महत्वपूर्ण है। नीचे कुछ कारणों पर नज़र डालें।
- इसका उपयोग विश्लेषकों, शोधकर्ताओं, पत्रकारों द्वारा सोशल मीडिया सामग्री, समाचार लेख, समीक्षा और ऑनलाइन उपलब्ध कई अन्य वेब पेजों से महत्वपूर्ण जानकारी निकालने के लिए किया जाता है। यह उनके लिए मैन्युअल रूप से जानकारी निकालने के बजाय स्वचालित निष्कर्षण का एक बढ़िया विकल्प हो सकता है।
- वेब स्क्रैपिंग टूल व्यवसायों को प्रतिस्पर्धियों के मूल्य निर्धारण, उत्पादों, प्रस्तावों और रणनीतियों की निगरानी और विश्लेषण करने में मदद कर सकते हैं।
- इसका उपयोग व्यवसायों द्वारा बिक्री और विपणन उद्देश्यों के लिए लीड उत्पन्न करने के लिए भी किया जाता है।
- वेब स्क्रैपिंग टूल का उपयोग असंरचित डेटा को संरचित रूप में बदलने के लिए किया जा सकता है। यह अव्यवस्थित और अव्यवस्थित कोड को ठीक करने में भी मदद कर सकता है।
- यह वास्तविक समय स्टॉक डेटा निकालने और निगरानी करने में मदद कर सकता है।
- शोधकर्ता इस उपकरण का उपयोग शैक्षणिक विषय-वस्तु और सामग्रियों को निकालने के लिए कर सकते हैं।
- कई SEO उपकरण, जैसे SEMrush, Ahrefs, आदि का उपयोग प्रतिस्पर्धी विश्लेषण और वेब पेजों से डेटा निकालने के लिए किया जाता है।
सुंदरसूप: HTML वृक्ष संरचना
यह महत्वपूर्ण है कि HTML तत्व ठीक से व्यवस्थित हों। मूल तत्व विंडो, दस्तावेज़, HTML, हेड, बॉडी, शीर्षक, स्टाइल, h1, स्क्रिप्ट आदि से शुरू होते हैं। नीचे HTML फ़ाइल का स्वरूपित प्रतिनिधित्व देखें।
वेब स्क्रैपिंग के लिए पायथन क्यों?
जब अनुकूलनशीलता, दक्षता और कार्यान्वयन में आसानी की बात आती है तो पायथन वास्तव में सबसे अनुकूल भाषाओं में से एक है। पायथन भाषा का उपयोग करना आसान है क्योंकि इसका सिंटैक्स आसान और अधिक पठनीय है। इसमें एक विशाल लाइब्रेरी और फ्रेमवर्क शामिल है, जिससे डेवलपर्स अधिक प्रभावी ढंग से और तेज़ी से काम कर सकते हैं।
गतिशील रूप से टाइप की गई भाषा होने के कारण, यह त्वरित विकास प्रदान करती है और बहुत समय बचाती है। विशाल सामुदायिक समर्थन के साथ, इस भाषा से संबंधित संसाधन और ट्यूटोरियल ढूंढना अन्य भाषाओं की तुलना में बहुत आसान है। इसलिए, वेब स्क्रैपिंग के लिए अन्य भाषाओं की तुलना में पायथन को प्राथमिकता दी जाती है।
यह भी पढ़ें: पायथन में एल्गोरिदम: (परिभाषा, प्रकार, कैसे करें)
ब्यूटीफुलसूप: कैसे स्थापित करें?
अपने सिस्टम पर आसानी से BeautifulSoup को इंस्टॉल करने के लिए नीचे दिए गए चरणों को देखें। यह पायथन मानक लाइब्रेरी का हिस्सा नहीं है। इसलिए, इसे अलग से इंस्टॉल करना होगा।
- सबसे पहले, सुनिश्चित करें कि आपके सिस्टम पर Python 3.8 या बाद का संस्करण है। आप अपने टर्मिनल या कमांड प्रॉम्प्ट विंडो पर नीचे दिए गए कमांड का उपयोग करके अपने Python IDE के नवीनतम संस्करण की जाँच कर सकते हैं। यह स्क्रीन पर Python संस्करण प्रदर्शित करेगा। यदि नहीं, तो आप आसानी से Python को ऑनलाइन मुफ़्त में डाउनलोड कर सकते हैं।
पायथन में सुंदर सूप |
पायथन – – संस्करण |
- अब, Pip का उपयोग करके, beautifulsoup स्थापित करें, जो कि Python 2.4 या बाद के संस्करणों पर डिफ़ॉल्ट रूप से मौजूद है।
पायथन में सुंदर सूप |
पाइप इंस्टॉल ब्यूटीफुलसूप4 |
- इंस्टॉलेशन के बाद, सत्यापित करें कि यह आपके सिस्टम पर ठीक से इंस्टॉल है या नहीं। आप BeautifulSoup के संस्करण को प्रिंट करने के लिए एक सरल पायथन स्क्रिप्ट चला सकते हैं।
पायथन में सुंदर सूप |
bs4.__संस्करण__ |
अगर ब्यूटीफुलसूप ठीक से इंस्टॉल है, तो यह कमांड प्रॉम्प्ट पर ‘4.12.2’ जैसा संस्करण प्रदर्शित करेगा। अगर इंस्टॉलेशन सफल नहीं है, तो आपको अपने कमांड प्रॉम्प्ट स्क्रीन पर ModuleNotFoundError मिलेगा।
ब्यूटीफुलसूप: वेब पेज का शीर्षक निकालें
अपने सिस्टम पर ब्यूटीफुलसूप4 पैकेज इंस्टॉल करने के बाद, आइए वेब स्क्रैपर टूल का उपयोग करके वेब पेज का शीर्षक निकालें। आप कार्य को आसानी से पूरा करने के लिए ऑनलाइन पायथन कंपाइलर का भी उपयोग कर सकते हैं। PW लैब अभ्यास के लिए अच्छा हो सकता है। आप पैकेज को स्पष्ट रूप से इंस्टॉल किए बिना आसानी से शुरू कर सकते हैं।
पायथन में सुंदर सूप |
bs4 से BeautifulSoup आयात करेंआयात अनुरोध
यूआरएल = “ req = अनुरोध.get(url) सूप = सुंदर सूप (आवश्यकता.सामग्री, “html.parser”) प्रिंट(सूप.शीर्षक) |
उपरोक्त कोड सूप.टाइटल से दिए गए वेब पेज का शीर्षक निकालने में मदद करेगा। आइए हम अनुरोध में यूआरएल डालें और डिफ़ॉल्ट HTML पार्सर का उपयोग करके जानकारी प्राप्त करें। हम बाहरी पार्सर जैसे LXML’S HTML पार्सर, html5lib, आदि का भी उपयोग कर सकते हैं। उपरोक्त कोड का आउटपुट नीचे दिया गया है।
BeautifulSoup: वेब पेज से URL निकालें
अब हम अपने पार्सर टूल का उपयोग करके वेब पेज पर मौजूद सभी URL को एक्सट्रेक्ट करते हैं। दी गई वेबसाइट के सभी URL को एक्सट्रेक्ट करने के लिए नीचे दिया गया कोड लिखें।
पायथन में सुंदर सूप |
सूप में लिंक के लिए.find_all(‘a’): प्रिंट(लिंक.get(‘href’)) |
अब, आइए beautifulsoup का उपयोग करके pwskills.com वेब पेज पर मौजूद सभी URL की जांच करें।
पायथन में सुंदर सूप |
सूप में लिंक के लिए.find_all(‘a’): प्रिंट(लिंक.get(‘href’)) |
उत्पादन
सुंदर सूप: उपयोगी निष्कर्षण टैग
BeautifulSoup में अक्सर उपयोग किए जाने वाले कुछ निष्कर्षण टैग देखें, जिनका उपयोग HTML या XML फ़ाइलों से विभिन्न जानकारी निकालने के लिए किया जा सकता है।
पायथन में सुंदर सूप | |
टैग | विवरण |
सूप.शीर्षक | इसका उपयोग फ़ाइल के वेब पेज के HTML शीर्षकों को निकालने के लिए किया जाता है। |
सूप.शीर्षक.नाम | यह शीर्षक का नाम निकालता है। |
सूप.पी | यह HTML दस्तावेज़ या वेब पेज के अंदर पैराग्राफ को निकालता है। |
सूप.पी[‘class’] | यह वर्गाकार कोष्ठकों के नीचे दिए गए किसी विशेष वर्ग का पैराग्राफ निकालता है। |
सूप.a | इसका उपयोग दस्तावेज़ या वेब पेज में मौजूद सभी URL निकालने के लिए किया जा सकता है। |
सूप.get_text() | यह किसी वेब पेज या HTML फ़ाइल से समस्त पाठ निकाल सकता है। |
सूप.find_all(‘tag_name) | इसका उपयोग किसी दिए गए टैग की सभी घटनाओं को खोजने के लिए किया जाता है। |
अनुशंसित तकनीकी पाठ्यक्रम
BeautifulSoup: पार्सर स्थापित करना
ब्यूटीफुलसूप पैकेज में डिफ़ॉल्ट रूप से एक HTML पार्सर होता है, जो पायथन मानक लाइब्रेरी में मौजूद होता है। हालाँकि, यह कई अन्य पार्सर जैसे lxml, html5lib आदि का भी समर्थन करता है। आप नीचे दिए गए टैग का उपयोग करके आसानी से lxml इंस्टॉल कर सकते हैं।
1. अपने सिस्टम पर lxml पार्सर स्थापित करना
अपने सिस्टम पर lxml पार्सर स्थापित करने के लिए नीचे दिए गए किसी भी कोड का उपयोग करें।
पायथन में सुंदर सूप |
$ apt-get python-lxml इंस्टॉल करें$ आसान_इंस्टॉल lxml
$ पाइप इंस्टॉल lxml |
2. अपने सिस्टम पर html5lib पार्सर स्थापित करें
अपने सिस्टम पर Beautifulsoup स्थापित करने के लिए नीचे दिए गए किसी भी कमांड का उपयोग करें।
पायथन में सुंदर सूप |
$ apt-get python-html5lib इंस्टॉल करें$ आसान_इंस्टॉल html5lib
$ pip html5lib स्थापित करें |
पाइथन में सुंदर सूप FAQ
पायथन में ब्यूटीफुलसूप क्या है?
ब्यूटीफुलसूप एक पायथन पैकेज है जिसका उपयोग HTML और XML फ़ाइलों से उपयोगी डेटा निकालने के लिए किया जाता है। जैसा कि नाम से पता चलता है, इसका उपयोग आम तौर पर अवांछित अव्यवस्थित डेटा को व्यवस्थित करने और हटाने के लिए किया जाता है।
पायथन में सुंदर सूप का नवीनतम संस्करण क्या है?
Beautifulsoup4 को Pip का उपयोग करके Python 3.4 या बाद के संस्करणों पर आसानी से स्थापित किया जा सकता है।
इसे सुंदर सूप क्यों कहा जाता है?
ब्यूटीफुल सूप का इस्तेमाल वेब पेजों से जानकारी निकालने और अव्यवस्थित और अव्यवस्थित HTML या XML कोड को क्रम के अनुसार व्यवस्थित करने के लिए किया जाता है। इसलिए, इसे ठीक करें और इसे व्यवस्थित बनाएं। इसलिए इसे ब्यूटीफुल सूप कहा जाता है।
पायथन में वेब स्क्रैपिंग क्या है?
वेब स्क्रैपिंग टूल का उपयोग विभिन्न ऑनलाइन वेब पेजों से महत्वपूर्ण और उपयोगी जानकारी निकालने के लिए किया जाता है। यह वास्तविक समय में महत्वपूर्ण जानकारी निकालकर व्यवसायों के लिए लाभ बढ़ा सकता है।
Leave a Reply