जावा में HTML से टेक्स्ट कैसे निकालें

हम संक्षेप में इस प्रक्रिया पर गौर करेंगे कि कैसे ** जावा में HTML से टेक्स्ट निकालें** सबसे अच्छे दस्तावेज़ डेटा निष्कर्षण एपीआई में से एक का पालन करके। आप सीखेंगे कि पर्यावरण को कैसे सेट किया जाए और कैसे इन चरणों को HTML से ** जावा एक्सट्रैक्ट टेक्स्ट के कार्यान्वयन के लिए कोड लिखने में बदल दिया जाए। आइए जावा का उपयोग करके HTML से टेक्स्ट निकालने के लिए नमूना कोड स्निपेट के साथ चरणबद्ध निर्देशों की समीक्षा करें।

जावा में HTML से टेक्स्ट निकालने के चरण

  1. HTML दस्तावेज़ से टेक्स्ट निकालने के लिए जावा प्रोजेक्ट में मावेन रिपॉजिटरी से GroupDocs.Parser for Java इंस्टॉल करें
  2. HTML फ़ाइल से टेक्स्ट निकालने की कार्यक्षमता विकसित करने के लिए आवश्यक कक्षाएं आयात करें
  3. इनपुट HTML दस्तावेज़ लोड करने के लिए Parser वर्ग को प्रारंभ करें ताकि उसमें से टेक्स्ट निकाला जा सके
  4. पार्सर वर्ग की getText विधि को कॉल करें और TextReader ऑब्जेक्ट प्राप्त करें
  5. अंत में, पाठक से पाठ पढ़ें और उसे प्रदर्शित करें

उपरोक्त बिंदुओं का क्रम में उपयोग करने से आपको जल्दी से HTML Java से पाठ निकालने कार्यक्षमता बनाने में मदद मिलती है। पहला चरण आपको मावेन रिपॉजिटरी से पुस्तकालय स्थापित करने में सक्षम बनाता है और दूसरा चरण आपको पाठ निष्कर्षण करने के लिए आवश्यक कक्षाओं को आयात करने के लिए मार्गदर्शन करता है। अगला चरण आपको पार्सर वर्ग को इंस्टेंट करके HTML फ़ाइल लोड करने की अनुमति देता है। उसके बाद, आपको TextReader ऑब्जेक्ट को इकट्ठा करने के लिए getText विधि का उपयोग करना होगा और फिर रीडर से टेक्स्ट पढ़ना होगा।

जावा में HTML से टेक्स्ट निकालने के लिए कोड

पिछला कोड स्निपेट दिखाता है कि HTML Java से टेक्स्ट प्राप्त करें एप्लिकेशन को कैसे विकसित किया जाए। वांछित कार्यक्षमता प्राप्त करने के लिए हमने कुछ सरल एपीआई कॉल का उपभोग किया है। इसके अलावा, इस उदाहरण को विंडोज, लिनक्स और मैकओएस सहित किसी भी ऑपरेटिंग सिस्टम पर बिना किसी अतिरिक्त सॉफ्टवेयर को सेट किए निष्पादित किया जा सकता है। इसके अलावा, आप इस नमूना कोड स्निपेट को विभिन्न दस्तावेज़ प्रारूपों जैसे DOCX, XLSX, PPTX, PDF, EML, MSG, और कई अन्य से टेक्स्ट प्राप्त करने के लिए अनुकूलित कर सकते हैं।

हमने HTML क्षमता से जावा गेट टेक्स्ट बनाने की विस्तृत प्रक्रिया पर चर्चा की है और इसके लिए एक नमूना कोड तैयार किया है। हाल ही में, हमने जावा का उपयोग करते हुए Word दस्तावेज़ से पाठ निकालने पर एक लेख प्रकाशित किया है, अधिक जानकारी के लिए जावा में वर्ड डॉक्यूमेंट से टेक्स्ट कैसे निकालें? मार्गदर्शिका देखें।

 हिन्दी