Kaip išgauti tekstą iš HTML Java

Trumpai apžvelgsime, kaip ištraukti tekstą iš HTML Java naudojant vieną geriausių dokumentų duomenų išgavimo API. Sužinosite, kaip nustatyti aplinką ir kaip šiuos veiksmus paversti kodo rašymu, skirtu Java ekstrakto tekstas iš HTML programai įgyvendinti. Peržiūrėkime nuoseklias instrukcijas kartu su pavyzdiniu kodo fragmentu, kad ištrauktume tekstą iš HTML naudojant Java.

Veiksmai, kaip ištraukti tekstą iš HTML Java

  1. Įdiekite GroupDocs.Parser for Java iš Maven saugyklos Java projekte, kad ištrauktumėte tekstą iš HTML dokumento
  2. Importuokite pagrindines klases teksto ištraukimo iš HTML failo funkcijoms kurti
  3. Inicijuoti Parser klasę, kad būtų galima įkelti įvesties HTML dokumentą ir iš jo išgauti tekstą
  4. Iškvieskite Parser klasės metodą getText ir gaukite objektą TextReader
  5. Galiausiai perskaitykite skaitytojo tekstą ir parodykite jį

Aukščiau pateiktų punktų naudojimas padeda greitai sukurti ištraukimo tekstą iš HTML Java funkciją. Pirmasis veiksmas leidžia nustatyti biblioteką iš Maven saugyklos, o antrasis veiksmas padės importuoti reikalingas klases teksto ištraukimui. Kitas veiksmas leidžia įkelti HTML failą sukuriant Parser klasę. Po to, norėdami surinkti TextReader objektą, turite naudoti getText metodą ir perskaityti tekstą iš skaitytuvo.

Kodas, skirtas ištraukti tekstą iš HTML Java

Ankstesnis kodo fragmentas parodo, kaip sukurti programą gauti tekstą iš HTML Java. Sunaudojome keletą paprastų API iškvietimų, kad pasiektume norimą funkcionalumą. Be to, šis pavyzdys gali būti vykdomas bet kurioje operacinėje sistemoje, įskaitant Windows, Linux ir MacOS, nenustačius jokios papildomos programinės įrangos. Be to, galite pritaikyti šį pavyzdinį kodo fragmentą, kad gautumėte tekstą iš įvairių dokumentų formatų, tokių kaip DOCX, XLSX, PPTX, PDF, EML, MSG ir daugelio kitų.

Mes aptarėme išsamų procesą, kaip sukurti Java get Text iš HTML galimybių, ir sukūrėme pavyzdinį kodą. Neseniai paskelbėme straipsnį apie teksto ištraukimą iš Word dokumento naudojant Java. Daugiau informacijos rasite kaip ištraukti tekstą iš Word dokumento Java. vadove.

 Latviski