วิธีแยกข้อความจาก PDF ใน C#

บทช่วยสอนฉบับย่อนี้อธิบายคำแนะนำโดยละเอียดเพื่อ แยกข้อความจาก PDF ใน C# นอกจากนี้ยังมีแอปพลิเคชันตัวอย่างเพื่อแสดงการใช้งาน แยกข้อความจาก PDF โดยใช้ C# คู่มือนี้ใช้หนึ่งในแพ็คเกจยอดนิยมสำหรับการแยกข้อมูลเอกสารจากรูปแบบเอกสารต่างๆ ด้านล่างนี้คือขั้นตอนหลักและโค้ดตัวอย่างเพื่อรับข้อความจาก PDF

ขั้นตอนในการแยกข้อความจาก PDF ใน C#

  1. ตั้งค่าแพ็คเกจ GroupDocs.Parser for .NET จากตัวจัดการแพ็คเกจ NuGet ในแอปพลิเคชัน .NET เพื่อแยกข้อความจาก PDF
  2. เพิ่มการอ้างอิงไปยังเนมสเปซที่จำเป็นสำหรับการแยกข้อความจากเอกสาร PDF
  3. สร้างอินสแตนซ์คลาส Parser สำหรับการโหลดเอกสาร PDF อินพุต
  4. เรียกใช้เมธอด GetText และรับวัตถุตัวอ่านข้อความ
  5. สุดท้าย อ่านข้อความจากผู้อ่านและแสดง

เราได้ระบุขั้นตอนสำคัญทั้งหมดในการพัฒนา C# แยกข้อความจากแอปพลิเคชัน PDF คำแนะนำในการแยกข้อความจาก PDF เหล่านี้สามารถใช้ได้บนทุกแพลตฟอร์ม เช่น MS Windows, Linux และ macOS ที่รองรับสภาพแวดล้อม .NET และแม้ไม่ต้องติดตั้งซอฟต์แวร์ของบริษัทอื่น คุณต้องเขียนโค้ดสองสามบรรทัดที่ประกอบด้วยการเรียก API ของไลบรารีการแยกเอกสาร

รหัสเพื่อแยกข้อความจาก PDF ใน C

ในข้อมูลโค้ดข้างต้น เราได้พัฒนาแอปพลิเคชัน C# อ่านข้อความ PDF เพื่อแสดงให้คุณเห็นการทำงานของการรับข้อความจากเอกสาร เราใช้ไฟล์ PDF เพื่อแยกข้อความในตัวอย่างนี้ อย่างไรก็ตาม คุณสามารถแยกข้อความจากเอกสารอื่นๆ เช่น DOC, DOCX, XLS, XLSX, PPTX, MSG, XML, ZIP และอื่นๆ อีกมากมาย

เราได้กล่าวถึงกระบวนการโดยละเอียดเพื่อใช้งาน C# รับข้อความจากฟังก์ชัน PDF และสร้างโค้ดตัวอย่างสำหรับมัน เมื่อเร็ว ๆ นี้ เราได้เผยแพร่บทความเกี่ยวกับการแยกข้อมูลเมตาจาก PDF ใน C# โปรดดูคำแนะนำ วิธีแยกข้อมูลเมตาจาก PDF โดยใช้ C # สำหรับข้อมูลเพิ่มเติม

 ไทย