บทนำ
Aspose.Words FOSS เป็นไลบรารี Python แบบโอเพนซอร์สสำหรับทำงานกับเอกสาร Word มันสามารถอ่านไฟล์ DOCX, DOC, RTF, TXT และ Markdown และสามารถส่งออกเป็น PDF, Markdown หรือข้อความธรรมดา — ทั้งหมดโดยไม่ต้องใช้ Microsoft Word หรือการพึ่งพาเนทีฟใด ๆ.
ไลบรารีนี้เผยแพร่ภายใต้สัญญาอนุญาต MIT และมีให้บน PyPI. ติดตั้งโดยใช้:
pip install aspose-words-foss>=26.4.0
Aspose.Words FOSS ต้องการ Python 3.10 หรือใหม่กว่าและขึ้นอยู่กับแพ็กเกจ pure-Python สามตัว (olefile, fpdf2, pydantic) ซึ่งติดตั้งโดยอัตโนมัติผ่าน pip.
คุณลักษณะสำคัญ
การโหลดเอกสารและการแปลง
คลาส Document เป็นจุดเริ่มต้นหลัก โหลดไฟล์ในรูปแบบอินพุตที่รองรับใดก็ได้และเรียก save() เพื่อแปลงเป็นรูปแบบเอาต์พุตที่แตกต่าง.
import aspose.words_foss as aw
doc = aw.Document("input.docx") # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)
การส่งออก PDF
ส่งออกเอกสาร Word เป็น PDF โดยใช้ SaveFormat.PDF สำหรับการตั้งค่าเริ่มต้นหรือ PdfSaveOptions สำหรับการควบคุมแบบละเอียด.
import aspose.words_foss as aw
doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)
การส่งออก Markdown พร้อมตัวเลือกการบันทึก
ใช้ MarkdownSaveOptions และ PdfSaveOptions เพื่อควบคุมการจัดรูปแบบผลลัพธ์อย่างละเอียด.
import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions
doc = aw.Document("input.docx")
md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)
pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)
การสกัดข้อความ
สกัดข้อความธรรมดาจากรูปแบบเอกสารที่รองรับทั้งหมดโดยใช้ Document.get_text().
import aspose.words_foss as aw
doc = aw.Document("input.docx")
text = doc.get_text()
การแยกโครงสร้างเอกสาร
ตัวแยกวิเคราะห์เฉพาะทางสกัดข้อมูลเชิงโครงสร้างจากภายใน DOCX. NumberingParser อ่านคำนิยามการจัดลำดับรายการและ StyleParser แยกวิเคราะห์ชื่อสไตล์เป็นอ็อบเจกต์เชิงโครงสร้าง.
การสนับสนุนการป้อนข้อมูลหลายรูปแบบ
โหลดเอกสารจากรูปแบบอินพุตห้ารูปแบบ — DOCX, DOC, RTF, TXT, และ Markdown — โดยใช้คอนสตรัคเตอร์ Document เดียวกัน enum LoadFormat ให้ค่าคงที่สำหรับการเลือกรูปแบบอย่างชัดเจน (LoadFormat.DOCX, LoadFormat.DOC, LoadFormat.RTF, LoadFormat.TEXT, LoadFormat.MARKDOWN).
เริ่มต้นอย่างรวดเร็ว
ติดตั้งแพ็กเกจและแปลงไฟล์ DOCX ไปเป็นรูปแบบผลลัพธ์ทั้งสามรูปแบบ:
pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw
# Load a Word document
doc = aw.Document("report.docx")
# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)
# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)
# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)
# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")
รูปแบบที่รองรับ
| รูปแบบ | นามสกุล | อ่าน | เขียน |
|---|---|---|---|
| DOCX | .docx | ✓ | — |
| DOC | .doc | ✓ | — |
| RTF | .rtf | ✓ | — |
| TXT | .txt | ✓ | — |
| Markdown | .md | ✓ | ✓ |
| — | ✓ |
โอเพนซอร์สและการให้สิทธิ์
Aspose.Words FOSS for Python ถูกปล่อยภายใต้ MIT License. คุณสามารถใช้ได้อย่างอิสระในโครงการส่วนบุคคล ภายใน และเชิงพาณิชย์โดยไม่มีค่าธรรมเนียมใบอนุญาต. โค้ดต้นฉบับเต็มพร้อมให้ใช้งานบน GitHub ที่องค์กร Aspose Words FOSS.