บทนำ

Aspose.Words FOSS เป็นไลบรารี Python แบบโอเพนซอร์สสำหรับทำงานกับเอกสาร Word มันสามารถอ่านไฟล์ DOCX, DOC, RTF, TXT และ Markdown และสามารถส่งออกเป็น PDF, Markdown หรือข้อความธรรมดา — ทั้งหมดโดยไม่ต้องใช้ Microsoft Word หรือการพึ่งพาเนทีฟใด ๆ.

ไลบรารีนี้เผยแพร่ภายใต้สัญญาอนุญาต MIT และมีให้บน PyPI. ติดตั้งโดยใช้:

pip install aspose-words-foss>=26.4.0

Aspose.Words FOSS ต้องการ Python 3.10 หรือใหม่กว่าและขึ้นอยู่กับแพ็กเกจ pure-Python สามตัว (olefile, fpdf2, pydantic) ซึ่งติดตั้งโดยอัตโนมัติผ่าน pip.


คุณลักษณะสำคัญ

การโหลดเอกสารและการแปลง

คลาส Document เป็นจุดเริ่มต้นหลัก โหลดไฟล์ในรูปแบบอินพุตที่รองรับใดก็ได้และเรียก save() เพื่อแปลงเป็นรูปแบบเอาต์พุตที่แตกต่าง.

import aspose.words_foss as aw

doc = aw.Document("input.docx")  # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)

การส่งออก PDF

ส่งออกเอกสาร Word เป็น PDF โดยใช้ SaveFormat.PDF สำหรับการตั้งค่าเริ่มต้นหรือ PdfSaveOptions สำหรับการควบคุมแบบละเอียด.

import aspose.words_foss as aw

doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)

การส่งออก Markdown พร้อมตัวเลือกการบันทึก

ใช้ MarkdownSaveOptions และ PdfSaveOptions เพื่อควบคุมการจัดรูปแบบผลลัพธ์อย่างละเอียด.

import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions

doc = aw.Document("input.docx")

md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)

pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)

การสกัดข้อความ

สกัดข้อความธรรมดาจากรูปแบบเอกสารที่รองรับทั้งหมดโดยใช้ Document.get_text().

import aspose.words_foss as aw

doc = aw.Document("input.docx")
text = doc.get_text()

การแยกโครงสร้างเอกสาร

ตัวแยกวิเคราะห์เฉพาะทางสกัดข้อมูลเชิงโครงสร้างจากภายใน DOCX. NumberingParser อ่านคำนิยามการจัดลำดับรายการและ StyleParser แยกวิเคราะห์ชื่อสไตล์เป็นอ็อบเจกต์เชิงโครงสร้าง.

การสนับสนุนการป้อนข้อมูลหลายรูปแบบ

โหลดเอกสารจากรูปแบบอินพุตห้ารูปแบบ — DOCX, DOC, RTF, TXT, และ Markdown — โดยใช้คอนสตรัคเตอร์ Document เดียวกัน enum LoadFormat ให้ค่าคงที่สำหรับการเลือกรูปแบบอย่างชัดเจน (LoadFormat.DOCX, LoadFormat.DOC, LoadFormat.RTF, LoadFormat.TEXT, LoadFormat.MARKDOWN).


เริ่มต้นอย่างรวดเร็ว

ติดตั้งแพ็กเกจและแปลงไฟล์ DOCX ไปเป็นรูปแบบผลลัพธ์ทั้งสามรูปแบบ:

pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw

# Load a Word document
doc = aw.Document("report.docx")

# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)

# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)

# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)

# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")

รูปแบบที่รองรับ

รูปแบบนามสกุลอ่านเขียน
DOCX.docx
DOC.doc
RTF.rtf
TXT.txt
Markdown.md
PDF.pdf

โอเพนซอร์สและการให้สิทธิ์

Aspose.Words FOSS for Python ถูกปล่อยภายใต้ MIT License. คุณสามารถใช้ได้อย่างอิสระในโครงการส่วนบุคคล ภายใน และเชิงพาณิชย์โดยไม่มีค่าธรรมเนียมใบอนุญาต. โค้ดต้นฉบับเต็มพร้อมให้ใช้งานบน GitHub ที่องค์กร Aspose Words FOSS.


เริ่มต้นใช้งาน