Pengenalan
Aspose.Words FOSS ialah perpustakaan Python sumber terbuka untuk bekerja dengan dokumen Word. Ia membaca fail DOCX, DOC, RTF, TXT, dan Markdown, dan boleh mengeksportnya ke PDF, Markdown, atau teks biasa — semua tanpa memerlukan Microsoft Word atau sebarang kebergantungan asli.
Perpustakaan ini dikeluarkan di bawah Lesen MIT dan tersedia di PyPI. Pasang ia dengan:
pip install aspose-words-foss>=26.4.0
Aspose.Words FOSS memerlukan Python 3.10 atau lebih baru dan bergantung pada tiga pakej pure-Python (olefile, fpdf2, pydantic), dipasang secara automatik oleh pip.
Ciri-ciri Utama
Pemuat Dokumen dan Penukaran
Kelas Document adalah titik masuk utama. Muatkan fail dalam mana-mana format input yang disokong dan panggil save() untuk menukarnya ke format output yang berbeza.
import aspose.words_foss as aw
doc = aw.Document("input.docx") # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)
Eksport PDF
Eksport dokumen Word ke PDF menggunakan SaveFormat.PDF untuk tetapan lalai atau PdfSaveOptions untuk kawalan terperinci.
import aspose.words_foss as aw
doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)
Eksport Markdown dengan Pilihan Simpan
Gunakan MarkdownSaveOptions dan PdfSaveOptions untuk kawalan halus ke atas pemformatan output.
import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions
doc = aw.Document("input.docx")
md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)
pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)
Ekstraksi Teks
Ekstrak teks biasa dari mana-mana format dokumen yang disokong menggunakan Document.get_text().
import aspose.words_foss as aw
doc = aw.Document("input.docx")
text = doc.get_text()
Penguraian Struktur Dokumen
Pengurai khusus mengekstrak data berstruktur daripada dalaman DOCX. NumberingParser membaca definisi penomboran senarai dan StyleParser mengurai nama gaya menjadi objek berstruktur.
Sokongan Input Pelbagai Format
Muat dokumen dari lima format input — DOCX, DOC, RTF, TXT, dan Markdown — menggunakan konstruktor Document yang sama. Enum LoadFormat menyediakan pemalar untuk pemilihan format secara eksplisit (LoadFormat.DOCX, LoadFormat.DOC, LoadFormat.RTF, LoadFormat.TEXT, LoadFormat.MARKDOWN).
Permulaan Cepat
Pasang pakej dan tukar fail DOCX kepada semua tiga format output:
pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw
# Load a Word document
doc = aw.Document("report.docx")
# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)
# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)
# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)
# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")
Format yang Disokong
| Format | Extension | Baca | Tulis |
|---|---|---|---|
| DOCX | .docx | ✓ | — |
| DOC | .doc | ✓ | — |
| RTF | .rtf | ✓ | — |
| TXT | .txt | ✓ | — |
| Markdown | .md | ✓ | ✓ |
| — | ✓ |
Sumber Terbuka & Pelesenan
Aspose.Words FOSS untuk Python dikeluarkan di bawah Lesen MIT. Anda boleh menggunakannya secara bebas dalam projek peribadi, dalaman, dan komersial tanpa yuran lesen. Kod sumber penuh tersedia di GitHub pada organisasi Aspose Words FOSS.