Pendahuluan

Aspose.Words FOSS adalah perpustakaan Python sumber terbuka untuk bekerja dengan dokumen Word. Ia membaca file DOCX, DOC, RTF, TXT, dan Markdown, dan dapat mengekspornya ke PDF, Markdown, atau teks biasa — semua tanpa memerlukan Microsoft Word atau ketergantungan native apa pun.

Perpustakaan ini dirilis di bawah Lisensi MIT dan tersedia di PyPI. Instal dengan:

pip install aspose-words-foss>=26.4.0

Aspose.Words FOSS memerlukan Python 3.10 atau yang lebih baru dan bergantung pada tiga paket pure-Python (olefile, fpdf2, pydantic), yang diinstal secara otomatis oleh pip.


Fitur Utama

Pemuat Dokumen dan Konversi

Kelas Document adalah titik masuk utama. Muat file dalam format input yang didukung apa pun dan panggil save() untuk mengonversinya ke format output yang berbeda.

import aspose.words_foss as aw

doc = aw.Document("input.docx")  # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)

Ekspor PDF

Ekspor dokumen Word ke PDF menggunakan SaveFormat.PDF untuk pengaturan default atau PdfSaveOptions untuk kontrol yang lebih halus.

import aspose.words_foss as aw

doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)

Ekspor Markdown dengan Opsi Penyimpanan

Gunakan MarkdownSaveOptions dan PdfSaveOptions untuk kontrol yang halus atas format output.

import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions

doc = aw.Document("input.docx")

md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)

pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)

Ekstraksi Teks

Ekstrak teks biasa dari format dokumen apa pun yang didukung menggunakan Document.get_text().

import aspose.words_foss as aw

doc = aw.Document("input.docx")
text = doc.get_text()

Penguraian Struktur Dokumen

Parser khusus mengekstrak data terstruktur dari internal DOCX. NumberingParser membaca definisi penomoran daftar dan StyleParser mengurai nama gaya menjadi objek terstruktur.

Dukungan Input Multi-Format

Muat dokumen dari lima format input — DOCX, DOC, RTF, TXT, dan Markdown — menggunakan konstruktor Document yang sama. Enum LoadFormat menyediakan konstanta untuk pemilihan format secara eksplisit (LoadFormat.DOCX, LoadFormat.DOC, LoadFormat.RTF, LoadFormat.TEXT, LoadFormat.MARKDOWN).


Panduan Cepat

Instal paket dan konversi file DOCX ke ketiga format output:

pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw

# Load a Word document
doc = aw.Document("report.docx")

# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)

# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)

# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)

# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")

Format yang Didukung

FormatEkstensiBacaTulis
DOCX.docx
DOC.doc
RTF.rtf
TXT.txt
Markdown.md
PDF.pdf

Sumber Terbuka & Lisensi

Aspose.Words FOSS for Python dirilis di bawah Lisensi MIT. Anda dapat menggunakannya secara bebas dalam proyek pribadi, internal, dan komersial tanpa biaya lisensi. Kode sumber lengkap tersedia di GitHub pada organisasi Aspose Words FOSS.


Memulai