Johdanto
Aspose.Words FOSS on avoimen lähdekoodin Python‑kirjasto Word‑asiakirjojen käsittelyyn. Se lukee DOCX-, DOC-, RTF-, TXT- ja Markdown‑tiedostoja ja voi viedä ne PDF-, Markdown- tai pelkkään tekstiin — kaikki ilman Microsoft Wordia tai muita natiivisia riippuvuuksia.
Kirjasto on julkaistu MIT-lisenssin alaisena ja se on saatavilla PyPI:ssä. Asenna se komennolla:
pip install aspose-words-foss>=26.4.0
Aspose.Words FOSS vaatii Python 3.10:n tai uudemman ja riippuu kolmesta puhtaasta Python-paketista (olefile, fpdf2, pydantic), jotka asennetaan automaattisesti pip:n avulla.
Keskeiset ominaisuudet
Asiakirjan lataus ja muuntaminen
Document-luokka on ensisijainen sisäänkäynti. Lataa tiedosto missä tahansa tuetussa syöteformaatissa ja kutsu save() muuntaaksesi sen eri tulostemuotoon.
import aspose.words_foss as aw
doc = aw.Document("input.docx") # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)
PDF-vienti
Vie Word-asiakirjat PDF-muotoon käyttämällä SaveFormat.PDF oletusasetuksilla tai PdfSaveOptions hienojakoiseen hallintaan.
import aspose.words_foss as aw
doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)
Markdown‑vienti tallennusasetuksilla
Käytä MarkdownSaveOptions ja PdfSaveOptions hienojakoiseen ohjaamiseen tulosteen muotoilussa.
import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions
doc = aw.Document("input.docx")
md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)
pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)
Tekstin poiminta
Poimi pelkkä teksti mistä tahansa tuetusta asiakirjamuodosta käyttäen Document.get_text().
import aspose.words_foss as aw
doc = aw.Document("input.docx")
text = doc.get_text()
Asiakirjan rakenteen jäsentäminen
Erikoistuneet jäsentimet poimivat rakenteellista dataa DOCX:n sisäosista. NumberingParser lukee luettelon numerointimäärittelyt ja StyleParser jäsentää tyylinimet rakenteellisiksi objekteiksi.
Moniformaattinen syötteen tuki
Lataa asiakirjoja viidestä syöteformaatista — DOCX, DOC, RTF, TXT ja Markdown — käyttämällä samaa Document-konstruktoria. LoadFormat-enum tarjoaa vakioita eksplisiittiseen formaatin valintaan (LoadFormat.DOCX, LoadFormat.DOC, LoadFormat.RTF, LoadFormat.TEXT, LoadFormat.MARKDOWN).
Pika-aloitus
Asenna paketti ja muunna DOCX‑tiedosto kaikkiin kolmeen lähtömuotoon:
pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw
# Load a Word document
doc = aw.Document("report.docx")
# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)
# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)
# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)
# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")
Tuetut tiedostomuodot
| Muoto | Tiedostopääte | Luku | Kirjoitus |
|---|---|---|---|
| DOCX | .docx | ✓ | — |
| DOC | .doc | ✓ | — |
| RTF | .rtf | ✓ | — |
| TXT | .txt | ✓ | — |
| Markdown | .md | ✓ | ✓ |
| — | ✓ |
Avoin lähdekoodi ja lisensointi
Aspose.Words FOSS for Python on julkaistu MIT-lisenssin alla. Voit käyttää sitä vapaasti henkilökohtaisissa, sisäisissä ja kaupallisissa projekteissa ilman lisenssimaksuja. Koko lähdekoodi on saatavilla GitHubissa Aspose Words FOSS -organisaatiossa.