Johdanto

Aspose.Words FOSS on avoimen lähdekoodin Python‑kirjasto Word‑asiakirjojen käsittelyyn. Se lukee DOCX-, DOC-, RTF-, TXT- ja Markdown‑tiedostoja ja voi viedä ne PDF-, Markdown- tai pelkkään tekstiin — kaikki ilman Microsoft Wordia tai muita natiivisia riippuvuuksia.

Kirjasto on julkaistu MIT-lisenssin alaisena ja se on saatavilla PyPI:ssä. Asenna se komennolla:

pip install aspose-words-foss>=26.4.0

Aspose.Words FOSS vaatii Python 3.10:n tai uudemman ja riippuu kolmesta puhtaasta Python-paketista (olefile, fpdf2, pydantic), jotka asennetaan automaattisesti pip:n avulla.


Keskeiset ominaisuudet

Asiakirjan lataus ja muuntaminen

Document-luokka on ensisijainen sisäänkäynti. Lataa tiedosto missä tahansa tuetussa syöteformaatissa ja kutsu save() muuntaaksesi sen eri tulostemuotoon.

import aspose.words_foss as aw

doc = aw.Document("input.docx")  # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)

PDF-vienti

Vie Word-asiakirjat PDF-muotoon käyttämällä SaveFormat.PDF oletusasetuksilla tai PdfSaveOptions hienojakoiseen hallintaan.

import aspose.words_foss as aw

doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)

Markdown‑vienti tallennusasetuksilla

Käytä MarkdownSaveOptions ja PdfSaveOptions hienojakoiseen ohjaamiseen tulosteen muotoilussa.

import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions

doc = aw.Document("input.docx")

md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)

pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)

Tekstin poiminta

Poimi pelkkä teksti mistä tahansa tuetusta asiakirjamuodosta käyttäen Document.get_text().

import aspose.words_foss as aw

doc = aw.Document("input.docx")
text = doc.get_text()

Asiakirjan rakenteen jäsentäminen

Erikoistuneet jäsentimet poimivat rakenteellista dataa DOCX:n sisäosista. NumberingParser lukee luettelon numerointimäärittelyt ja StyleParser jäsentää tyylinimet rakenteellisiksi objekteiksi.

Moniformaattinen syötteen tuki

Lataa asiakirjoja viidestä syöteformaatista — DOCX, DOC, RTF, TXT ja Markdown — käyttämällä samaa Document-konstruktoria. LoadFormat-enum tarjoaa vakioita eksplisiittiseen formaatin valintaan (LoadFormat.DOCX, LoadFormat.DOC, LoadFormat.RTF, LoadFormat.TEXT, LoadFormat.MARKDOWN).


Pika-aloitus

Asenna paketti ja muunna DOCX‑tiedosto kaikkiin kolmeen lähtömuotoon:

pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw

# Load a Word document
doc = aw.Document("report.docx")

# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)

# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)

# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)

# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")

Tuetut tiedostomuodot

MuotoTiedostopääteLukuKirjoitus
DOCX.docx
DOC.doc
RTF.rtf
TXT.txt
Markdown.md
PDF.pdf

Avoin lähdekoodi ja lisensointi

Aspose.Words FOSS for Python on julkaistu MIT-lisenssin alla. Voit käyttää sitä vapaasti henkilökohtaisissa, sisäisissä ja kaupallisissa projekteissa ilman lisenssimaksuja. Koko lähdekoodi on saatavilla GitHubissa Aspose Words FOSS -organisaatiossa.


Aloittaminen