Wprowadzenie

Aspose.Words FOSS jest otwartoźródłową biblioteką Pythona do pracy z dokumentami Word. Odczytuje pliki DOCX, DOC, RTF, TXT i Markdown oraz może eksportować je do PDF, Markdown lub zwykłego tekstu — wszystko bez wymogu posiadania Microsoft Word ani żadnych natywnych zależności.

Biblioteka jest udostępniona na licencji MIT i jest dostępna w PyPI. Zainstaluj ją za pomocą:

pip install aspose-words-foss>=26.4.0

Aspose.Words FOSS wymaga Pythona 3.10 lub nowszego i zależy od trzech czystych pakietów Pythona (olefile, fpdf2, pydantic), instalowanych automatycznie przez pip.


Kluczowe funkcje

Ładowanie i konwersja dokumentu

Klasa Document jest głównym punktem wejścia. Załaduj plik w dowolnym obsługiwanym formacie wejściowym i wywołaj save(), aby przekonwertować go na inny format wyjściowy.

import aspose.words_foss as aw

doc = aw.Document("input.docx")  # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)

Eksport PDF

Eksportuj dokumenty Word do PDF przy użyciu SaveFormat.PDF dla ustawień domyślnych lub PdfSaveOptions dla precyzyjnej kontroli.

import aspose.words_foss as aw

doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)

Eksport Markdown z opcjami zapisu

Użyj MarkdownSaveOptions i PdfSaveOptions do precyzyjnej kontroli formatowania wyjścia.

import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions

doc = aw.Document("input.docx")

md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)

pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)

Ekstrakcja tekstu

Wyodrębnij zwykły tekst z dowolnego obsługiwanego formatu dokumentu przy użyciu Document.get_text().

import aspose.words_foss as aw

doc = aw.Document("input.docx")
text = doc.get_text()

Parsowanie struktury dokumentu

Specjalistyczne parsery wyodrębniają strukturalne dane z wewnętrznych elementów DOCX. NumberingParser odczytuje definicje numeracji list i StyleParser parsuje nazwy stylów do strukturalnych obiektów.

Obsługa wejścia wieloformatowego

Wczytaj dokumenty z pięciu formatów wejściowych — DOCX, DOC, RTF, TXT i Markdown — używając tego samego Document konstruktora. Enum LoadFormat udostępnia stałe do jawnego wyboru formatu (LoadFormat.DOCX, LoadFormat.DOC, LoadFormat.RTF, LoadFormat.TEXT, LoadFormat.MARKDOWN).


Szybki start

Zainstaluj pakiet i przekonwertuj plik DOCX na wszystkie trzy formaty wyjściowe:

pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw

# Load a Word document
doc = aw.Document("report.docx")

# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)

# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)

# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)

# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")

Obsługiwane formaty

FormatRozszerzenieOdczytZapis
DOCX.docx
DOC.doc
RTF.rtf
TXT.txt
Markdown.md
PDF.pdf

Open Source i licencjonowanie

Aspose.Words FOSS for Python jest udostępniony na licencji MIT. Możesz go używać swobodnie w projektach osobistych, wewnętrznych i komercyjnych bez opłat licencyjnych. Pełny kod źródłowy jest dostępny na GitHub w organizacji Aspose Words FOSS.


Rozpoczęcie