Въведение

Aspose.Words FOSS е отворена библиотека за Python за работа с Word документи. Тя чете файлове DOCX, DOC, RTF, TXT и Markdown и може да ги експортира в PDF, Markdown или обикновен текст — всичко без да изисква Microsoft Word или каквито и да е нативни зависимости.

Библиотеката е публикувана под лиценз MIT и е достъпна в PyPI. Инсталирайте я с:

pip install aspose-words-foss>=26.4.0

Aspose.Words FOSS изисква Python 3.10 или по‑нова версия и зависи от три чисто‑Python пакета (olefile, fpdf2, pydantic), инсталирани автоматично чрез pip.


Ключови функции

Зареждане и конвертиране на документи

Класът Document е основната входна точка. Заредете файл във всеки поддържан входен формат и извикайте save(), за да го конвертирате в различен изходен формат.

import aspose.words_foss as aw

doc = aw.Document("input.docx")  # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)

PDF експортиране

Експортирайте Word документи в PDF, като използвате SaveFormat.PDF за настройки по подразбиране или PdfSaveOptions за детайлен контрол.

import aspose.words_foss as aw

doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)

Експорт в Markdown с опции за запазване

Използвайте MarkdownSaveOptions и PdfSaveOptions за фино управление на форматирането на изхода.

import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions

doc = aw.Document("input.docx")

md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)

pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)

Извличане на текст

Извлечете чист текст от всеки поддържан формат на документ, използвайки Document.get_text().

import aspose.words_foss as aw

doc = aw.Document("input.docx")
text = doc.get_text()

Разбор на структурата на документа

Специализираните парсери извличат структурирани данни от вътрешните части на DOCX. NumberingParser чете дефинициите за номериране на списъци и StyleParser анализира имената на стиловете в структурирани обекти.

Поддръжка на вход в множество формати

Заредете документи от пет входни формата — DOCX, DOC, RTF, TXT и Markdown — като използвате същия Document конструктор. LoadFormat enum предоставя константи за явен избор на формат (LoadFormat.DOCX, LoadFormat.DOC, LoadFormat.RTF, LoadFormat.TEXT, LoadFormat.MARKDOWN).


Бърз старт

Инсталирайте пакета и конвертирайте DOCX файл във всички три изходни формати:

pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw

# Load a Word document
doc = aw.Document("report.docx")

# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)

# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)

# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)

# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")

Поддържани формати

ФорматРазширениеЧетенеЗапис
DOCX.docx
DOC.doc
RTF.rtf
TXT.txt
Markdown.md
PDF.pdf

Отворен код и лицензиране

Aspose.Words FOSS for Python е публикуван под MIT лиценз. Можете да го използвате свободно в лични, вътрешни и търговски проекти без лицензионни такси. Пълният изходен код е достъпен в GitHub в организацията Aspose Words FOSS.


Започване