Введение

Aspose.Words FOSS — это библиотека Python с открытым исходным кодом для работы с документами Word. Она читает файлы DOCX, DOC, RTF, TXT и Markdown и может экспортировать их в PDF, Markdown или обычный текст — всё без необходимости использования Microsoft Word или каких‑либо нативных зависимостей.

Библиотека выпущена под лицензией MIT и доступна в PyPI. Установите её с помощью:

pip install aspose-words-foss>=26.4.0

Aspose.Words FOSS требует Python 3.10 или новее и зависит от трёх чисто‑Python пакетов (olefile, fpdf2, pydantic), устанавливаемых автоматически через pip.


Ключевые особенности

Загрузка и конвертация документов

Класс Document является основной точкой входа. Загрузите файл в любом поддерживаемом входном формате и вызовите save() для преобразования его в другой выходной формат.

import aspose.words_foss as aw

doc = aw.Document("input.docx")  # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)

Экспорт PDF

Экспортировать документы Word в PDF, используя SaveFormat.PDF для настроек по умолчанию или PdfSaveOptions для детального управления.

import aspose.words_foss as aw

doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)

Экспорт Markdown с параметрами сохранения

Используйте MarkdownSaveOptions и PdfSaveOptions для тонкой настройки формата вывода.

import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions

doc = aw.Document("input.docx")

md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)

pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)

Извлечение текста

Извлеките простой текст из любого поддерживаемого формата документа, используя Document.get_text().

import aspose.words_foss as aw

doc = aw.Document("input.docx")
text = doc.get_text()

Разбор структуры документа

Специализированные парсеры извлекают структурированные данные из внутренностей DOCX. NumberingParser считывает определения нумерации списков, а StyleParser разбирает имена стилей в структурированные объекты.

Поддержка ввода в нескольких форматах

Загружайте документы из пяти входных форматов — DOCX, DOC, RTF, TXT и Markdown — используя один и тот же Document конструктор. Перечисление LoadFormat предоставляет константы для явного выбора формата (LoadFormat.DOCX, LoadFormat.DOC, LoadFormat.RTF, LoadFormat.TEXT, LoadFormat.MARKDOWN).


Быстрый старт

Установите пакет и преобразуйте файл DOCX во все три формата вывода:

pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw

# Load a Word document
doc = aw.Document("report.docx")

# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)

# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)

# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)

# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")

Поддерживаемые форматы

ФорматРасширениеЧтениеЗапись
DOCX.docx
DOC.doc
RTF.rtf
TXT.txt
Markdown.md
PDF.pdf

Открытый исходный код и лицензирование

Aspose.Words FOSS for Python выпущен под лицензией MIT. Вы можете свободно использовать его в личных, внутренних и коммерческих проектах без лицензионных сборов. Полный исходный код доступен на GitHub в организации Aspose Words FOSS.


Начало работы