Введение
Aspose.Words FOSS — это библиотека Python с открытым исходным кодом для работы с документами Word. Она читает файлы DOCX, DOC, RTF, TXT и Markdown и может экспортировать их в PDF, Markdown или обычный текст — всё без необходимости использования Microsoft Word или каких‑либо нативных зависимостей.
Библиотека выпущена под лицензией MIT и доступна в PyPI. Установите её с помощью:
pip install aspose-words-foss>=26.4.0
Aspose.Words FOSS требует Python 3.10 или новее и зависит от трёх чисто‑Python пакетов (olefile, fpdf2, pydantic), устанавливаемых автоматически через pip.
Ключевые особенности
Загрузка и конвертация документов
Класс Document является основной точкой входа. Загрузите файл в любом поддерживаемом входном формате и вызовите save() для преобразования его в другой выходной формат.
import aspose.words_foss as aw
doc = aw.Document("input.docx") # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)
Экспорт PDF
Экспортировать документы Word в PDF, используя SaveFormat.PDF для настроек по умолчанию или PdfSaveOptions для детального управления.
import aspose.words_foss as aw
doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)
Экспорт Markdown с параметрами сохранения
Используйте MarkdownSaveOptions и PdfSaveOptions для тонкой настройки формата вывода.
import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions
doc = aw.Document("input.docx")
md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)
pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)
Извлечение текста
Извлеките простой текст из любого поддерживаемого формата документа, используя Document.get_text().
import aspose.words_foss as aw
doc = aw.Document("input.docx")
text = doc.get_text()
Разбор структуры документа
Специализированные парсеры извлекают структурированные данные из внутренностей DOCX. NumberingParser считывает определения нумерации списков, а StyleParser разбирает имена стилей в структурированные объекты.
Поддержка ввода в нескольких форматах
Загружайте документы из пяти входных форматов — DOCX, DOC, RTF, TXT и Markdown — используя один и тот же Document конструктор. Перечисление LoadFormat предоставляет константы для явного выбора формата (LoadFormat.DOCX, LoadFormat.DOC, LoadFormat.RTF, LoadFormat.TEXT, LoadFormat.MARKDOWN).
Быстрый старт
Установите пакет и преобразуйте файл DOCX во все три формата вывода:
pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw
# Load a Word document
doc = aw.Document("report.docx")
# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)
# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)
# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)
# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")
Поддерживаемые форматы
| Формат | Расширение | Чтение | Запись |
|---|---|---|---|
| DOCX | .docx | ✓ | — |
| DOC | .doc | ✓ | — |
| RTF | .rtf | ✓ | — |
| TXT | .txt | ✓ | — |
| Markdown | .md | ✓ | ✓ |
| — | ✓ |
Открытый исходный код и лицензирование
Aspose.Words FOSS for Python выпущен под лицензией MIT. Вы можете свободно использовать его в личных, внутренних и коммерческих проектах без лицензионных сборов. Полный исходный код доступен на GitHub в организации Aspose Words FOSS.