Giới thiệu
Aspose.Words FOSS là một thư viện Python mã nguồn mở để làm việc với tài liệu Word. Nó đọc các tệp DOCX, DOC, RTF, TXT và Markdown, và có thể xuất chúng ra PDF, Markdown hoặc văn bản thuần — tất cả mà không cần Microsoft Word hay bất kỳ phụ thuộc gốc nào.
Thư viện được phát hành dưới giấy phép MIT và có sẵn trên PyPI. Cài đặt nó bằng:
pip install aspose-words-foss>=26.4.0
Aspose.Words FOSS yêu cầu Python 3.10 trở lên và phụ thuộc vào ba gói pure-Python (olefile, fpdf2, pydantic), được cài đặt tự động bằng pip.
Tính năng chính
Tải tài liệu và chuyển đổi
Lớp Document là điểm vào chính. Tải một tệp trong bất kỳ định dạng đầu vào nào được hỗ trợ và gọi save() để chuyển đổi nó sang định dạng đầu ra khác.
import aspose.words_foss as aw
doc = aw.Document("input.docx") # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)
Xuất PDF
Xuất tài liệu Word sang PDF bằng cách sử dụng SaveFormat.PDF cho cài đặt mặc định hoặc PdfSaveOptions để kiểm soát chi tiết.
import aspose.words_foss as aw
doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)
Xuất Markdown với các tùy chọn lưu
Sử dụng MarkdownSaveOptions và PdfSaveOptions để kiểm soát chi tiết định dạng đầu ra.
import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions
doc = aw.Document("input.docx")
md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)
pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)
Trích xuất văn bản
Trích xuất văn bản thuần từ bất kỳ định dạng tài liệu nào được hỗ trợ bằng cách sử dụng Document.get_text().
import aspose.words_foss as aw
doc = aw.Document("input.docx")
text = doc.get_text()
Phân tích cấu trúc tài liệu
Các bộ phân tích chuyên dụng trích xuất dữ liệu có cấu trúc từ nội bộ DOCX. NumberingParser đọc các định nghĩa đánh số danh sách và StyleParser phân tích tên kiểu thành các đối tượng có cấu trúc.
Hỗ trợ đầu vào đa định dạng
Tải tài liệu từ năm định dạng đầu vào — DOCX, DOC, RTF, TXT và Markdown — bằng cách sử dụng cùng một Document constructor. Enum LoadFormat cung cấp các hằng số để chọn định dạng một cách rõ ràng (LoadFormat.DOCX, LoadFormat.DOC, LoadFormat.RTF, LoadFormat.TEXT, LoadFormat.MARKDOWN).
Bắt đầu nhanh
Cài đặt gói và chuyển đổi tệp DOCX sang cả ba định dạng đầu ra:
pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw
# Load a Word document
doc = aw.Document("report.docx")
# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)
# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)
# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)
# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")
Định dạng được hỗ trợ
| Định dạng | Phần mở rộng | Đọc | Ghi |
|---|---|---|---|
| DOCX | .docx | ✓ | — |
| DOC | .doc | ✓ | — |
| RTF | .rtf | ✓ | — |
| TXT | .txt | ✓ | — |
| Markdown | .md | ✓ | ✓ |
| — | ✓ |
Mã nguồn mở & Cấp phép
Aspose.Words FOSS cho Python được phát hành dưới giấy phép MIT. Bạn có thể sử dụng nó tự do trong các dự án cá nhân, nội bộ và thương mại mà không cần trả phí giấy phép. Mã nguồn đầy đủ có sẵn trên GitHub tại tổ chức Aspose Words FOSS.