はじめに
Aspose.Words FOSS は、Word ドキュメントを操作するためのオープンソースの Python ライブラリです。DOCX、DOC、RTF、TXT、Markdown ファイルを読み取り、PDF、Markdown、またはプレーンテキストにエクスポートできます — すべて Microsoft Word やネイティブ依存関係を必要とせずに実行できます。
このライブラリはMITライセンスの下でリリースされており、PyPIで入手可能です。以下でインストールできます:
pip install aspose-words-foss>=26.4.0
Aspose.Words FOSS は Python 3.10 以降が必要で、3 つの純粋な Python パッケージ(olefile、fpdf2、pydantic)に依存しており、pip によって自動的にインストールされます。
主な機能
ドキュメントの読み込みと変換
Document クラスは主要なエントリーポイントです。サポートされている任意の入力フォーマットのファイルをロードし、save() を呼び出して別の出力フォーマットに変換します。
import aspose.words_foss as aw
doc = aw.Document("input.docx") # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)
PDF エクスポート
デフォルト設定の場合は SaveFormat.PDF を使用し、細かい制御が必要な場合は PdfSaveOptions を使用して、Word 文書を PDF にエクスポートします。
import aspose.words_foss as aw
doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)
保存オプション付きMarkdownエクスポート
MarkdownSaveOptions と PdfSaveOptions を使用して、出力フォーマットを細かく制御します。
import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions
doc = aw.Document("input.docx")
md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)
pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)
テキスト抽出
Document.get_text() を使用して、サポートされている任意のドキュメント形式からプレーンテキストを抽出します。
import aspose.words_foss as aw
doc = aw.Document("input.docx")
text = doc.get_text()
文書構造解析
専門的なパーサーは DOCX の内部から構造化データを抽出します。NumberingParser はリスト番号定義を読み取り、StyleParser はスタイル名を構造化オブジェクトに解析します。
マルチフォーマット入力サポート
同じDocumentコンストラクタを使用して、DOCX、DOC、RTF、TXT、Markdown の 5 つの入力形式からドキュメントをロードします。LoadFormat 列挙体は、明示的な形式選択のための定数(LoadFormat.DOCX、LoadFormat.DOC、LoadFormat.RTF、LoadFormat.TEXT、LoadFormat.MARKDOWN)を提供します。
クイックスタート
パッケージをインストールし、DOCX ファイルをすべての 3 つの出力形式に変換します:
pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw
# Load a Word document
doc = aw.Document("report.docx")
# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)
# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)
# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)
# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")
サポートされている形式
| 形式 | 拡張子 | 読み取り | 書き込み |
|---|---|---|---|
| DOCX | .docx | ✓ | — |
| DOC | .doc | ✓ | — |
| RTF | .rtf | ✓ | — |
| TXT | .txt | ✓ | — |
| Markdown | .md | ✓ | ✓ |
| — | ✓ |
オープンソースとライセンス
Aspose.Words FOSS for Python は MIT ライセンスの下でリリースされています。個人、社内、商用プロジェクトでライセンス料なしで自由に使用できます。完全なソースコードは GitHub の Aspose Words FOSS 組織で入手可能です。