はじめに

Aspose.Words FOSS は、Word ドキュメントを操作するためのオープンソースの Python ライブラリです。DOCX、DOC、RTF、TXT、Markdown ファイルを読み取り、PDF、Markdown、またはプレーンテキストにエクスポートできます — すべて Microsoft Word やネイティブ依存関係を必要とせずに実行できます。

このライブラリはMITライセンスの下でリリースされており、PyPIで入手可能です。以下でインストールできます:

pip install aspose-words-foss>=26.4.0

Aspose.Words FOSS は Python 3.10 以降が必要で、3 つの純粋な Python パッケージ(olefilefpdf2pydantic)に依存しており、pip によって自動的にインストールされます。


主な機能

ドキュメントの読み込みと変換

Document クラスは主要なエントリーポイントです。サポートされている任意の入力フォーマットのファイルをロードし、save() を呼び出して別の出力フォーマットに変換します。

import aspose.words_foss as aw

doc = aw.Document("input.docx")  # or .doc, .rtf, .txt, .md
doc.save("output.md", aw.SaveFormat.MARKDOWN)

PDF エクスポート

デフォルト設定の場合は SaveFormat.PDF を使用し、細かい制御が必要な場合は PdfSaveOptions を使用して、Word 文書を PDF にエクスポートします。

import aspose.words_foss as aw

doc = aw.Document("input.docx")
doc.save("output.pdf", aw.SaveFormat.PDF)

保存オプション付きMarkdownエクスポート

MarkdownSaveOptionsPdfSaveOptions を使用して、出力フォーマットを細かく制御します。

import aspose.words_foss as aw
from aspose.words_foss.saving import MarkdownSaveOptions, PdfSaveOptions

doc = aw.Document("input.docx")

md_opts = MarkdownSaveOptions()
doc.save("output.md", md_opts)

pdf_opts = PdfSaveOptions()
doc.save("output.pdf", pdf_opts)

テキスト抽出

Document.get_text() を使用して、サポートされている任意のドキュメント形式からプレーンテキストを抽出します。

import aspose.words_foss as aw

doc = aw.Document("input.docx")
text = doc.get_text()

文書構造解析

専門的なパーサーは DOCX の内部から構造化データを抽出します。NumberingParser はリスト番号定義を読み取り、StyleParser はスタイル名を構造化オブジェクトに解析します。

マルチフォーマット入力サポート

同じDocumentコンストラクタを使用して、DOCX、DOC、RTF、TXT、Markdown の 5 つの入力形式からドキュメントをロードします。LoadFormat 列挙体は、明示的な形式選択のための定数(LoadFormat.DOCXLoadFormat.DOCLoadFormat.RTFLoadFormat.TEXTLoadFormat.MARKDOWN)を提供します。


クイックスタート

パッケージをインストールし、DOCX ファイルをすべての 3 つの出力形式に変換します:

pip install aspose-words-foss>=26.4.0
import aspose.words_foss as aw

# Load a Word document
doc = aw.Document("report.docx")

# Export to Markdown
doc.save("report.md", aw.SaveFormat.MARKDOWN)

# Export to PDF
doc.save("report.pdf", aw.SaveFormat.PDF)

# Export to plain text
doc.save("report.txt", aw.SaveFormat.TEXT)

# Extract text directly
text = doc.get_text()
print(f"Extracted {len(text)} characters")

サポートされている形式

形式拡張子読み取り書き込み
DOCX.docx
DOC.doc
RTF.rtf
TXT.txt
Markdown.md
PDF.pdf

オープンソースとライセンス

Aspose.Words FOSS for Python は MIT ライセンスの下でリリースされています。個人、社内、商用プロジェクトでライセンス料なしで自由に使用できます。完全なソースコードは GitHub の Aspose Words FOSS 組織で入手可能です。


はじめに