PDFから画像を抽出するには?
PDFに埋め込まれた画像をそのままの品質で抽出する方法を発見した。「PDFの画像化」ではページ全体の画像化であり抽出ではなかった。また、「PDFSharpの紹介」で紹介したPDFSharpは仕様によりJpeg形式の画像は抽出できるがPNG的に埋め込まれた画像は抽出できなかった。(謎の形式で抽出され、変換方法が分からない)
今回はOpenOffice.orgを使って抽出する方法を発見した。ただし一つの画像ごとに手作業で保存していかなくてはいけないのでかなり面倒。

「Oracle PDF Import Extension (for OpenOffice 3.x) | Apache OpenOffice Extensions」にある「Sun PDF Import Extension」というプラグインをインストールするとOpenOffice.org DrawでPDFが編集できるようになる。そこでDrawでPDFを開き、保存したい画像を右クリックして「図として保存」をクリックすれば保存ダイアログが出るので好きなところに保存できる。ファイル形式は選ばれているものを変更せずにそのままにしておけばそのままの品質で保存されるようである。
ただ、一つずつ手作業でやっていかなきゃいけないのでかなり面倒だ…Basic使って自動化できたりするのかな?
追記
ここに格闘期とソースへのリンクを書いたエントリへのリンクを張っておきます
参照
- Yahoo!
- これを使えば、元の形式と違ってもよければ抽出できる。
- Extract images using iTextSharp - Stack Overflow
- iTextSharpを使った抽出のやり方が書いてある模様。実装してみようかな。
- Winnovative PDF Images Extractor for .NET
- 抽出用のライブラリ。しかし、全ての形式を同じ形式でしかはきだせないよう