画像ファイルからテキストを抽出しよう!

画像ファイルからテキストを抽出しよう!
どうも、大阪支社のとよです。 気づけばもう6月。梅雨の時期が近づいてきました。 さて、前振りとは何も関係ありませんが、 今回はちょっと便利なOCRスキャンサイトのご紹介。 OCRって? そもそも、「OCRってなんやねん」という話ですが、 OCRは「Optical Character Recognition(光学文字認識)」の略で 一般的に、画像に書かれた文字を読み取って、 テキストデータに変換してくれるソフトウェアのことを指します。 近年はかなり読み込みの精度が上がってきていますが、 いかんせん、専用ソフトを立ち上げるのが面倒くさい。 たった1枚の画像を読み込むのに、わざわざ起動するのは なんとなく気が引けてしまいます。 そこで今回ご紹介するのが、「Online OCR」です。 「Online OCR」とは? 「Online OCR」はWeb上で使える無料OCRスキャンサイトです。 ブラウザ上で簡単に操作できるので、かなり気軽に使えます。 ↓こんな英語のサイトですが、日本語の読み込みもOK! というわけで、サイトに移動して使ってみましょう。 「Online OCR」の使い方 ①画像選択 まずは、画像を選択します。 (※今回は弊社のホームページから適当に↓の画像をチョイスしました) ページ左の「Select file...」ボタンをクリックし、 画像ファイルを選択します。 画像ファイルはjpg,bmp,png,gifのほか 単一ページであればpdf,tifも選択できます。 ②言語と出力形式の選択 次に読み取る言語と出力するファイル形式の選択です。 出力形式はテキスト形式とエクセル、ワード形式が選べます。 ここでは言語は「JAPANESE」、出力形式は「Text Plain(txt)」 を選択しています。 ③出力 ①②まで選択できたら、 まずは、右下の「Enter Captcha code」欄に、左に表示されている数値を入力! それから、「CONVERT」ボタンをクリックします。 結果・・・ ↓こんな感じになりました。 少しおかしなところもありますが、なかなかの精度です。 「Download Output File」をクリックすると指定した出力形式のファイルがダウンロードできます。 ちなみに、このサイトは縦書き画像にも対応しているので、 新聞や雑誌の記事なども読み込むことができるそうです。 また、無料登録すると読み込み画像のファイルサイズが最大100MBまで(通常は5MB)、 PDFやRTFなどの出力にも対応してくれるそうです。 楽にテキストを抽出したいな~ってときは、是非お試しあれ。