ブログ

PITRECとScansnapで名刺管理

2013年6月8日 16:17 | パソコン関連 | | 2,058 views
タグ: , , , ,

このエントリーをはてなブックマークに追加
はてなブックマーク - PITRECとScansnapで名刺管理
reddit にシェア
Pocket
LINEで送る

pitrecandscansnap

名刺管理ツール、KINGJIMの電子名刺フォルダPITRECと、PFUのイメージスキャナScanSnapを連携した名刺管理についての記事です。

名刺管理

日ごとに増えていく名刺、それをいただいた順であるとか、あいうえお順などにファイルに整理しても、膨大な量の中から、再び探し出すのが難しかったり、目にすることもない名刺もどんどん増えていきます。

名刺管理ツールとして、KINGJIMからPITRECという携帯型の電子名刺フォルダが出ています。

これは名刺の読み取り機能と、読み取った名刺を表示、検索できる機能を備えています。

PITREC自体にカメラが付いており、これで名刺の片面を撮影、撮影した画像をOCR(文字認識)して、格納します。

内蔵するMicroSDカードの容量によって、最大9,999枚まで格納することができます。

これ一つで、名刺の読み取り、格納、管理などが一通りこなせるようになっています。

もらってすぐに認識させる分にはよいのですが、現在まで頂いた大量の名刺をデータ化するためには、文字認識込みで20秒必要なPITRECだけでは、かなりの時間を割かねばなりません。

ひとまず、これまでのデータを取り込むにあたって、連続読み取り機能のある両面イメージスキャナ、ScanSnapを利用することにしました。

今回使用した機材はPITREC DNH11、ScanSnap S1300iです。

http://www.kingjim.co.jp/sp/pitrec_dnh11/

http://scansnap.fujitsu.com/jp/product/s1300i/compact.html

名刺読み取り

OCR(文字認識)に絶対という言葉はありません。英字26文字の世界と、漢字数千字の世界では、難しさが違います。

それはOCRの宿命で、現在のところ決して人力修正なしでそのまま読み取らせればおしまい、となることはありません。

可能な限り精度の高いOCRにかけて、あとは地道な手作業による修正となります。

今回は名刺の画像も同時に表示できるものですので、主な情報は目で読み取ることができます。

索引のために氏名、会社名だけでもきっちりとした形で伴っていれば、検索して呼び出し、住所、電話番号、メールアドレスなどの情報は画像から目で拾うことができます。

その前提がありましたので、比較的気を楽にして、作業を行うことができました。

名刺上すべての文字をデータ化して、文字だけのアドレス帳に入れるのであれば、この作業は枚数に比例してかなりの時間がかかることになります。

今回名刺OCRに使えるソフトはPITREC本体、PITREC付属のPITREC on PC2、ScanSnap付属の名刺ファイリングOCRの三つから、一番精度の高いものを選ぶために、数枚を選んで、認識させてみました。

名刺ファイリングOCRは上場企業名のデータベースによる補正、読み取った郵便番号による補正、など補正機能を持っています。

例として挙げるなら「ソニー株式会社」を「ソニ一(漢数字の1)株式会社」と認識してしまっても、データベースから修正してくれるという機能です。

この名刺ファイリングOCRを利用して読み取りを進めることにしました。

読み取り前にしておくこと

名刺を可能な限り、会社名などで分類し、ソートしておくこと

筆者は社名であいうえお順に分類し、同じ会社に属する人は、一塊になるようにしておき、できる限り並び順をそろえておきました。

こうすることで、同じ会社の人を固めて編集できるので、会社名の読み取りがバラバラになってしまっても、簡単にコピーペーストで正しい社名を入力できるようになります。

名刺の枚数を数えておくこと

連続読み取りのスキャナで、二重に送って二枚を一枚として読み取ってしまうことは、起こりうることです。

あのブロック、かのブロックなど、一塊あたりの枚数を把握しておくと、一塊ごとに、二重送りで枚数が少なくなっていないかを知ることができます。

ScanSnapによる作業

scansnap1

ScanSnapマネージャーの設定で名刺ファイリングOCRを選択しておけば、ScanSnapで読み取りボタンを押すだけで、名刺ファイリングOCRにデータが追加されていきます。

名刺は、厚さ、紙質などがまちまちなので、一度に五枚程度、厚いのがあれば、3,4枚程度で無理をしないことが重要です。

読み取りをかけると、そこから名刺ファイリングOCRが自動的にOCRを始めますが、その間もスキャナによる読み取りは連続して行うことができますので、一度にセットする枚数は少なくとも、無理をする方が後々の手間になると考えます。

枚数があっていることが一番重要です。画像で気になるような傾きやノイズなどは発生しなかったので、ScanSnapを選んだのは正解だったと思っています。

枚数だけ合っていれば、あとは画面だけの操作で補正していくことができます。

名刺ファイリングOCRによる作業

meisifilingocr

名刺ファイリングOCRでは、このように、左ペインで一覧、中央ペインでデータ入力、右ペインで読み取り画像の表示、と3ペインのウィンドウで作業できます。

読み取りさえ問題なく行えていれば、右ペインの画像を直接見ながら、データの修正を行っていけます。

人名はかなりきちんと読み取ることができます。フリガナは仕方ない部分もありますが、読み方が違う場合は(たとえば神をジン、シン、カミ、と判断することはできない)手作業でつけます。

社名は白抜き文字や、ロゴを凝っていなければ、かなりうまく読み取れます。

ちょっとでも斜体になっているなどの場合は、読み間違いは起こりやすいです。

役職、部署などはあまり修正がいらない印象でした。住所は郵便番号を正確に読み取れていれば、ほぼ番地の修正で大丈夫でした。

電話番号は支店の電話番号などが併記されていると、かなり迷う印象です。

メールアドレスは、かなり厳しいです。今回は修正の必要なしということでパスしましたが、長いメールアドレスを一定のスペースに詰め込むために文字間隔が狭かったり、フォントに長体がかかっていたりすると、かなり読み取りに失敗します。

また.(ドット)や-(ハイフン)の読み間違い等も多く、oとcなど、結果にはかなりばらつきがあります。

名刺ファイリングOCRからPITRECへの連携

名刺の画像ファイルは、作業した環境では、ユーザーフォルダのマイドキュメントに名刺ファイリングOCRというフォルダができており、その中にデータベース名「名刺.crd」であれば、名刺~F.crdというフォルダの中に格納されています。

名刺~F.crdフォルダの中の標準フォルダに、TIFF形式で保存されていますので、この名刺ファイリングOCRで修正した読み取りデータとともにPITRECに転送できれば、すぐにPITRECで使い始めることができます。

名刺ファイリングOCRのエクスポートから、CSV(カンマ区切り)を選択します。

ここで必要なデータと、表面イメージパス、裏面イメージパス、を必ずチェックします。

このCSVファイルをテキストエディタで開き、表面イメージパス、裏面イメージパスを、ファイル名のみにします。

例とすれば、

c:\Users\ユーザー名\Documents\名刺ファイリングOCR¥名刺~F.crd\標準\

を空文字で置換します。

CSVファイルをメモ帳などのテキストエディタで開いて

notepad

この状態で、すべて置換をクリックして、イメージファイル名のみにしてしまいます。

このcsvファイルをイメージ格納フォルダ標準の中にコピーします。

パソコンにPITRECをUSBケーブルで接続し、PITRECを認識させ、PITRECをPC接続モードにして、PITEREC on PC2でPITREC内の名刺データを開きます。

ここでファイルーデータ読み取りを選択します。

PITRECONPC2

取り込むファイルと同じフォルダ内の画像を合わせて読み込んでくれるということと、TIFF形式を読み込めることを確認して、ファイルを選択します。

読み取り形式は名刺ファイリングOCR CSV形式というのがありますので、これを選択します。

読み取りが終われば、PITRECから名刺ファイリングOCRのデータを画像とともに確認することができます。