買取日記
BLOG何て書いてあるのかわからない文字をGoogleドライブのOCR機能を使って解読する方法
カップやプレートの裏に何か文字が書かれているけど、達筆すぎて何て書いてあるかわからない、なんてことありますよね。そのお悩みOCRで解決します!
OCRとは
書かれている文字をカメラやスキャナーで読み込み、文字を識別する技術のこと。Optocal Character Recognitionの略らしいけど舌噛みそう。日本語でいうと光学文字認識。
ひと昔前までは識別率がイマイチだったり、識別パターンの事前学習が必要だったりとイマイチだったのですが、カメラの解像度向上やソフトウェアの改良でかなり実用的になっています。
将来的には機械学習により文脈まで読み取って補完できるようになるのだとか。SFの世界ですね。
GoogleドライブのOCR機能を使う
OCRを行うには専用のソフトが必要ですが、今回はGoogleドライブのOCR機能を使う方法をご紹介します。(Googleアカウントがあれば無料で利用できます)
キリンビヤマグコレクション(1997年)ローゼンタール(魔笛)
今回はキリンビヤマグコレクションのセンチュリーエディション(1997年)、ローゼンタールの魔笛のビヤマグの裏に書かれている文字の識別にチャレンジします。
STEP.1 識別したい文字を撮影
ローゼンタールはドイツの窯なので、ドイツ語だろうなと思うのですが、筆記体ってこともあって、なんて書いてあるのかわかりません。
そこで、まずは識別したい文字をカメラで撮影します。写真がピンボケしていると識別率が下がるのでボケないように、明るいところで撮影しましょう(光の反射にも注意が必要です)。引き(全体)で撮っておいて、あとから読み込ませたいところだけトリミングしてもよいです。
STEP.2 Googleドライブに写真をアップロード
次に、Googleドライブにアクセスし、読み込ませたい写真を「ここにファイルをドロップ」のところにドラッグ&ドロップします。
STEP.3 Googleドキュメントで開く
アップロードが完了したら、その画像の上で右クリックして、メニューの「アプリで開く」から「Googleドキュメント」を選択します。
STEP.4 識別された文字を確認
すると、自動的にOCR処理され、文字が識別されテキストに書き出されます。
精度は完璧ではないですが(今回も2文字目に誤認識あり)、これくらいならほとんど問題はない気がします。あとは、そのまま原文で検索するなり、翻訳サービスで和訳するなりすればだいたい調べがつきます。
ってことで、いろいろ調べた結果、今回書かれていた“Nun, so sei mein liebes Weibchen!(じゃあ、僕の可愛い女房!)”というのは、モーツアルトのオペラ『魔笛』に出てくるパパパの二重奏のなかのセリフの一節ということがわかりました。めでたし、めでたし。