2024年02月22日更新

「パターン認識」ってどんな仕組み？（２）

今回は、パターン認識の方法について説明します。
画像中から文字を認識する場合を、単純な手法を例にして考えてみます。

パターン認識は、大きく「学習」と「認識」の２つのステップに分かれているので、順を追って説明します。

目次

学習

パターン認識における学習は、「教師あり学習」によって行うのが一般的です。
「教師あり学習」については、「機械学習の「教師」～エーアイベーシックレベル3」で解説していますので、詳しく知りたい場合はご確認ください。

まず、学習に使う教師画像を用意します。
教師画像には、上の図のように、すべての画像に対して正解のラベルが与えられています。

そして、用意した教師画像を用いて学習します。
このとき、学習の前段階として、画像を加工し、コンピュータが扱いやすい形に整形する必要があります。具体的には、学習の手法によって異なりますが、「文字のない領域のトリミング」、「濃淡の統一」、「縦横の長さの統一」などの処理を行います。

学習が完了したら、上の図のようなテスト画像を用いて、認識を行います。
しかし、テスト画像のどの領域に文字があるのか、コンピュータにはわかりません。
そのため、まず、文字のある領域を見つける必要があります。

もっとも単純な探索方法として、上の図のように、画像の端から適当な大きさの領域を指定し、少しずつずらしながら調べていく、という方法があります。領域の大きさを変えることで、大きさの異なる文字にも対応することができます。

調べる領域を決めたら、その領域に対して、学習したデータを用いて、どの文字が含まれているかを調べます。
すべての領域を探索することで、画像中のすべての文字を見つけて、認識することができます。

さて、今回はパターン認識の手法について、文字認識を例に挙げて説明しました。顔認識や音声認識についても、「学習」して「認識」するという基本的な流れは変わりません。

これを機に、パターン認識について、少しでも理解を深めていただければ幸いです。