TensorFlowで学習済みモデルを使用する(Deep MNIST for Expertsの応用)

Deep MNIST for Experts(TensorFlow Tutorial)を応用したものを記録．

学習データやカーネルを可視化した話はこちら．
walkingmask.hatenablog.com

Deep MNIST for Experts

Deep MNIST for Expertsは，TensorFlowのチュートリアルで，MNISTという手書き文字数字を認識するCNN(畳み込みニューラルネットワーク)をサクッと実装するもの．20000回学習したNNはテストデータの認識率が99.2%にもなるすごいやつ．

学習済みモデルを使ってみる

数時間にも及ぶ学習を終えて，99.2の数字を目にした時「オオおおおお！」と感動できるチュートリアルだが，ちょっと実感が薄い．そこで，学習したこのモデルを使って，自分で作った手書き数字を認識してくれるかテストしてみる．

自作テストデータ

まずは，自作テスト画像の用意．みんな大好きピクセアララー(Pixlr)を使う．

Photo editor online - Pixlr.com

editorを起動して，キャンバスを28×28に設定．そのままでは画像がちっちゃくて見にくいので拡大して，pencilツールでType: Plainで適当な数字を描く．出来上がった画像がこちら(ちっさい)．

f:id:walkingmask:20160827030230p:plain

これを学習済みモデルに読み込ませて，「2」と認識してもらうことを目標とする．

コードの記述

必要なコードは

モデルの保存/読み込み
新しい画像データの入力

今回参考にさせてもらったWebページがこちら

qiita.com

これをもとに，完成したプログラムがこちら

https://github.com/WalkingMask/tMNIST/blob/master/src/saver/saver.py

この中で重要な部分は，

saver = tf.train.Saver()

ckpt = tf.train.get_checkpoint_state('./')

if ckpt:
  last_model = ckpt.model_checkpoint_path
  print "load " + last_model
  saver.restore(sess, last_model)

  from PIL import Image
  import numpy as np

  new_img = Image.open('./new_data_2.png').convert('L')
  new_img = 1.0 - np.asarray(new_img, dtype="float32") / 255
  new_img = new_img.reshape((1,784))

  prediction = tf.argmax(y_conv,1)
  print("result: %g"%prediction.eval(feed_dict={x: new_img, keep_prob: 1.0}, session=sess))

else:
  学習
  saver.save(sess, "model.ckpt")

saverとckptは参考ページ通り．画像はPILを使って読み取り，グレースケールに変換後numpyのndarrayに代入して元のテストデータと同じ形に計算/reshapeしている．あとは，モデルに新しい画像を食わせてやり，その結果を出力するだけ．

結果は次の通り

% python saver.py 
load ./model.ckpt
result: 2

ちゃんと「2」と認識してくれた．嬉しい．とても嬉しい．CNNめちゃめちゃ可愛い．

ちなみに，学習100回のモデルに画像を計4枚作って読ませてみたが，1枚だけ誤認識した(「9」が7)．友人は「4」が1であると認識されて，文字の太さが原因だったのではないかと考察している．今回は入力画像の前処理などを一切していなかったので妥当かも．

とにもかくにも，自分で作った画像を認識してくれて嬉しいので今日はこの辺で．

walkingmask’s development log

IT系の情報などを適当に書いていきます

TensorFlowで学習済みモデルを使用する(Deep MNIST for Expertsの応用)

Deep MNIST for Experts

学習済みモデルを使ってみる

自作テストデータ

コードの記述