Computer Vision Advent Calendar 2012 Saliency Icon Championship (CVAC2012 SIC)

Computer Vision Advent Calendar 2012は，@sakanazensen さん主催のACです．私は参加者の @yonetaniryo です．

Saliency Icon Championship (SIC) の概要

Saliency Icon Championship (SIC)は，色々な方のTwitterアイコンをタイル上にならべ，saliency mapと呼ばれる視覚的注意の計算モデルを適用することで，「どのTwitterアイコンが最も視覚的注意を誘起しやすいか（ぱっと目につきやすいか）」を調べてみようという企画です．

本企画の意義

タイムライン上でどのようなアイコンが目につきやすいかが分かり，アイコンデザインに関する何らかの手がかりを得ることができます．
Saliency mapのモデルがいかに直感に即していないか（！）が分かります．

アイコン収集の過程

参加希望の方には以下の要項をお読みいただいたうえで，アイコンを送っていただきました．

提供いただいたアイコンは，上のような形式でウェブ上にアップされる予定です．同アイコンは，本企画（Computer Vision Advent Calendar 2012 Saliency Icon Championship）以外では利用いたしません．また，本企画が営利目的になることもありません．

ご自身が権利を保持していない（著作者より転載の許可を得ていない）アイコン（例: アニメ画像のキャプチャなど）のご提供はご遠慮ください．また，提供いただいたアイコンの改変が（画像処理的に，ではなく法的に）難しいと判断される場合，こちらからお問い合わせ，あるいは掲載を見送りさせていただく可能性がございます．ご容赦ください．

本企画にあたって，著作権を譲渡いただくことはありません．ただし，提供いただいたアイコンからsaliency mapを計算し，ウェブ上にアップすることを許可していただければ幸いです（これを許可いただけない場合，同一性保持権の侵害になる可能性があるかと思います）．

最終的に，以下の方々よりアイコンをご提供いただきました．ありがとうございます．
@_akisato_様，@derivecv様，@hanihani34様，@kanoji_BOTCH様，@kansaicvprml様，@Kyabatalian様，@lachesis1120様，@miyabiarts様，@naejimu様，@progranate様，@q_tarou様，@sakanazensen様，@T_Y_K様，@tackson5様，@takmin様，@tomoaki_teshima様，@yasutomo57jp様，@yonetaniryo
いただいたアイコン一覧はこんな感じです．

顕著度計算の過程

前処理

前処理として，いただいたアイコンをクロップ＆リサイズすることで，同一サイズ（144x144pixel）に揃えました．クロップはアイコンに映る主体がなるべく完全に映るように行いました．また，リサイズによって解像度が大幅に変化するアイコンはありませんでした．

顕著度計算

以下の2x3条件で計算を行いました．

入力画像
1. アイコンそれぞれ独立に評価
2. アイコン（全20種類）を5x4のタイル上に並べた画像を評価
特に2. に関して，saliency とは「周囲と比較してその点がどれだけ異なるか」を測るので，アイコンの並びによって結果が変動することが予測されます．そこで本調査では，アイコンの並びをランダマイズしつつ，合計100枚のタイル画像を作成し，それぞれについて計算を行いました．アイコン間には隙間ができないように並べました．

計算モデル
現在，"saliency"と名のつくモデル・手法は概ね以下の2種類に分類できます．
a) Visual attention model: 文字通り，人間の視覚的注意（visual attention）のモデルです．「周囲と比較してその点がどれだけ異なるか（center-surround difference）」に基づいて入力画像の各画素の顕著度（saliency value）を計算するモデルです．
b) Salient region detection: 「目立つ領域を検出しよう」という手法になります．こちらは人間の視覚的注意機構を考慮しないものがほとんどで，しばしばsuperpixelなどのセグメンテーション手法と併用されます．
今回はa)，b)について，Matlabコードの公開されている以下の3種類を用いて評価を行いました．
a-1) Saliency map: A Model of Saliency-Based Visual Attention for Rapid Scene Analysis - Itti+, 1998 (code)
Ittiらによって実装された最初のsaliency mapになります．大まかには，色（補色差），輝度，エッジ方向といった基礎的な特徴量を多重解像度で表現し，解像度間の特徴量差分の大きさをもってcenter surround differenceを測るモデルになります．
a-2) GBVS: Graph Based Visual Saliency - Harel+, 2006 (code)
GBVSではまず，画像のピクセルをノードとした完全グラフを構築します．そして，エッジの重みに「特徴量差 x exp(-ピクセル間マハラノビス距離）」を与えます．このグラフをマルコフ鎖としてとらえ，その定常分布を計算することによって，各ピクセルが持つ特徴量のcenter-surround differenceが計算されることになります．
b) CBSaliency: Automatic salient object segmentation based on context and shape prior - Jiang+, 2011 (code)
本モデルでは画像をいったんsuperpixelに分割し，各superpixelとその周囲のsuperpixelが持つ色分布のカイ二乗距離をもってcenter-surround differenceを測ります．顕著度はsuperpixelごとに与えられます．

評価

アイコンごとに顕著度を総和し，その試行に対するスコアとしました．タイル化画像に関しては，100試行の平均と標準偏差を計算しました．

調査結果

各図上4x5がモデル適用結果，6行目がスコア（総和された顕著度，タイル化画像は標準偏差のエラーバーも込み），7行目がトップ5のアイコンになります．皆さんのアイコンはいかがでしたでしょうか．

1. アイコン独立

a-1) saliency map

a-2) GBVS

b) CBSaliency

2. タイル化画像

a-1) saliency map

a-2) GBVS

b) CBSaliency

考察

アイコン独立 vs. タイル化画像

アイコン独立の評価では，主に「そのアイコン中でどこが目立つか」が分かります．一方で，タイル化画像に対する評価では，「周囲に別のアイコンが配置された際に，そのアイコンがどれだけ目立つか」が分かります．両者で顕著度の高いアイコンが異なることが分かるかと思います．その原因としては，

タイル化画像におけるあるピクセルの顕著度は，その点における特徴量が「そのアイコン内でどれだけ異なっているか」のみならず「周囲のアイコンと比較してどれだけ異なっているか」に基づいて計算されるため
タイル化画像の場合，アイコン間の境界に特徴量差が出やすく，またその部分が顕著であると判定されやすくなるため

といったことが考えられます．
また，スコアの散らばり（偏差）を見てみると，CBSaliencyが最も大きく，saliency mapとGBVSは似たり寄ったりという感じになっています．これに関して，CBSaliencyではsuperpixelごとに一つの顕著度が与えられています．したがって，アイコンの並びが変化することでsuperpixelの作られ方が変化すれば，結果としてドラスティックに値が変わってしまうことが予想されます．

手法ごとの評価

Saliency mapでは異なる解像度間での特徴量の差分によってcenter-surround differenceを評価するため，ある点における特徴量を画像全体の特徴量と比較するGBVSやCBSaliencyと異なり「より局所的な範囲でcenter-surround differenceが高い」点が評価されることになります．1. アイコン独立 - a-1) saliency map において，小さな極大点がたくさん出るのはこれが原因であると考えられます．CBSaliencyではsuperpixelごとに顕著度を与えているので，元の入力画像が想像しやすいですね．

今回用いたモデルは基本的に画像の基礎特徴量のみを用いるものであり「顔が目立つ」「文字が目立つ」といった情報は反映されません．ですがGBVSやCBSaliencyにおいていくつかの結果では，明らかに顔や文字が高い顕著度を得ています．理由の一つとして，アイコンを作る段階で，アイコン作成者が「顔や文字が視覚的に目立つように」陰に背景のテクスチャや色を設定していることが考えられます．

まとめ

いかがでしたでしょうか．僕自身としては，

視覚的注意モデル，意外とアテになんないな
Salient region detectionの方が直感的に分かりやすい結果だな

などの印象を持ちました．また，実験条件（画像の並べ方など）によって結果に大きな差が出てくるところも個人的には面白かったです．
視覚的注意モデルやsalient region detectionは色々な場面に応用されており，たとえば

などがありますので，よければチェックしてみてください．

最後に，本調査にご協力いただき，アイコンをご提供してくださった皆様，本当にありがとうございました．