相対属性

“虹の中の誰が紫色の色合いが終わり、橙色の色調が始まるラインを描くことができますか? 色の違いははっきりと分かりますが、正確にどこで最初に混じって色を入れていますか? だから、正気と狂気と。

-Herman Melville、Billy Budd

資料 ] [ データ ] [ コード ] [ デモ ] [ スライド ] [ トーク(ビデオ) ] [ ポスター ]

抽象

人間の名前を付ける視覚的な「属性」は、さまざまな認識作業に役立ちます。 しかしながら、既存の技術は、これらの特性をカテゴリラベルに限定している(例えば、人が「笑顔であるかどうか」、シーンが「乾いている」か否か)、より一般的な意味論的関係を捕捉することはできない。 我々は、 相対的な属性をモデル化することを提案する。 オブジェクト/シーンカテゴリが異なる属性に従ってどのように関連しているかを示す訓練データが与えられると、属性ごとのランキング関数を学習する。 学習された順位付け関数は、新規画像における各特性の相対的強度を予測する。 次に、属性ランキング出力の共同空間上に生成モデルを構築し、監督者が目に見えないオブジェクトカテゴリを属性を介して以前に見たオブジェクトに関連付けるゼロショット学習の新しい形式を提案する(例えば、「クマはキリンよりも’)。 我々は、提案された相対的属性が、実際には人間の解釈のためにより正確である、新しい画像のより豊かなテキスト記述をどのように可能にするかをさらに示す。 我々は、顔や自然のシーンのデータセットに対するアプローチを実証し、これらの新しいタスクのための伝統的なバイナリ属性の予測よりも明らかな利点を示します。

動機

バイナリ属性は制限的であり、不自然なことがあります。 上記の例では、左上の画像と右上の画像をそれぞれ自然と人工の画像として特徴付けることができますが、トップセンターの画像はどのように記述しますか? それを特徴付ける唯一の有意義な方法は、他の画像に関してです:それは、左の画像より自然ではありませんが、右の画像よりもそうです。

提案

本研究では、相対的な属性をモデル化することを提案する。 属性の存在を予測するのとは対照的に、相対的な属性は、他の画像に関する画像内の属性の強度を示す。 より自然なことに加えて、相対的な属性は豊富なコミュニケーションモードを提供するので、より詳細な人間の監督(したがって、潜在的に高い認識精度)へのアクセスを可能にし、斬新な画像のより有益な記述を生成する能力を可能にする。

我々は、一対の例に関する相対的な類似性の制約(または、より一般的には、いくつかの例では部分的な順序付け)を考慮して、各属性の順位付け関数を学習する手法を考案する。 学習されたランク付け関数は、それらの中に属性の存在の相対的な強さを示す画像の実数値ランクを推定することができる。

我々は、相対属性予測を利用するゼロショット学習および画像記述の新規な形態を導入する。

アプローチ

相対属性の学習: 各相対属性は、以下に示すように、比較監督下で、

トレーニングポイント(1-6)上で所望の順序付けを実施するワイドマージンランキング機能(右)と、2つのクラス(+および – )のみを分離するワイドマージンバイナリクラシファイア(左)との間の区別必ずしもポイント上で所望の順序を保持しているとは限らない。

新規ゼロショット学習 : 私たちは次のセットアップを勉強します

  • N個の合計カテゴリ: S個のカテゴリ(関連画像が利用可能)+ U個の見えないカテゴリ(これらのカテゴリに対して利用可能な画像はない)
  • Sのカテゴリは、属性を介して相対的に記述されます(カテゴリのすべてのペアがすべての属性に関連する必要はありません)
  • 見えないカテゴリは、属性の(サブセット)に関して見たカテゴリの(サブセット)に関連して記述される。

私たちは最初に、 見たカテゴリで提供される監督を使用して相対的属性のセットを訓練します。 これらの属性は、外部データから事前に訓練することもできます。 次に、 見られたカテゴリの画像に対する相対的な属性の応答を使用して、各見えたカテゴリの生成モデル(ガウス分布)を構築する。 次いで、 見えないカテゴリの相対的な記述を利用して、 見えないケアゴリズムの生成モデルのパラメータを推測する。 このために使用する簡単なアプローチの視覚化を以下に示します。

テスト画像は、最尤のカテゴリに割り当てられます。

画像の相対的なテキスト表現を自動的に生成する: 説明する画像Iが与えられれば、私はすべての学習されたランキング関数をI上で評価する。各属性について、Iの両側に位置する2つの参照画像を識別し、Iからあまり遠すぎないか、以下に示すように、これらの2つの参照画像に対して、

上記のように、他の画像に関連して画像を記述することに加えて、我々のアプローチは、他のカテゴリに関連する画像も記述することができ、純粋にテキストの記述になる。 明らかに、相対記述は、従来のバイナリ記述よりも正確で有益である。

実験と結果

2つのデータセットについて実験を行います。

(1) コーストC、フォレストF、ハイウェイH、インサイドシティI、マウンテンM、オープンO、ストリートS、高層ビルTの8種類の2688の画像を含む屋外シーン認識 (OSR)画像。

(2)Alex Rodriguez A、Clive Owen C、Hugh Laurie H、Jared Leto J、Miley Cyrus M、Scarlett Johansson S、Viggo Mortensen VおよびZacの8つのカテゴリからの772の画像を含むPublic Figures Face Database (PubFig)のサブセット。 Efron Z.画像を表現するために連結された要点と色の特徴を使用します。

各データセットに使用される属性のリストと、バイナリ属性と相対属性の注釈は次のとおりです。

ゼロショット学習:

提案手法を2つのベースラインと比較する。 1つ目はスコアに基づく相対属性(SRA)です。 このベースラインは、ランク付け関数のスコアの代わりにバイナリ分類子(バイナリ属性)のスコアを使用する点を除いて、このアプローチと同じです。 このベースラインは、相対属性を最もよくモデル化するランキング機能の必要性を評価するのに役立ちます。 我々の第2のベースラインは、Lampertらによって導入された直接属性予測(Direct Attribute Prediction(DAP))モデルである。 このベースラインは、カテゴリの属性とは対照的に、属性の相対的扱いの利益を評価するのに役立ちます。 我々は、目に見えないカテゴリの数の変化、属性を訓練するために使用されるデータの量の変化、見えないカテゴリを記述するために使用される属性の数の変化、および見えないカテゴリの記述における様々なレベルの「緩み」についてこれらのアプローチを評価する。 実験設定の詳細は、我々の論文に記載されています。 結果を以下に示す。

自動生成画像の説明:

我々の相対的なイメージ記述の品質をバイナリのものに評価するために、私たちは人間の研究を行った。 私たちのアプローチとベースラインのバイナリ属性を使って画像の記述を生成しました。 我々は、3つの画像と共に、この記述を被験者に提示した。 3つの画像のうちの1つは、記述されている画像であった。 被験者の課題は、記述されたものである可能性が最も高いと考えられるものに基づいて、3つの画像をランク付けすることでした。 説明がより正確になればなるほど、被験者は正しい画像を識別する可能性が高くなります。 被験者に提示される課題の実例を以下に示す。

研究の結果を以下に示す。 バイナリ属性と比較して、提案された相対属性を使用して、被写体が正確な画像をより正確に識別できることがわかります。

イメージのバイナリ記述とカテゴリに関する記述の例を以下に示します。

画像 バイナリの説明 相対的な説明
自然ではない
開いていません
視点
高層ビルよりも自然で、森林より自然ではない
建造物よりもオープンで海岸よりも開放性が低い
タイルビルディングよりも視点
自然ではない
開いていません
視点
内部より自然で、ハイウェイより自然ではない
通りよりも開いている、海岸よりも開いていない
ハイウェイよりも視点が多く、内部よりも視点が少ない
ナチュラル
開いた
視点
造山よりも自然で、山よりも自然ではない
山よりもっとオープン
オープンカントリーよりも少ない視点

笑顔ではない
VisibleForehead
AlexRodriguezよりも白い
JaredLetoよりも笑顔が少なく 、 ZacEfronよりも笑顔が少ない
JaredLetoより VisibleForeheadが 多く、VisibleForeheadは MileyCyrus より少ない

笑顔ではない
VisibleForeheadでない
AlexRodriguez よりも白、 MileyCyrus よりも 白が 少ない
HughLaurieよりも笑顔が少ない
ZacEfronより VisibleForeheadが 多く、VisibleForeheadは MileyCyrus より 少ない
ヤングじゃない
ゲジゲジ眉毛
丸い顔
CliveOwenより若い、 ScarlettJohanssonよりも若い
ZacEfronよりも BushyEyebrows 、 AlexRodriguezより BushyEyebrows は少ない
CliveOwenより RoundFaceが 多く、ZacEfronよりも RoundFace が少ない

データ

屋外のシーン認識 (OSR)と公共図形データベース (PubFig)のサブセットの2つのデータセットについて、相対属性とその予測を学習し ました。

README

ダウンロード(v2)

相対顔属性データセット 。 これは、 Public Figures Face Database (PubFig)の 60のカテゴリにある29の相対属性の注釈を含んでいます 。

コード

Olivier ChappelleのRankSVM実装を変更して、類似性制約のある相対属性を訓練しました。 変更されたコードはここにあります 。

コードを使用する場合は、次の文書を引用してください。

D.ParikhおよびK. Grauman

相対属性

コンピュータビジョンに関する国際会議(ICCV)、2011。

デモ

相対属性のさまざまなアプリケーションのデモがここにあります 。 これらのアプリケーションの説明は、 ここの論文に記載されています 。

出版物

D.ParikhおよびK. Grauman

相対属性

コンピュータビジョンに関する国際会議(ICCV)、2011年(口頭)

Marr Prize(最優秀論文賞)受賞者

スライド ] [ トーク(ビデオ) ] [ ポスター ] [ デモ ]

以下は、相対属性を使用する他の論文です:

A.ビスワスとD.パリキ

相対的フィードバックによる分類子と属性の同時学習

2013年コンピュータビジョンとパターン認識(CVPR)に関するIEEE会議

プロジェクトページとデータ ] [ポスター] [ デモ ]

A.ParkashD.Parikh
クラシファイアフィードバックの属性
欧州コンピュータビジョン会議(ECCV)、2012 (口頭)

                        スライド ] [ トーク(ビデオ) ] [ プロジェクトページとデータ ] [ デモ ]
A.コバシュカ 、 D。 パリキ と K.グラウマン
WhittleSearch:相対的な属性フィードバックを伴う画像検索
コンピュータビジョンとパターン認識に関するIEEE会議(CVPR)、2012
プロジェクトページ ] [ ポスター ] [ デモ ]

D。 パリキ  A  Kovashka 、 A.パーカーシュ K. Grauman
ヒューマンマシンコミュニケーションのための相対属性 (招待論文)
人工知能に関するAAAI会議(AAAI)、2012 (口頭)

No Comments

    Leave a reply