Abstract:
近年,画像処理の発展に伴い,画像と自然言語を結び付ける技術が重要になっている.一般に概念辞書のようなコーパスは視覚性や画像特徴を考慮していないため,画像から自然な説明文を自動生成する際や機械翻訳などで障害になっている.そこで本報告では,単語概念の視覚的多様性を推定する手法を提案する.提案手法では,まず,既存の画像コープスに対して,Web画像の分布に基づいて決定した重みを利用して,理想に近づくように各概念に含まれる画像を再構成する.そしてMean-Shift法による画像特徴のクラスタリングの結果得られるクラスタ数から視覚的多様性を推定する.クラウドソーシングを用いた被験者実験によって決定した真値を用いた評価実験により,15語の名詞について既存の画像コープスをそのまま用いた場合よりも正確に視覚性多様性を推定できることを確認した.
Type: Technical report at CVIM (情報処理学会研究報告)
Publication date: March 2018