Knowledge Integration through Detecting Signals by Assessing/Scanning the Horizon for Innovation

ソーシャルメディアの広がりに伴い大量の画像が入手可能となり、データとしての利用価値が高まっています。ソーシャルメディア上の画像の多くはスマートフォンで撮影されているため、位置情報や時間情報を伴っていることが大きな強みになっています。撮影者が意識することなく付与されたこれらの情報が、有用な情報として分析対象となることもあり得ます。また、上述以外の情報(コメント、タグ、評価、フォロワー数など)の利用可能性も注目されます。

物体検出・認識技術の進展

画像分析には、深層学習(ディープラーイング)などを用いた物体検出・認識技術の進展が大きく寄与しています。この技術は、2010年代に大きな進展を見せました。2010年から開催されている画像認識コンテストILSVRCの2012年大会において、エラー率を一気に10%減少させた手法CNN(畳み込みニューラルネットワーク)が発表され、注目を集めました1)。2014年には、既存手法を用いて物体候補領域を切り出した後にCNNを利用して物体認識を行うR-CNNが開発され、それ以降も、新たな物体検出手法を組み込むなど高精度化・高速化を目指して新しい手法が毎年続々と発表されています。また、ピクセル単位で物体を認識するセグメンテーション手法を用いたFCN(全層畳み込みネットワーク)の開発により入力画像サイズの制限をなくすなどの発展も見られます。

こうした画像の中の物体に着目した分析の一方、画像全体をシーンとして捉える研究も進んでいます。Places2)は、米国MITコンピュータサイエンス・人工知能研究所が2015年に立ち上げたシーン認識データベースです。シーン認識のためのPlaces-CNNsやデータベースなどを公開するとともに、Places Challenge 2017コンテストをCOCO(Microsoft Common Objects in Context)と共同で開催しました。

今後に向けては、動画認識技術の動向も注目されます。Google DeepMindは、人間の動作400種類(1種類に400以上のビデオクリップ)を含むKinetics Human Dataset3)を公開しています。

画像データ利用の事例

  • ファッション産業への応用

商品ラインナップ(マーチャンダイジング)の形成と在庫管理が大きな課題であるファッション業界では、人工知能を利用したトレンド予測や消費者の嗜好把握に大きな期待が寄せられています。

好みの商品やコーディネートを薦めるシステムや類似商品を探すシステムなどの消費者向けサービスはすでに社会で利用されていますが、近年、世界のファッショントレンド把握を目指した研究も行われています。例えば、7600万枚からなる大規模画像データベースを構築して場所別・時間別のトレンド分析を行った研究4)では、図1に示すように、東京と香港は他の都市とは異なる特徴を持つことなどを示しました。ここで用いたデータセットは、1億枚の画像セット(YFCC100M)から抽出した世界16都市7600万枚の画像、それらからFaster R-CNNを用いて人物を切り出した画像、タグ情報(タイムスタンプ、位置情報)が含まれており、従来の代表的なデータベースと比べ100倍の規模です(現在、公開準備中5)。

その他の分析事例として、画像構成(上半身、全身、物のみ等)をCNNによりパタン分けし、その評価やコメント情報から嗜好を把握 6)するなど、画像認識とその他のデータを合わせた研究も見られます。

FashionTrends.png

図1:都市の類似性4)

  • 人間・社会についての研究

ソーシャルネットワーク上の画像データは、個人や集団に関する研究の可能性も広げています。例えば、米国コーネル大学では、44都市の1億枚の画像データを取得し、CNNを用いてそのうちの1450万枚を対象に服装の色合いやスカーフ・帽子着用等を分析、都市を特徴づける研究が行われています7)。また米国スタンフォード大学では、200都市5000万枚のGoogleストリートビューから切り出した自動車画像を用いてCNNにより車種を特定し、ロジスティック回帰モデルに従って車種から人口統計データ(人種、教育、投票行動等)を推計する研究事例が見られます8)

一方、画像認識技術は関与しませんが、画像の作成や加工の状況、画像の共有状況を基にした研究も見られます9)。例えば、画像の明るさや色調、掲載タイミング、フィルター使用有無などの情報から、地域の特徴分析やうつ病歴のある者の特徴分析を行った研究、また、特定の都市の画像に焦点を当て、それらへのコメントやフォロワー数等を基にコミュニティの分析を行った研究などもあります。

画像データ利用の可能性

今後データ蓄積が進めば、時系列分析も可能となります。また、イベント・祭事、建造物・住宅、料理など、生活を構成する様々な文化的・社会的要素の分析に利用できるようになるかもしれません。静止画像だけでなく動画も分析対象に加われば、可能性はさらに広がります。

こうしたメリットの一方、ソーシャルメディアで流通している画像データは全世界の均等なサンプリングではない事に留意が必要です。スマートフォンが浸透していない地域もあり、データには人種的・文化的に大きなバイアスが存在すると推測されます。そのため、現在利用可能なデータを基に得られた結果には上述のバイアスが含まれており公平性に欠くという指摘があります。また、個人がソーシャルメディアに掲載した情報の中には、人工知能アルゴリズムにより、本人が対外的に公表することを意図していなかったパーソナルデータが特定されてしまう可能性もあります。データ取得及び利用に伴う倫理的問題も考慮する必要があります。

 

出典

1) ImageNet Large Scale Visual Recognition Challenge 2012 (ILSVRC2012)

http://image-net.org/challenges/LSVRC/2012/results.html

2) Places: http://places.csail.mit.edu/

3) Will Kay et al. The Kinetics Human Action Video Dataset. arXiv: 1705.06950v1 (2017)

4) Kaori Abe, Teppei Suzuki, Shunya Ueta, Akio Nakamura, Yutaka Satoh, Hirokatsu Kataoka. Changing Fashion Cultures. arXiv: 1703.07920v1 (2017)

5) cvpaper.challengeに公開情報を掲載予定

6) Yu-I Ha, Sejoeng Kwon, Meeyoung Cha, Jungseock Joo. Fashion Conversation Data on Instagram. arXiv: 1704.04137v1 (2017)

7) Kevin Matzen, Kavita Bata, Noah Snavely. StreetStye: Exploring World-wide Clothing Styles from Millions of Photos. arXiv: 1706.01869v1 (2017)

8) Timnit Gebru et al. Using Deep Learning and Google Street View to Estimate the Demographic Makeup of the US. arXiv: 1702.066683v2 (2017)

9) 例えば、Nadav Hochman, Raz Schwafts. Visualizing Instagram: Tracing Cultural Visual Rhythms. AAAI Technical Report WS-12-03 Social Media Visualization (2012)、Andrew G Reece, Chirstopher M Danforth. Instagram Photos Reveal Predictive Markers of Depression. EPJ Data Science (2017) 6:15、 John D. Boy, Justus Uitermark. How to Study the City on Instagram. PLOS ONE 11(6): e0158161 (2016)、など

 

これまでの科学技術予測調査における関連トピック

SNSなどのソーシャルメディアのデータを分析し、行動予測するシステム(例:犯罪予測や消費者の購買行動予測)(2015年:第10回調査)

個性的で自己実現を可能とするような、コンピュータによる衣服の選定が実用化する(1971年:第1回調査)

コンピュータによる適確なファッション予測が可能となる(1971年:第1回調査)


コメント欄を読み込み中