京都大学との共同プロジェクトの成果が自然言語処理分野の伝統ある国際会議の一つであるCOLING2022にポスター論文として採択されました. Keisuke Shirai, Atsushi Hashimoto, Taichi Nishimura, Hirotaka Kameko, Shuhei Kurita, Yoshitaka Ushiku, Shinsuke Mori, “Visual Recipe Flow: A Dataset for Learning Visual State Changes of Objects with Recipe Flows”, COLING 2022 作業に伴って生じる物体の状態変化を予測することの重要性 自然言語によってロボットに所望の作業を代行させる技術は,人口減少時代を迎えつつある先進諸国において非常に期待が高まっています.しかしながら現在行われている研究の多くは物体の位置や姿勢を変える動作の代行に留まってしまっています.言い換えれば,多様な技術的制約のために材料から価値ある製品を組み立てるといった課題をこなすロボットを言語で動かすというレベルには世界中の誰もが踏み込めていないのが現状です.本研究ではロボットが将来的に複雑な課題をこなすことが可能になった際に,それを言語で制御するための技術を先行して開発することを目的とし,「文章で指示された目標状態を計算機上でどのように表現すべきか?」という課題を切り出し,このような課題実現のための機械学習モデルを獲得するためのデータセットを提供しています(図1)

Visual Recipe Flow —レシピの作業フローに伴う物体の視覚的状態変化を学習するためのデータセット
Visual Recipe Flow —レシピの作業フローに伴う物体の視覚的状態変化を学習するためのデータセット

京都大学との共同プロジェクトの成果が自然言語処理分野の伝統ある国際会議の一つであるCOLING2022にポスター論文として採択されました.

Keisuke Shirai, Atsushi Hashimoto, Taichi Nishimura, Hirotaka Kameko, Shuhei Kurita, Yoshitaka Ushiku, Shinsuke Mori, “Visual Recipe Flow: A Dataset for Learning Visual State Changes of Objects with Recipe Flows”, COLING 2022

作業に伴って生じる物体の状態変化を予測することの重要性

自然言語によってロボットに所望の作業を代行させる技術は,人口減少時代を迎えつつある先進諸国において非常に期待が高まっています.しかしながら現在行われている研究の多くは物体の位置や姿勢を変える動作の代行に留まってしまっています.言い換えれば,多様な技術的制約のために材料から価値ある製品を組み立てるといった課題をこなすロボットを言語で動かすというレベルには世界中の誰もが踏み込めていないのが現状です.本研究ではロボットが将来的に複雑な課題をこなすことが可能になった際に,それを言語で制御するための技術を先行して開発することを目的とし,「文章で指示された目標状態を計算機上でどのように表現すべきか?」という課題を切り出し,このような課題実現のための機械学習モデルを獲得するためのデータセットを提供しています(図1)

図1: この研究では直前までの作業観測履歴と言語指示から,次の作業の後に観測される状態を推定することにより,言語指示が意図する目標状態の表現を学習します.

Visual Recipe Flow (VRF) データセット

このデータセットではWebから収集した200レシピのそれぞれに図2に示すようなレシピフローグラフ[1]とレシピに従った作業中に生じる状態変化が付与されています.

--

--

7月1日にHCII2022において製造工程をクロスモーダルに理解するためのプロジェクトに関する解説を行います.

Atsushi Hashimoto, Taichi Nishimura, Yoshitaka Ushiku, Hirotaka Kameko, Shinsuke Mori, “Cross-modal Representation Learning for understanding Manufacturing Procedure”, HCII 2022

この研究は京都大学森信介教授との共同研究の成果です.

背景

近年は機械学習技術の核心がめざましく,かつては難しいとされていた様々な課題が解決しています.そのような状況の中で,未だに解くことができていない問題の一つが長いコンテキストをどのように扱うかという問題です.調理は複数の工程からなり,かつ,各工程の内容はそれ以前に行われる工程に依存するという点で,そのような長いコンテキストを伴う応用の典型例となっており,ここ数年で研究が活発化しています.

このような工程の依存性や,工程を通した材料の状態変化に注目して,我々は製造工程全体を木構造で表現したり[1],潜在空間の遷移により表現する[2]モデルを提案してきました.これらはそれぞれモデルに“structure-awareness”と“state-awareness”を与えるものです.この2つのawarenessは製造工程をプログラムとして書き下す上で必要不可欠なものであり,将来的に人とロボットのインタラクションにおいて重要な技術になると考えています.

[1] Taichi NISHIMURA, Atsushi Hashimoto, Yoshitaka USHIKU, Hirotaka KAMEKO, Yoko Yamakata, and Shinsuke MORI, “Structure-Aware Procedural Text Generation from an Image Sequence,” IEEE Access, 2020

[2] Taichi Nishimura, Atsushi Hashimoto, Yoshitaka Ushiku, Hirotaka Kameko, and Shinsuke Mori, “State-aware Video Procedural Captioning,” ACM Multimedia 2021 [code]

Structure-Awareness

調理(あるいはより一般的な形式として製造工程)は複数の材料を組合せて新たな価値を生む活動です.この活動は通常,複数の工程からなります.また,それらの工程の間には順序に依存関係があります.この依存関係は非循環有向グラフ(Directed acyclic graph: DAG)として記述することができますが,ほとんどの場合はDAGの中でも特に「木*」で表現することができます(図1).

図1: 木構造による調理作業の表現.提案手法ではvSIMMRデータセット(SIMMRデータセットをクロスモーダルに拡張したもの)による半教師あり学習によってモデルを学習します.学習されたモデルは材料(materials)と画像列(Image sequence)のみを入力として,木構造と各工程に対応するテキストを推定します.

我々は材料リストと画像列のみを入力として,図のような木構造を推定し,その木構造を使って手順書を出力する手法を開発しました.このような木構造はコンピュータプログラムにおける処理の依存関係に対応しており,このような情報は将来的にロボットに作業を代替させる際に大きな助けとなると考えています.この技術の詳細については我々の過去の記事も参考にしてください.

*ここで木とはグラフ構造を表す用語で,一切の閉路を持たないグラフを指し,DAGの一種となります.DAGは非循環閉路を持つのに対して木はこれを持ちません(例えば a, b, c, dという頂点を持つグラフにおいてa→b→dという経路とa→c→dという経路の組合せは非循環閉路となります.木はa→b,a→cと別れたあとに合流がないため,このような閉路を持ちません.)

State-Awareness

近年,ロボティクス分野におけるいくつかの研究において,Pick and Place課題(物体移動課題)を題材として言語による人とロボットのコミュニケーションの有用性が検証されてきています.これらの研究では物体の初期状態と到達すべき目標状態を特定するために言語が使われいます.しかしながら,それらの状態は物体の移動という特性上,物体の位置のみによって記述されます.このような言語によるインタラクションを製造工程でも使えるようにするためには,物体の状態表現を言語表現と対応付ける必要があると考えました.

このような対応付けを実現するため,我々はMemNetの一種であるneural processing network (NPN)という手法をクロスモーダルに拡張して,動画と手順書のペアから潜在特徴表現を得る手法を開発しました.この手法では,まず材料リストの記述からそれぞれの材料を分散表現と呼ばれるベクトル表現へ変換します.その後,入力された動画区間から,その動画内で行われた行動(Action),および,その行動の対象となった材料を特定し,それらに従って分散表現ベクトルを更新していきます(図2).このとき,行動や材料の特定は正解となるキャプションの中に含まれる単語から自動抽出されたラベルによって学習されます.また同時に各動画区間に対応するキャプションを生成する課題を解くことでさらに高度な表現学習を実現しています.

--

--

国内の画像処理系学会最大のシンポジウムであるMIRU2022において下記の研究をロングオーラルセッションで発表します.

Rintaro Yanagi, Atsushi Hashimoto, Shusaku Sone, Naoya Chiba, Jiaxin Ma, Yoshitaka Ushiku, “Edge-selective Feature Weaving for point cloud matching”
[arxiv][code]

この研究は柳凜太郎さん(北海道大学博士課程学生)による弊社におけるインターンの成果です.

概要

画像処理分野には2つの視覚的要素の対応関係をマッチングする課題がたくさんあります.本研究では2つの3次元点群モデルにおいて,点単位での対応付けを見つけ出す3次元点群マッチングという問題(図1)に取り組んでいます.3次元点群マッチングは図1のような人体姿勢の詳細追跡課題となる他,LiDARなどの距離センサーから得られる時系列データから観測点レベルの追跡結果を得るための基盤技術であり,自動運転やロボティクスを始めとして様々な応用が考えられます.

図1. 人体の3次元点群に対するマッチングの例(提案手法の結果に対して点の位置ズレに対する許容誤差0.06として成功/失敗を判定したもの)

本研究ではCVPR2021で発表されたSoTA手法であるCorrNet3D[1]の一部モジュールを提案手法に入れ替えることにより,対応付けの精度を大きく向上させることに成功しました(図2).

--

--

オムロンサイニックエックスで実施された下記の研究がコンピュータビジョンにおける最難関会議の一つであるIEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR2021)に採録されました. Yu Qing, Atsushi Hashimoto, and Yoshitaka Ushiku, “Divergence Optimization for Noisy Universal Domain Adaptation” accepted to CVPR2021. [arXiv] これは第一著者である郁青さん(東大)の弊社におけるインターンの成果です. 教師なしドメイン適応とは? 深層学習の出現以降,機械学習技術を応用したサービスや製品が次々に開発されています.しかし,機械学習技術を利用する場合,開発段階で技術者が収集した正解付きデータと,実際にサービスや製品が利用される運用環境で観測されるデータには異なる偏りが生じることがあります.このような偏りはドメインシフトと呼ばれ,学習済みモデルの推定精度を下げてしまうことが知られています.この機械学習技術を応用する上で避けては通れない問題を解決するために,近年様々な問題設定が提案されていますが,その中でも最も活発に研究が行われているのが教師なしドメイン適応(Unsupervised Domain Adaptation: UDA)です. UDAは事前に技術者がデータを収集した環境(ソースドメイン)の正解付きデータと運用環境(ターゲットドメイン)から収集した正解なしデータを手がかりに,運用環境の正解データなしでドメインシフトを解消することを目指す問題設定です.

ノイズありユニバーサルドメイン適応の研究がCVPR2021に採録されました
ノイズありユニバーサルドメイン適応の研究がCVPR2021に採録されました

オムロンサイニックエックスで実施された下記の研究がコンピュータビジョンにおける最難関会議の一つであるIEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR2021)に採録されました.

Yu Qing, Atsushi Hashimoto, and Yoshitaka Ushiku, “Divergence Optimization for Noisy Universal Domain Adaptation” accepted to CVPR2021. [arXiv]

これは第一著者である郁青さん(東大)の弊社におけるインターンの成果です.

教師なしドメイン適応とは?

深層学習の出現以降,機械学習技術を応用したサービスや製品が次々に開発されています.しかし,機械学習技術を利用する場合,開発段階で技術者が収集した正解付きデータと,実際にサービスや製品が利用される運用環境で観測されるデータには異なる偏りが生じることがあります.このような偏りはドメインシフトと呼ばれ,学習済みモデルの推定精度を下げてしまうことが知られています.この機械学習技術を応用する上で避けては通れない問題を解決するために,近年様々な問題設定が提案されていますが,その中でも最も活発に研究が行われているのが教師なしドメイン適応(Unsupervised Domain Adaptation: UDA)です.
UDAは事前に技術者がデータを収集した環境(ソースドメイン)の正解付きデータと運用環境(ターゲットドメイン)から収集した正解なしデータを手がかりに,運用環境の正解データなしでドメインシフトを解消することを目指す問題設定です.

Noisy UniDAの問題設定

本研究は,このUDAをさらに実用的な条件に近づけるノイズありユニバーサルドメイン適応(Noisy Universal Domain Adaptation: Noisy-UniDA)という問題設定とその解法を提案しています.インターネットで収集した正確でないラベルを使って,手作業のラベル修正なしにモデルを学習できたら嬉しいのに… もし,運用環境のデータを収集して,異常データを取り除かなくてもそのままモデルの精度向上に利用できたらいいのに… Noisy-UniDAはこのような簡便な学習フレームワークの実現を目指す問題設定です.
NoisyUniDAはソースドメインの正解データに誤りが含まれることを仮定したユニバーサルドメイン適応(Universal DA: UniDA)として定義されます.UniDAとは,ソースドメインに現れるカテゴリのいくつかがターゲットドメイン,すなわち運用環境では現れない状況(source private categories)とソースドメインには存在しないようなカテゴリのデータがターゲットドメインで現れる状況(target private categories)を想定したUDAです.

本研究の問い

Noisy-UniDAは2つの問題に分解できます.一つは信頼できない正解データが含まれる場合の学習方法,もう一つはUniDAです.前者の問題に対しては,2つに分岐する深層学習アーキテクチャを利用するアプローチがよく知られています. このアプローチでは分岐した2つの識別器は互いに推定結果をやり取りしながら,誤ったラベルを特定していきます.同じような分岐型のアーキテクチャを使うUDA手法としてMaximum Classifier Discrepancy (MCD)が知られています.我々は分岐型アーキテクチャを利用して,これら2つの問題を同時に解決する統一的な解法が存在するのではないかと考えました.2つの問題に対する最新の手法である JoCoRDANCE (それぞれラベル誤りとUniDAのための手法)を参考にしながら,提案手法では分岐した識別器の出力に対するダイバージェンスを制御することで両方の問題を同時に解決することに成功しました.以下の図はそれぞれ,手法の手続きと,簡単な合成データを使った識別境界の可視化結果です.

--

--

クックパッド株式会社の原島純氏と弊社シニアリサーチャーの橋本敦史が共同執筆した下記の書籍がオーム社より3/18に出版されました.

「キッチン・インフォマティクス-料理を支える自然言語処理と画像処理」
原島 純 , 橋本 敦史 (共著)
出版社: オーム社

書影はオーム社のWebサイトより引用

概要(オーム社Webサイトより引用)

料理を支える自然言語処理と画像処理を学ぼう!

クックパッドや楽天レシピなどのレシピサービスは、多くの方にとってなじみ深い、日常的に使用するものです。ほかにも、写真を撮るだけで食事が記録できるアプリや、トレーに載せた食品をスキャンすると精算ができる画像認識型のレジなど、身の回りには食に関係する情報技術が多数存在します。

本書は、そういったレシピや料理画像を題材として、言葉や画像を扱う技術について解説します。

たとえばクックパッドには、投稿されたレシピの文章を解析して、自動的にカテゴリ分けする機能があります。これには、自然言語処理という言葉を扱う技術が活用されています。

また、上で触れた食事が記録できるアプリなどには、投稿された料理写真を解析して、自動的に料理を認識する機能があります。これには、画像処理という画像を扱う技術が活用されています。

こういった自然言語処理や画像処理の技術を概説したのち、研究や開発に使用できるデータセットや、実際のサービスにおける活用事例を紹介します。さらに、自然言語処理と画像処理を複合的に用いる、クロスモーダルな処理についても紹介します。

また、最後には、自然言語処理や画像処理をより深く学びたい方に向けて、推薦図書の案内も掲載しています。

「まさに料理に関する情報サービスの開発に携わっている!」という方にはもちろんですが、これから自然言語処理や画像処理を学びたい方、言語と画像のクロスモーダルな処理について学びたい方、新しい研究テーマやサービス開発のアイデアを見つけたい方、さらには単純に料理とAIという組み合わせに興味のある方まで、技術に興味のある方には幅広く楽しんでいただける内容です。

本書籍は,好評であった人工知能学会誌2019年1月号の特集「料理情報の知的処理」を受けて企画されました.すでに実用化されたサービスに利用されている技術を中心としながら,研究開発に利用可能なデータセットまでを網羅的に紹介する内容となっています.今から機械学習技術を応用したシステム開発を行おうとする企業の技術者や,これからそういった技術応用を学ぶ情報系学生にとって役に立つように,料理という身近な題材を通してこれらの技術が実際にどのように応用されているのかを紹介しています.

また後半では,機械学習の中でも特に新しい分野であるクロスモーダル処理について,その基本的な発想や研究課題についてを紹介しています.実は,このようなクロスモーダルについて55ページに渡って詳細に説明をしている本は,世界的に見ても珍しいかもしれません.個人的には動作認識とビデオキャプショニングとが連続的につながる課題であるという議論は非常に重要だと思っており,ぜひ動作認識を研究している方やVision&Languageをこれから始めようという方に読んで欲しいと思っています.なお,特に日本語で解説するにあたって,多くの用語がまだ日本語に訳されておらず,今後,日本語で本分野に触れる方のために丁寧な訳語をつけることを心がけました(例えばVision&Language自体,邦訳がないため,本書では「視覚言語統合」としています).本書はその意味でもパイオニア的な存在かもしれません(訳語の決定について弊社PIの牛久にも多くの参考意見をもらいました).

本書はAmazonなどの各種書籍販売サイトから購入できる他,内容についてはGoogle Booksであれば多少長めにプレビューを読むことができるようです.また,実店舗にも置いてくださっているところが多々あるようです(全てのTweetを載せられなくて申し訳ないです!)

本書が多くのエンジニアや,その卵である学生の皆さんにとって役に立つものとなればこの上ない喜びです.

今後の取り組み

オムロンサイニックエックスでは、実社会で人々と協調・共存して活動する機械の実現を目指し、自然言語処理と機械学習、コンピュータビジョンやロボティクスに関する基礎研究を継続していきます。調理のような「ものづくり」を対象とした行動理解やクロスモーダル処理,ロボット制御なども大きな研究の柱の一つとなっています.弊社でのインターシップにご興味のある方は、履歴書とともにinternships@sinicx.com までご連絡ください。

--

--

オムロンサイニックエックスでのインターン成果を元に,奈良先端科学技術大学院大学(NAIST)の松本研,渡辺研で発展させた下記の研究を発表した本多右京さんが言語処理学会第27回年次大会(NLP2021)において若手奨励賞を受賞されました.なお,この研究は自然言語系の国際会議 EACL2021においても発表予定です. 本多右京 , 牛久祥孝, 橋本敦史, 渡辺太郎 , 松本裕治, 画像と単語の不一致を考慮した疑似教師ありキャプション生成, NLP2021 研究の概要 画像キャプション生成は,画像から自然言語で説明文を生成するタスクです.このような生成を行うためには「画像」と「その画像を説明する文」のペアからなる大規模なデータセットが必要となります.しかしながら,そのような大規模データセットが常に準備できるとは限りません.一方で,単に画像のみ,あるいは文のみ,というデータは容易に収集可能です.本研究では,ペアにはなっていない画像と文を用いた場合に画像キャプション生成という課題をどの程度まで解くことができるのかを明らかにするための疑似教師ありキャプション生成という課題に対して,従来以上の精度を達成できる新たな手法を提案しました.また,これを事前学習に用いて,後段で従来手法を適用することで,さらに精度向上を測ることができることも確認しました.

弊社でインターンをしていた本多右京さんがNLP2021で若手奨励賞を受賞しました
弊社でインターンをしていた本多右京さんがNLP2021で若手奨励賞を受賞しました

オムロンサイニックエックスでのインターン成果を元に,奈良先端科学技術大学院大学(NAIST)の松本研,渡辺研で発展させた下記の研究を発表した本多右京さんが言語処理学会第27回年次大会(NLP2021)において若手奨励賞を受賞されました.なお,この研究は自然言語系の国際会議 EACL2021においても発表予定です.

本多右京 , 牛久祥孝, 橋本敦史, 渡辺太郎 , 松本裕治, 画像と単語の不一致を考慮した疑似教師ありキャプション生成, NLP2021

研究の概要

画像キャプション生成は,画像から自然言語で説明文を生成するタスクです.このような生成を行うためには「画像」と「その画像を説明する文」のペアからなる大規模なデータセットが必要となります.しかしながら,そのような大規模データセットが常に準備できるとは限りません.一方で,単に画像のみ,あるいは文のみ,というデータは容易に収集可能です.本研究では,ペアにはなっていない画像と文を用いた場合に画像キャプション生成という課題をどの程度まで解くことができるのかを明らかにするための疑似教師ありキャプション生成という課題に対して,従来以上の精度を達成できる新たな手法を提案しました.また,これを事前学習に用いて,後段で従来手法を適用することで,さらに精度向上を測ることができることも確認しました.

疑似教師ありキャプション生成

画像と文が対になっていない状況でのキャプション生成には2種類の設定が知られています.一つは,対にはなっていないものの,画像と文が互いに同じような対象を観測/記述しているもので,例えば一般的な画像キャプション生成の学習データセットから画像の集合と文の集合を抜き出して利用します.このとき「どの画像とどの文が対となっているか」という情報はわからない,という仮定を置くことから対なしキャプション生成(unpaired image captioning)などと呼ばれます.このような課題では正しい対を上手く推定することで良い精度を達成できることが予想されます.これに対して疑似教師ありキャプション生成(注1)では,画像の集合と文の集合は異なるデータセットから抜き出して来ます.つまり,互いに観測/記述している対象は同一ではない,という仮定を置きます.このような仮定の元でも精度のよいキャプション生成モデルを獲得できれば,データ収集の制約が圧倒的に緩くなり,将来的には教師ありのデータセットと組み合わせるなど多様な応用の土台となる学習方法を確立できると考えています.

注1)先行研究ではこの課題を教師なしキャプション生成と呼んでいます.しかしながら,学習済みの物体検出器を利用すること,検出された物体名と文中の単語の対応を取ることができることを前提としているため,完全に「教師なし」とはいえないことから,誤解を避けるために「疑似教師ありキャプション生成」と表記しています.

提案手法の概要

疑似教師ありキャプション生成に対する一般的なアプローチは,適切な制約に基づいて画像に対する擬似的な正解データ(疑似キャプション)を生成する方法です.この際,画像の内容に対する手がかりが全くないと流石に何も疑似教師データを作成することができないため,一般的には画像に対する物体検出器によって,画像に現れる物体の一部が検出可能である状況を想定します.

従来手法では,疑似キャプションの生成をするために,まず,検出可能な物体名のみから,その物体名を含む文を生成する生成器(物体名の集合→文の変換器)を学習します.次に,画像ごとに検出された物体名を前段で得た生成器に入力することで疑似キャプションを生成し,これを用いた学習を行います.しかしながら,疑似キャプションは検出された物体名だけを手がかりに生成されるため,往々にして画像に対応しない記述を含んでしまうという問題が存在します.従来手法では疑似キャプションの文全体を画像と対応付けるため,疑似キャプションと画像との部分的な不一致にうまく対処することができませんでした.

提案手法では,この部分的な不一致に対処するため,ゲート機構を導入して,画像から疑似キャプションの各単語を生成する際に用いる画像特徴量を制御しています.このゲート機構が正しく動作するように,検出された物体名を生成する際には画像特徴を多く使い,それ以外の単語を生成する際にはその逆になるよう,ゲート機構に対して擬似的な教師信号を与えます.このようにすることで,画像特徴から,画像の内容に対応しない単語の生成を学習させてしまうことを抑制できるようになります.

図1. 提案手法の構成

実験結果

実験ではMS COCOの学習データセットから得た画像とWebから収集した文の集合(MS COCOと同じ文は含まれないように配慮したもの)を用いてモデルを訓練しました.また,MS COCOのテストデータセットを用いて,生成された文の評価を行いました.この結果,文生成で用いられるBLEU, METEOR等の指標に置いて,従来手法を上回る性能が達成されたことを確認しています(表1).また図2は実際に生成されたキャプションの例となっています.特に3例目では物体検出器はdog(犬)しか検出できず,猫(cat)を見逃してしまっています.常にこのように成功するわけでは有りませんが,この事例では提案手法と従来手法を組み合わせたモデルで正しく犬と猫の両方に言及できているなど印象的なキャプション生成例を得ることができました.

--

--