DNPとNHKテクノロジーズ、映像をAIで解析し感情に合わせたフォントで字幕表示する「感情表現字幕システム」を開発

近年、多くの人にわかりやすく情報を伝える「ユニバーサルメディア」へのニーズが高まっており、テレビも聴覚に障がいのある方や高齢者などに向けて、より多くの番組への字幕付与が求められている。株式会社NHKテクノロジーズ(以下、NT)では、2018年度に「多様な視聴者が番組やコンテンツを楽しめる」をテーマに聴覚に障がいのある人とディスカッションを行い「これまでの字幕放送はフォントに抑揚が無い」「タイミングがずれることがある」「発話者がわかりにくい」といった課題があがる一方で、映像効果としてテロップに使われるユニークなフォントは印象深くなるという意見があがった。また、制作側では番組に字幕を入れる作業が大きな負荷になっており、自動的に精度の高い字幕を付与できる技術が求められていた。大日本印刷株式会社(以下、DNP)とNTは、映像と音声をAIで解析し、内容や感情に合わせたイメージのフォントで字幕を表示する「感情表現字幕システム」のプロトタイプを開発した。同システムは、DNPが開発した文章の内容に合うフォントを自動判別して表示する「DNP感情表現フォントシステム」を活用して、録画や生放送の音声を解析してリアルタイムで字幕を自動付与する。その際、字幕の内容や発話者の表情を解析して感情を把握し、その感情の表現に合うフォントを12種類の中から自動で選んで字幕に使用する。例えば、楽しい内容は丸みのあるフォントで、怒っている内容は角ばったフォントで表示することで、より直感的に内容を伝える。

左:音声解析して言葉に適したフォントで字幕を自動生成

右:一般的な字幕

顔の表情を解析して感情に適したフォントを自動表示(左:「不安」の感情、右:「楽しい」の感情)

12種類の感情・イメージと使用フォントの組み合わせ例(感情の分類やフォントは手動で変更可能)また、映像内の発話者を特定して自動的にその口元の近くに字幕を表示することができる。これにより、複数の人物が登場する映像でも、誰が何を話しているかを直感的に伝えることができる。今後両社は、同システムの開発を継続し、字幕放送(オープンキャプション)での実用化を目指す。また、音声認識や感情認識のAIの精度を向上させるほか、リアルタイム性の向上も進め、生放送やインターネット同時配信サービスの字幕(クローズドキャプション)への展開も目指す。さらにDNPは、デジタルサイネージ等の動画の字幕に応用するほか、誰でも利用できる映像編集用ソフトウェアとして提供する計画とした。https://www.youtube.com/watch?v=cGdwouXIe2U&feature;=emb_logo

© 株式会社アールジーン