MikuMikuAI2

提供: ディーズガレージ wiki
移動先: 案内検索

現状のMikuMikuAIでとりあえず完成形になってるのでMikuMikuAI2で機能強化してみます。

しばらく下調べです。

方向性

  • 音声認識トリガー「Hey Siri!」「OK Google!」「Alexa!」やだ。接続中はずっと監視状態。
  • できれば映像もずっと監視状態。
  • できれば時系列データベースで監視したい。
  • 汎用型(強いAI)を商用で求めるだろうから可能性は考慮。
  • コーパス作るなら特異点まで考慮して自分自身を検体。
  • 別人格用意するなら地上デジタル辺り特定俳優対話コーパス抜き取りも考慮
  • 自らスクレイピングして無制限強化学習できそうなら考慮。
  • 人工知能の論文多すぎなので採用実績重視。

WebGL(キャラクタモデル)

資料: three.jsでMMDのアニメーションを切り替える - Qiita

モーションも人工知能化できないだろうか?
発声(テキスト)とフェイスモーションのマッチングできるだろうか?
多分、ヴィジュアルの需要は映画トランセンデンス。
トランセンデンス001.jpg

トランセンデンス002.jpg

自然言語処理

参考: 人と対話するロボットを開発するための、研究ガイド - Qiita
参考: TensorFlowでニューラル会話モデル - Qiita
参考: Chainerを用いた対話システムの実装【seq2seq】 - Qiita
参考: 今更ながらchainerでSeq2Seq(1) - Qiita
参考: ディープラーニング(seq2seq)でtwitter chatbotを作ってみた - Qiita
参考: 応答時のテンションが変わるチャットボットを作ってみた - Qiita

多分、現状の技術ではseq2seqの転移学習が答え。
参考: 転移学習を用いた対話応答のスタイル制御
参考: 対話生成における応答のスタイル制御に関する研究
TensorFlowと転移学習
参考: RasPiとディープラーニングで我が家のトイレ問題を解決する - Qiita

コーパス

ここからやるだろうか?

形態素解析

候補: JUMAN++
候補: MeCab + mecab-ipadic-NEologd 週2回更新
参考: 新形態素解析器JUMAN++を触ってみたけど思ったより高精度でMeCabから乗り換えようかと思った話 - Qiita

ベクトル化

候補: fastText TensorFlowと同じ位置?
参考: fastTextで音声入力をネガポジ判定する - Qiita
Word2Vec 単語のベクトル化、Doc2Vec 文章のベクトル化

学習済みモデル

真っ先に欲しいものはコレ 都合いいものあればいいけど…。
インテントとエンティティが取り出せるものがよさそう。感情フィードバックをキャラクタモデルに送りたい。泣いたり怒ったり。
転移学習も検討。

画像認識

参考: 顔画像認識についてのリンク - Qiita
参考: モバイル上でのDeepLearningによる画像認識 - Qiita
参考: >Raspberry Pi 3のセットアップとTensorFlowの学習モデルによる画像認識 - Qiita
参考: コーディング不要で画像認識APIを活用したアプリを開発する - Qiita
参考: Googleの機械学習フレームワーク「TensorFlow」でImageNetの学習データを使った画像認識を試してみた - Qiita
参考: GPUなしではじめるディープラーニング - Qiita
参考: 手書きひらがなの認識で99.78%の精度をディープラーニングで - Qiita
参考: 古いけど近い Siriusをビルドする - Qiita
参考: 機械学習のライブラリ dlib - Qiita

普通に警察使ってるのでいいんだけど探し方間違えてる?

音声認識

参考: Juliusで音声認識サーバを立てて,wavファイルをPOST送信して認識する - Qiita

クライアント側でテキスト化とりあえず探す。無ければ音声データ送信テキスト返信で調整。

音声合成

参考: iOSで使える日本語OKな音声読み上げエンジン8種(TTS,音声合成) - Qiita

3年前から変わってない。自然言語処理と統合したいんだけど…。