大学院卒で新入社員となった私ですが、社畜になるつもりはないので、その一環として研究を続けていき、学会などにも出していこうと考えています。
研究の途中経過の報告などをブログに書くことで、これから研究を始める方の参考にもなればと思っています。興味があればご参考ください!
本記事のテーマ
【概要】HTMを用いた特定話者の特定音声の検出
本記事では、なぜ本研究をするのかについて書いていきたいと思います。
※HTM(Hierarchical Temporal Memory)
背景
従来の話者照合といえばAppleやGoogleの「Hey, Siri」や「OK ,Google」が有名だと思います。自分の携帯にHey, Siriと呼びかけることでSiriに命令できるようになります。また、Siriは携帯所有者の声を学習することで本人の声にだけ反応するようになっていると思います。しかし、友達の声でSiriが反応することも多く、全貌はわかっていません。おそらくSiriは機械学習を用いて話者照合を行っていると考えているのですが、精度はイマイチですし、機械学習の処理を用いていると考えると携帯の処理も重くなり、バッテリー消費につながっていると考えます。
(あくまで個人的な見解です・・・、具体的な資料は見つかりませんでした。)
つまり、従来の話者照合の課題をまとめますと
・精度が低い
・処理が重い
これらを改善するために、従来の機械学習方法の「誤差逆伝播」とは違う、「ヘブ則」に近いHTM(Hierarchical Temporal Memory)を用いた処理の少ない話者照合システムおよび音声検出システムの開発を目指していきます。
目的
処理が軽い話者照合システムの開発
実験方法
HTMのSP層とTM層を用いて異常検出を行い、特定話者の特定音声のみには以上が出ないように学習させる。
概要の説明はここで終わります。
今後はしょうもない結果も載せていこうと思っていますので興味がある方は是非!
ちなみに修士時代の研究概要は以下の記事に記載しています。