そういう、モデルなんです。

ビジネスモデル、3Dモデル、設計図、模型などの現状と動向を考察、関連書籍の紹介

オンライン会議の話者認識・分離に使えるソフト・サービス

話者認識・分離ができると便利ですよね。

お客様へのプレゼンなどで、ペラペラと売り文句をずっとしゃべり続ける自社員のどうでもいい発言は無視して、言葉としては少ないが重要なお客様の発言だけを正確に頭出し・ピックアップして文字起こしする作業をするのには、話者認識・分離ができるソフト・サービスを使うと便利。

f:id:tombi-aburage:20210303222601p:plain

Zoom

ローカル録音のレコーディング設定で、

各話者の音声トラックを録音する
Record a separate audio file for each participant who speaks.

にしておくと、ローカル録音のさいに音声ファイルが話者別に分離される。

クラウドレコーディングでも話者分離ができるかどうかは分かりません。

東芝 TruRecorder

東芝のノートPC、タブレットPCにオマケでついていた付属ソフトの1つ。

約8年前の東芝タブレットPCに付属していたもので、東芝ユーザ以外は知る由もないが、実は話者識別ができる。

「録音」という、議事録作成の強い味方

1レコード最大約3時間まで、会議の発言を録音可能。音声を分析して話者を識別*3できるので、特定の話し手だけの発言を聞くこともできます。また、「TruNote」を使いながら、アプリランチャから「TruRecorder」を起動して録音を開始できます

dynabook.com

ただし8年前くらいのソフトなので、最近では当たり前の動画ファイルを直接読み込ませることができないため時代遅れ感はある。

Windowsストアから自由にダウンロードできるが、インストールしたタブレットやノートパソコンの機種が東芝の対応モデルであるかどうかをクソ真面目にチェックしているため、他のメーカー(機種)のタブレットやノートパソコンに入れても使うことはできない。

  • オンライン会議サービス、画面全録(動画キャプチャ)ツール、またはライブ配信ソフト(通常、録画機能もある)等で会議の様子を録画または録音し、 

    tombi-aburage.hatenablog.jp

  • ハイスペックなPC上で、動画編集ソフトで動画ファイルから音声だけを分離し、 
    PowerDirector 19 Ultra|ダウンロード版

    PowerDirector 19 Ultra|ダウンロード版

    • 発売日: 2020/09/16
    • メディア: Software Download
     

     

  • 音声のみのファイルをNAS、Windows共有フォルダ Samba、クラウドストレージなど、他のパソコンからでも参照できるような共有場所に保存してから、 
    ビデオ SALON (サロン) 2020年 2月号 [雑誌]

    ビデオ SALON (サロン) 2020年 2月号 [雑誌]

    • 発売日: 2020/01/20
    • メディア: Kindle
     
  • このソフトがインストールされている東芝タブレットやノートパソコンで、共有場所に置いた音声ファイルを読み込む

という手順を踏めば、話者識別された音声会議録を再生するソフトとして利用することはできる。

なおオンライン会議サービス ZOOMでは、その後の文字起こしを想定してか、音声のみファイルもついでに生成してクラウドレコーディングしておいてくれるので、最後の手順だけで済むので便利。

f:id:tombi-aburage:20210303222239p:plain

なお、このソフト自体には、文字起こしの機能はない。残念ながら。

8年前のロースペックなタブレットPCで、サイズの大きい音声ファイルを読み込ませると、けっこう時間はかかるので、貧民向け。

なお Dynabook 自体も最早東芝ですらなくシャープ資本となっており、最近の機種には Tru シリーズのソフトは付いていないようだ。REGZAも中国のハイセンスだし、コンシューマ市場から東芝は消えてしまったな。サザエさんからも。

ハイラブル

グループワークにおいて、話者認識・分離を行って複数の

参加者の発言量やその変化、やり取りの量などのデータをリアルタイムで分析し、その場で見える化します(特許出願中)

www.hylable.com

とのこと。オンライン会議ソフトとしての出来栄えは不明だが、

Web会議の基本機能に加えて…(中略)音声が聞き返せる

とあるので、基本機能があり音声を録音することもできるらしいことは分かる。

なおJSTの新技術説明会で上智大学から

  • 質の高いオンライン授業を実現する細粒度学習履歴の利活用技術

の発表があり、その中で利用例が説明されていた。その実証では、体の動きの方は360度カメラで分析し、発話の方はハイラブルで分析するという手法となっており、発言の偏りがハッキリ可視化できることがよくわかる。

AmiVoice

8年位前に、アドバンスド・メディアの本を読んで啓発され、株を買ったら爆上がりしたのでさっさと売ったが、いまや音声認識の超有名企業となっている。

スマホは「声」で動かせ

スマホは「声」で動かせ

  • 作者:鈴木 清幸
  • 発売日: 2012/04/20
  • メディア: 単行本
 

もともとは不特定話者でも音声認識ができることが売りだったが、当然話者識別もできる。

何でもできる。金持ち向け。
wwwvanced-media.co.jp