torazaemon2016’s blog

手書き文字認識メモ開発

音声認識メモ Ver.2

音声&手書き文字認識メモ (Ver.2)

しゃべったことがどんどん文字になっていくメモ(簡易エディタ)アプリに手書き文字認識機能も追加しました。

apps.microsoft.com

日本語向けの機能として、簡便な句読点処理が組み込まれており、自動で句点を付けたり、句読点ごとに改行するなどが可能です。

音声認識

画面にペンによって手書きした文字を認識してテキストにする機能もあります。

手書き文字認識

左右矢印キー、Delキーで編集したり、Spaceキー、Enterキーで確定させるなど、簡単に文を修正可能です。

また、Windows10のPCでも動作可能です。

注意点:

音声認識エンジン関係

  • Windowsの設定->時刻と言語->言語と地域->言語で、利用したい言語のオプションで、音声認識をインストールしてください。
  • Windowsの設定->時刻と言語->音声認識で、インストールされている音声パッケージを確認してください。
  • Windowsの設定で、「プライバシーとセキュリティ」で「マイク」を「ON」許可してください。
  • さらに、同じく「プライバシーとセキュリティ」で「音声認識」の「オンライン音声認識」を「ON」にする際に、Microsoft音声認識データの取り扱いに関するポリシーをよく読んで、ご利用ください。
  • インターネット接続が必要です。

  • PCのマイク性能やドライバにより、音声が入らない場合や、遅延が発生するなど、うまくいかない場合もあります。うまくいかない場合は、OS標準の(Win + H)で起動される音声認識アプリが正しく動作するかを確認してみてください。

  • 外付けマイクを用いるとうまくいく場合もありますので、工夫してみてください。
  • 音声の学習が進んでいない初期のころは、満足な変換が行われませんが、ある程度慣れてくると、良くなりますので、滑舌良くたくさん話しかけてみて下さい。

手書き文字認識エンジン関係

*「設定」「時刻と言語」「言語と地域」において、該当言語のオプション言語機能「手書き」をインストールしてください。

起動しない・うまく動かない場合

  • 音声認識エンジン、手書き文字認識エンジンとも、Windows Updateで日々更新されている部分もあります。できるだけWindows Updateを最新にしてみてください。
  • IMEとして、Google日本語入力など「MS IME以外のもの」を利用していた場合、画面が出た後すぐ落ちたり、そもそも起動しなかったり、また変換ができなかったりすることを経験しております。このため、IMEは MSのものを選択してご利用ください。

機能

  • 最上段には、ファイル操作系ボタンや設定画面へ行くボタンがあります。
  • 最上段中央の数字は、上段でのテキスト文字数です(改行、半角空白は含めない)。
  • 最上段右には、インストールされている手書き文字認識エンジンが選択できるようになっています。

  • 上段が、確定した文字列を蓄積していく領域です。テキストボックスですので編集が可能です。また、ここのテキストをクリップボードやファイルに保存することができます。

  • 上段より下の枠に、リアルタイムに認識している文字列が刻々と表示されます。ここで表示されるものと認識が確定して上段で表示されるものとが違う場合があります。

  • 音声認識の結果より下の枠に表示されるテキストは、「緑」確信度高い、「青」確信度中、「赤」確信度低いで表示されます。

  • 左下のマイクボタンは、トグルボタンになっていますので、押すことでOn/Offを切り替えます。マイクボタンの色は「緑がON状態(音声認識可能)」、「赤がOff状態」として色が変化しますので、ON/Offの状態を確認してください。

  • マイクボタンの数字は、音声認識エンジンの起動回数です。調子が悪くなる場合や、無音が続いた場合に自動で再起動する場合があります。起動回数が100回を超えたら、アプリそのものを再起動するよう促すメッセージが表示されます。
  • 左下には、インストールされている手書き文字認識音声認識エンジンが選択できるようになっています。

  • 最下段は、キーボードがなくても編集等ができるよう、左端にDELキー、右端にはスペースキー、Enterキーがあります。

  • スペースキーの左には、「読点」と「句点」のボタンがあります。
  • また、「登録した文字列を挿入できる」ボタンが10個用意してあります。この文字列は設定画面で変更することができます。画面が狭くなると見えなくなるボタンも出てきますので、文字列の長さやアプリの画面の大きさに注意してください。

  • Shiftキーを押すことで確定させることができます。

  • マイクがoffのとき、Tabキーを押すことでマイクをONにすることができます。

  • 内容に変更があった場合、無操作時間がある時間経過ののち自動保存します。

  • 編集中のファイルが他のアプリ等で更新された場合、その旨をポップアップして知らせ、更新するかどうかを聞いてきます。

  • 本アプリが前面でなくても、音声認識が継続するようになりました。VScodeなどで同じファイルを開いて前面にしていると、音声認識され自動保存された文章が追加されていく様子を見ることができます。マイクのON/off回数により本アプリは自動でマイクoffする場合がありますので、裏でずっと動かしっぱなしというわけにはいかないので、実際にバックグラウンドで利用するというのには向いていないと思います。

設定画面

設定画面

句読点や、最下段の文字列ボタンなどを設定することができます。

句読点はデフォルトは「。、」になっていますが、「.,」などに変更するなどしてみてください。

また、英語などの時は「. 」(ピリオドと半角空白)とすることで、次の文とつながらないようになります。

フォントサイズや、ダークモードなども選択できます。

開発動機

タブレットPC (キーボードがないPC(Surface Pro/Go))を快適に操作する環境を作る一環として、 ペンで手書きした文字を認識するHWRシリーズを作ってきて、今度は音声もやってみようということです。

torazaemon2016.hatenablog.jp

torazaemon2016.hatenablog.jp

Windows11での Win+H で起動できる音声認識アプリも、そこそこいいのですが、 毎回毎回マイクONにしなければいけない手間などが面倒だということと、 認識結果の編集作業がすぐにできるといいなという考えで作成しました。

Win+Hを押す (AutohotkeyでF14に設定して、Capsキー(F14)を押すだけ)で、 すぐWindows11の音声認識アプリが使えるようにはしていたけど、 編集のたびにマイクOffになり、またマイクONする手間が、思ったより大きい(今からしゃべるぞ、とか、押し忘れてしゃべっての orz とか)が ストレスだったので、作成してみました。

将来的にはHWRと合体(というか)SPRにHWRのほうを入れる方が作り易そうなので、頑張ってみたいです。

2024-11-04 組み込んでVer.2.2へupdateしました。

多言語対応は、なかなか難しいところがあるので、ずっと先送りかと思います、、、

思った以上に認識してくれることと、学習が進むとより正確になってくるのは面白いので、 文章を綴るのがはかどりそうです。

  • Ver2.2.3

IMEがON (かな漢字モード)において、ひらがなで書いて、SPACEキーを押すと、かな漢字変換されるようになっています。 これで、漢字がわからなくても、手書きで文章を書いていくことができる環境ができました。

torazaemon2016.hatenablog.jp

履歴

  • 2024-11-25以降予定 Ver2.6.1 時間経過で自動で上書き保存する機能を追加しました。かな漢字変換後の確定動作を修正しました(Enterや上下段の移動で全確定するように変更)。本アプリが前面でなくても、音声認識を継続するようになったようです。漢字圏以外での致命的なバグを修正。

  • 2024-11-13 Ver2.3.1 左下に日本語IMEのON/OFFボタンを追加しました。英語の文頭を大文字にする処理を追加しました(前文のピリオド( . )から5文字以内での最初の単語の1文字目をUpperに)

  • 2024-11-08 Ver.2.2.3 文字列を確定する前にカーソルを動かした場合、カーソル位置に挿入されないバグ修正。ひらがなで書いてSPACEキーでかな漢字変換したあとのEnterなどの動作が、物理キーと下部ボタンで動きが違うのをできるだけ統一。

  • 2024-11-06 Ver.2.2.2 マイクONのまま設定画面に移動するとExceptionのPopupが出る、ペーストしたものが消える、Shift+カーソルキーでの選択ができない等を修正

  • 2024-11-05 Ver.2.2.0 手書き文字認識(HWRシリーズ)の機能を組み込みむ。UIの変更(手書き部2段、マイクスイッチ位置を左下に変更。)

  • 2024-10-20 Ver.1.1.0 フォントサイズの選択、マイクOn/Off時の音の追加。起動時の音声認識エンジンのインストールの有無チェックの強化。

  • 2024-10-18 Ver.1.0.0 MS Store公開

プライバシーポリシー

torazaemon2016は、このアプリによって、お客様の個人情報ならびにプライバシーにかかわる情報を収集しません。

Application privacy policy

This application does not collect or publish any personal information.

サポート

一番下にあるコメント欄をご利用いただくか、

torazaemon16 at outlook.com (at を@に変えてください)までご連絡ください。