日本語の書籍は縦書きも多く、OCRが利かなくて困る。
Google Lens とか Gemini に解読させるとよい。
- 検索可能PDFにならない
- PowerAutomate にあるOCRはイマイチ
- Copilot は文字列読み取り OCR タスクを拒絶
- Gemini では文字列読み取り OCR タスクは良好
- 結局、Copilot と Gemini、両方使うことになりそう
検索可能PDFにならない
最近のスキャナーには何らかのOCR機能があるらしく、出力形式として画像、PDF、検索可能PDFなどを指定することはできるが、昔スキャンしたものはPDF形式に見せかけた画像データの塊?であるようで、全く検索できない。
最近スキャンしたものは、OCR機能がマシになったのか、一応認識はされるようだが、どこまで文字認識されているのかは定かでない。
PowerAutomate にあるOCRはイマイチ
PowerAutomate で OCR を自動化するための部品があり、Windows OCR と tessarect をエンジンとして選択できる。このうち Windows OCR は日本語に対応している。
しかし、縦書きの文書を読み取らせてみると、なんとなく文字列は読めているものの、段落がめちゃくちゃになった。横書き専用なのかもしれない。
Copilot は文字列読み取り OCR タスクを拒絶
英語のOCRは、中世風の英語でも正しく読み取れるなど、かなり優秀だった。
しかし、縦書き日本語の OCR は拒絶された。
Gemini では文字列読み取り OCR タスクは良好
最近、巻き返しが激しい Google Gemini に依頼してみた。
こちらは、ほぼ完ぺきだった。
結局、Copilot と Gemini、両方使うことになりそう
MS/OpenAI の独占にならず、両社が競争している状況は望ましい。
利用者としては両方のいいとこどりをして使い分ければよい。