そういう、モデルなんです。

ビジネスモデル、3Dモデル、設計図、模型などの現状と動向を考察、関連書籍の紹介

縦書き日本語OCRはGeminiがお勧め

日本語の書籍は縦書きも多く、OCRが利かなくて困る。
Google Lens とか Gemini に解読させるとよい。

youtube.com

検索可能PDFにならない

最近のスキャナーには何らかのOCR機能があるらしく、出力形式として画像、PDF、検索可能PDFなどを指定することはできるが、昔スキャンしたものはPDF形式に見せかけた画像データの塊?であるようで、全く検索できない。

最近スキャンしたものは、OCR機能がマシになったのか、一応認識はされるようだが、どこまで文字認識されているのかは定かでない。

PowerAutomate にあるOCRはイマイチ

PowerAutomate で OCR を自動化するための部品があり、Windows OCR と tessarect をエンジンとして選択できる。このうち Windows OCR は日本語に対応している。

PowerAutomate

しかし、縦書きの文書を読み取らせてみると、なんとなく文字列は読めているものの、段落がめちゃくちゃになった。横書き専用なのかもしれない。

Copilot は文字列読み取り OCR タスクを拒絶

英語のOCRは、中世風の英語でも正しく読み取れるなど、かなり優秀だった。

しかし、縦書き日本語の OCR は拒絶された。

Copilot

Gemini では文字列読み取り OCR タスクは良好

最近、巻き返しが激しい Google Gemini に依頼してみた。

youtube.com

こちらは、ほぼ完ぺきだった。

結局、Copilot と Gemini、両方使うことになりそう

MS/OpenAI の独占にならず、両社が競争している状況は望ましい。
利用者としては両方のいいとこどりをして使い分ければよい。