Googleドライブに PDF の資料を格納しておき、それらを Gemini に横断検索してまとめさせると時短になる。
- 公開されたガイドや白書のたぐいを収集
- Gemini の拡張機能を使って横断検索
- 拡張機能をオン
- @を入力してから、Googleドライブを指定
- プロンプトを投入
- まとめてくれる
- 各個人のデータが流出することはないのか?
- ないとは思うが念のため
- サーバーサイドの管理の仕組みについても質問
Googleドライブに PDF の資料を格納しておき、それらを Gemini に横断検索してまとめさせると時短になる。
ファイラーと生成AIを併用して、個人の作業環境の範囲でナレッジを整理する。
日本語の書籍は縦書きも多く、OCRが利かなくて困る。
最近のスキャナーには何らかのOCR機能があるらしく、出力形式として画像、PDF、検索可能PDFなどを指定することはできるが、昔スキャンしたものはPDF形式に見せかけた画像データの塊?であるようで、全く検索できない。
最近スキャンしたものは、OCR機能がマシになったのか、一応認識はされるようだが、どこまで文字認識されているのかは定かでない。
PowerAutomate で OCR を自動化するための部品があり、Windows OCR と tessarect をエンジンとして選択できる。このうち Windows OCR は日本語に対応している。
しかし、縦書きの文書を読み取らせてみると、なんとなく文字列は読めているものの、段落がめちゃくちゃになった。横書き専用なのかもしれない。
英語のOCRは、中世風の英語でも正しく読み取れるなど、かなり優秀だった。
しかし、縦書き日本語の OCR は拒絶された。
最近、巻き返しが激しい Google Gemini に依頼してみた。
こちらは、ほぼ完ぺきだった。
MS/OpenAI の独占にならず、両社が競争している状況は望ましい。
利用者としては両方のいいとこどりをして使い分ければよい。
Stable Diffusion Web UI に、新しい版が登場した。
Automatic1111 を改良し、性能を向上させ資源を節約しもので Forge と呼ばれている。
開発者は Fooocus と同じ。
画像生成AIとSVGへの変換の組み合わせで、アイコンライブラリは不要となった。
画像生成AIを併用して、3Dアバターの衣服制作を省力化した。
メッシュの寸法・形状を微調整する手間は省けなかったが、画像生成AIに出力された任意の衣装の画像から3Dモデルを起こすことはできるようになった。
画像生成AIで、ベン図を描かせてみる。
プレゼンテーションソフトで10秒でできることだが、画像生成AIに指図した場合、どのようになるのか。