文章の電子化について考える、OCRとか

学校の本をはじめ、重要な文献がたくさんある。にもかかわらずその所在はノートの走り書きであったり、本のコピーであったり、古い文献の写しだったり、あるいはインターネットからDLしてきたPDFだったりする。

色々なデータや知見を集めるのは良い。だが必要なときに素早くその見たことのある文献を引き出し、短時間で必要な箇所を書き写すのにはどうしたらよいだろう?自分は文献の保管形態としては、紙体ではなく電子化して自分のHDに入っている状態が最も望ましい、と考えている。

古い文献になれば画像としてのデータでしかないこともあるし、本の中から必要な部分を探すためにはどうしたらよいだろう?これを解決するのがOCRであると考えている。ただの画像データとテキスト情報のデータではそのライブラリーの価値は大きく違って来る。素早く必要な文献を引き出すのにはコンピュータの検索を使い、短時間で必要な箇所を書き写すのにはテキスト化された文献の該当箇所をコピー&ペーストするためにはテキスト化されていることが必要なのだ。OCRは民生向けソフトではまだまだ変換識字率が問題となることがあるが、学術的な書類管理ソフトの利用者には、OCR処理がなされていれば、その整合処理が完了していなくても、文献中において重要である用語は何度も出てくるのだから、そのデジタルライブラリーの利用価値は十分高まるという意見もある。

ライブラリーの電子化後に重要性を増すのが文章一括管理ソフトまたは文献管理ソフト(紙体のものと共存しない場合、やや学術寄りな場合にはこちらのほうが良さそうである)だと考えている。現時点においては文献の管理ソフトはたとえばMendeleyとかEnd Noteを想定している。これらは学術、特に医薬系、医師系の学術文献整理・検索用ソフトである。この手の学術向けの書類整理ソフトは本が出るほど充実しており、ソフトが有償か無償かによってさまざまだが、Mendeley(無償)やEnd Note(有償)は主要な代表例といえるだろう。本来、自分のやりたいこと自体が研究に近いものなので、学術向けの整理ソフトのほうが自分のパッケージにはむいているのではないだろうか?

加えて、リファレンスばかりではなく、自分の記述したものに対しても、検索がかけられ、リンクが付けられるようなものがないだろうかと探している。自分の書いたものも含めてPDF形式に統一、一元化管理というのが良いのではなかろうか?

とにかく紙体で保存してある文献を電子化してしまおうと思っている。それもこの夏中くらいに。とりあえずエプソンのES-8000をオークション経由で入手した。ADFは付いていないがしばらくはこれでやってみよう。

コメントを残す