文章の電子化をしてゆこう 続き

面白い。電子書籍に関して、業界内で電子書籍への対応は遅れているのに対して、PCに関してそれなりの知識を持つユーザーは自分で電子化をして、そのユーティリティを存分に利用している。もちろんその利用は法的にはグレーゾーンとなるわけだが、NHKが「自炊派」について取り上げるなど、かなり浸透していることも確かなのである。

しかしながら、書籍の電子化の真の価値はデータそのものの電子化なのである。検索を掛けたり、文書作成時にコピー&ペーストをしたりその価値は、計り知れない。

今、強力に自分の手持ちの書類の電子化を進めようと考えている。そのプランは

1. 本の裁断

2. ADF付のスキャナーで連続読み込み(高画質読み込み、600dpiは欲しい)

3. 透明テキストデータ付PDF化、画像データのダウンクオリティ化(HD中での容量を抑えるため)

4. ネットワークHDへのストレージ化

5. ISBNコードやDOI(学術文献番号)による管理 (これに関してはマネージメントするソフトを捜索中)

6. ビューワーによる閲覧

7. PDF管理ソフトによる管理、想定しているソフトはadobe acrobat、mendeleyである

参考ページ

http://blog.livedoor.jp/businesslaw/archives/52029061.html

http://help.adobe.com/ja_JP/Acrobat/9.0/Standard/acrobat_standard_9.0_help.pdf

http://fuji.u-shizuoka-ken.ac.jp/~ishikawa/newread.htm

http://www.amazon.co.jp/gp/product/4887598084

文章の電子化について考える、OCRとか

学校の本をはじめ、重要な文献がたくさんある。にもかかわらずその所在はノートの走り書きであったり、本のコピーであったり、古い文献の写しだったり、あるいはインターネットからDLしてきたPDFだったりする。

色々なデータや知見を集めるのは良い。だが必要なときに素早くその見たことのある文献を引き出し、短時間で必要な箇所を書き写すのにはどうしたらよいだろう?自分は文献の保管形態としては、紙体ではなく電子化して自分のHDに入っている状態が最も望ましい、と考えている。

古い文献になれば画像としてのデータでしかないこともあるし、本の中から必要な部分を探すためにはどうしたらよいだろう?これを解決するのがOCRであると考えている。ただの画像データとテキスト情報のデータではそのライブラリーの価値は大きく違って来る。素早く必要な文献を引き出すのにはコンピュータの検索を使い、短時間で必要な箇所を書き写すのにはテキスト化された文献の該当箇所をコピー&ペーストするためにはテキスト化されていることが必要なのだ。OCRは民生向けソフトではまだまだ変換識字率が問題となることがあるが、学術的な書類管理ソフトの利用者には、OCR処理がなされていれば、その整合処理が完了していなくても、文献中において重要である用語は何度も出てくるのだから、そのデジタルライブラリーの利用価値は十分高まるという意見もある。

ライブラリーの電子化後に重要性を増すのが文章一括管理ソフトまたは文献管理ソフト(紙体のものと共存しない場合、やや学術寄りな場合にはこちらのほうが良さそうである)だと考えている。現時点においては文献の管理ソフトはたとえばMendeleyとかEnd Noteを想定している。これらは学術、特に医薬系、医師系の学術文献整理・検索用ソフトである。この手の学術向けの書類整理ソフトは本が出るほど充実しており、ソフトが有償か無償かによってさまざまだが、Mendeley(無償)やEnd Note(有償)は主要な代表例といえるだろう。本来、自分のやりたいこと自体が研究に近いものなので、学術向けの整理ソフトのほうが自分のパッケージにはむいているのではないだろうか?

加えて、リファレンスばかりではなく、自分の記述したものに対しても、検索がかけられ、リンクが付けられるようなものがないだろうかと探している。自分の書いたものも含めてPDF形式に統一、一元化管理というのが良いのではなかろうか?

とにかく紙体で保存してある文献を電子化してしまおうと思っている。それもこの夏中くらいに。とりあえずエプソンのES-8000をオークション経由で入手した。ADFは付いていないがしばらくはこれでやってみよう。