2010年9月16日木曜日

epubをPDFに変換して正規表現の予習

電子書籍のお勉強にとepubをPCで読んだりしてましたが、やっぱ読み辛いのでPDFに変換して読んでます。

ブログ出版局の電子書籍サービス

を利用させていただいております。
文字組みもかな~りマシな状態になり、イラッとすることがなく読めます^^
メモリの少ないアチキのPCですとepubからテキストをコピペしようとしても出来ないことがままあるのですが、PDFだと楽にできます。

電子書籍、電子書籍と騒ぐ前にまずは文章の構造化から始めなくてはと思ふ今日この頃。

DTPの勉強会 特別編・第1回
せうぞーさんがスピーカーをやられます。

多分、EPUB版『InDesign者のための正規表現入門』をベースにされると思います。(これっ、300円なら安いです!)

で、読んでいて(難しいなぁ~)と感じたのが、「先読み」と「戻り読み」。そんなわけで
kanemuさんの正規表現、先読みと後読み
 と
オジさんゴコロをくすぐるchalcedonyさんの
正規表現の先読みと後読みはどっちがどっちだかわかりにくいんだよ!(追記あり)
を読ませていただいております。

で、寺に索引に正規表現でスタイルをかけるなんてエントリーがあがってまして
お望みのことはInDesign CS4の正規表現スタイルを使わないといけません。
InDesign CS3の検索置換でもできますが、修正時に再度置換する必要があります。

> \d{1,3} もしくは [0-9]{1,3}

この書き方はどんなアプリケーションでも意味をなしません。
なぜなら数字が4桁以上あっても最初の3桁までにマッチしてしまいます。

なんてレスがついたのですが、無償のスクリプトの正規表現[0-9]{1,3}$で解決したようです。よく分かりません。。。

(?<=[^\d])(\d{1,3})(?=[^\d])でOKのような気もしますが、ノンブルのように前後に何もないものにマッチするのか?という疑問が湧いてきました。

そんなんで秀丸とサクラエディタで確認

やはり数字だけではマッチしません。というより数字始まりにマッチしないといった感じです。

で、カネムーさんの
この文章にはないけれど、行頭もしくは行末に数字が来るかもしれない。
(?<=^|[^\d\.,:])(\d{1,2})(?=[^\d\.,:]|$)

で(?<=^|[^\d\.,:])(\d{1,3})(?=[^\d\.,:]|$)でやってみました。

多分これが正解なんだろうな。

0 件のコメント: