幾霜::残日録::2008/11/12 (水)

2008/11/12 (水)

◆ [Life] 虫狩り - 21:57:17

　Windows上で虫が残っていたため何でだろうと思ったら、虫潰しする前のバージョンを使っていたためでした。そらあかんわ。

　というわけで、Separate Model適用時にギアス添付のファイルを使ってLikelihood RatchetやBootstrap解析を行う際にちゃんとSeparate Modelが適用されない不具合を修正しました。これは、角さんと蓑さんの側でも対処が必要だったため、これらも更新しています。

◆ [Life] エコフォトアワード2009 - 15:51:08

　応募するつもりだったのにろくな写真が撮れないままに締め切りが近付いてきてしまいました。ちょうどいい写真をお持ちの皆さまは、応募されてみてはいかがでしょうか。

　この辺とかこの辺とかこの辺とかこの辺とかこの辺のみなさんの写真にはとても期待しています。

◆ [Software] 英辞郎第四版の英辞郎をEPWING化する - 15:26:14

　まず、必要なものを以下に挙げます。WindowsではCygwin環境とActivePerlも必要。インストールが必要なものはインストール済みとして話を進める。

英辞郎第四版
Perl
FreePWING
PDIC for Win32
PDIC-Toolkit
Jcode
pdic-fpw

　pdic-fpwはUnicode対応前の旧PDIC形式にしか対応していないため、PDIC UnicodeでPDICテキストに出力し、PDIC for Win32で旧PDIC形式へ変換する。

　必要なものの用意ができたら、まず英辞郎第四版に付属のCD-ROMから辞書とPDIC Unicodeをインストールします。インストール後、CD-ROMを抜かずにPDIC Unicodeを起動。「File」メニューの「辞書設定<詳細>」を選択。辞書ファイル名を右クリックして「辞書の変換」を選択。変換先ファイル形式に「PDICテキスト形式」を指定し、ファイル名を適当に設定して「OK」。これで辞書の内容が出力されたUTF-16のテキストファイルが生成される。

　出力されたテキストファイルを適当なテキストエディタで開き、文字コードをShift-JISに設定して上書き保存。しかし、実はこのテキストは旧PDICで読み込めるPDICテキスト形式になっていない。そこで、Perlスクリプトを用意して変換する。が、その前にデータ化けに対処する(これは元データファイルの問題です)ため、テキストエディタで開いて「 / 」で検索しておかしなところを手作業で修正する。おかしくないところもあるのでよく見て考えること。おかしいのは「cup」「farad」「hertz」「may」などです。これは、元データ作成の際に「 / 」が訳語と用例の区切りとして誤認識されたものと思われます。売り物なんですからもうちょっときちんと確認しておいていただきたいですね。また、見出し語に「'」だけが登録されていると、エラーになるので、「' (single quote)」とでもしておく。

　修正が終わったら、以下のスクリプトを用意します。

・conv2pdic1.pl
while (<>) {
s/^.+(\t.+)\r?\n?$/$1 \/\/\/ /;
print;
}

・conv2pdic2.pl
while (<>) {
s/^[^\t]+$/ \\ $&/;
print;
}

・conv2pdic3.pl
while (<>) {
s/\r?\n?//g;
print;
}

・conv2pdic4.pl
$/ = "\t";
while (<>) {
s/\t/\n/;
print;
}

　そして、出力したテキストファイルがEiji112.txtとすると、以下のように実行する(WindowsではコマンドプロンプトからActivePerlを使うこと)。

perl conv2pdic1.pl < Eijiro112.txt > temp1.txt
perl conv2pdic2.pl < temp1.txt > temp2.txt
perl conv2pdic3.pl < temp2.txt > temp3.txt
perl conv2pdic4.pl < temp3.txt > temp4.txt

　以上の処理でtemp4.txtは旧PDICで読み込めるPDIC一行テキスト形式になっています。これを旧PDICでPDIC形式に変換しますが、「like」だけ「訳語」がPDIC形式の制限を越えており登録できないため、テキストエディタで開いて「like 1」と「like ２」の二つに分けて保存します。

　PDIC for Win32を起動して「Tools」メニューの「辞書の変換」を選択。「転送元辞書」を「1行テキスト形式」とし、ファイル名を適当に指定します。「転送先辞書」は「PDIC形式」とし、ファイル名は「Eijiro112.dic」としておきます。「詳細」ボタンを押して、「訳語 / 用例を区別して取り込む」以外のチェックボックスにチェックを入れて「OK」「OK」で変換を実行します。

　CygwinのBash Shellを起動(UNIX環境にファイルコピーでもOK)。プロンプトで以下のように実行。

tar xzf pdic-fpw-20070612.ta.gz
cd pdic-fpw-20070612

　ここで、「pdic-fpw-20070612」にEijiro112.dicを移動orコピーしておく。また、Makefileをテキストエディタで開き、該当行を以下のように設定する。

PACKAGE = Eijiro112
DIR = EIJIRO
SRCDIR = .
SOURCES = ${SRCDIR}/Eijiro112.dic

　pdic-fpw.confも同様に以下のようにする。

'directory' => 'EIJIRO',
'title' => '英辞郎',
'type' => '20',
'use_copyright' => 0,
'use_pronunciation' => 1,
'use_example' => 1,
'use_level' => 0,
'use_level_in_header' => 0,
'trim_long_index' => 0,
'debug' => 0,

　以上の編集後、Cygwin Bash Shellに戻って

fpwmake
fpwmake catalogs
fpwmake install INSTALLDIR=.
fpwmake clean

　これでEPWING形式に変換された英辞郎がEIJIROフォルダに出力される。

追記 - 16:02:37
　これで一応は辞書ができるのですが、リンクは動作しないしなんか色々とバケバケな気が・・・。PDICデータの方では問題無いので、PDIC形式からFreePWINGで変換する際に問題が起こっているようです。膨大な労力を払って得られた結果がこれかorz。eijiro-fpwが使えればもう少しましなんでしょうけど、今回の英辞郎第四版では辞郎形式の生テキストデータが添付されていないみたいなんですよね。当然あると思って買ったら付いてなくて愕然ですよ。

追記 - 16:23:30
　普通の人はEB Studio使えばいいと思います。ここでFreePWINGを使っているのは、単にEB Studioを使いたくないためです。

追記 - 17:53:48
　確認のためEB Studioでもやってみましたが、やっぱりリンクが働かないのは同じ。ダメダメ。データ化けっぽい現象は発生しないので使えないことはないのですが。うーーん、相互参照はどうしようもないんでしょうか。っつーか英辞郎第四版が生データ添付していないのが全ての元凶なワケで、何とかして欲しいものです。とりあえず、これまではまず英辞郎の書籍版を薦めるようにしていましたが、考えを改めないといけなさそうです。これじゃぁ使い物になりません。

Comments&TrackBacks

TrackBack Ping URL : http://www.ikushimo.com/receivetb.cgi/2008-11-12

幾霜::残日録::2008/11/12 (水)

2008/11/12 (水)

◆ [Life] 虫狩り - 21:57:17

◆ [Life] エコフォトアワード2009 - 15:51:08

◆ [Software] 英辞郎 第四版の英辞郎をEPWING化する - 15:26:14

◆ [Software] 英辞郎第四版の英辞郎をEPWING化する - 15:26:14