ページへ戻る
印刷
かんなの辞書をOSASKで使うためのメモ
をテンプレートにして作成 ::
OSASK計画
osaskwiki
:かんなの辞書をOSASKで使うためのメモ をテンプレートにして作成
開始行:
*かんなの辞書をOSASKで使うためのメモ
***注意:(´_ゝ`)が勝手に調子にのってやってるだけですの...
テキスト形式のかんな辞書ではできましたが、他の辞書ではど...
----
例として、とりあえずhttp://omaemona.sourceforge.net/packa...
----
$ vi 2ch.t~
ddコマンドでコメント行を削除し、~
:%s/#[^ ]*/\t/g
で整形する。viじゃなくてもいいと思う。~
$ qkc -sm 2ch.t~
で文字コードを合わせる。~
OSASKのFDを挿入。~
$ mount /mnt/floppy~
$ cp /mnt/floppy/te_dict0.txt ./~
$ cat te_dict0.txt 2ch.t > /mnt/floppy/te_dict0.txt~
$ umount /mnt/floppy~
再起動して、あとは!guide!.txtでも読んでください。~
**お叱り
-そういえばte_dicv0.binしたときに、error:insertとかたくさ...
-うーん!。これはなかなか面白い試みですねぇ。私も早速試し...
-そのエラーは同じ読みを検出したというエラーだと思います。...
-すみません。よく意味が分かりませんでした。できた辞書は使...
-すみません、おっしゃるとおりでした。重複はまずいのですが...
-1.辞書サイズが僕の想定限界に近くなりすぎた(256KB)。2...
-重複についてですが、例えば「あらし」が2ch.tでは次のよう...
あらし 荒らし
あらし 荒ら氏
あらし 荒氏
あらし 新氏
あらし 嵐
-さらに読み「あらし」については、te_dicv0.txtにもあります。
あらし 嵐
-この結果、おそらく「あらし」を変換しても、この中のどれか...
あらし 嵐 荒らし 荒ら氏 荒氏 新氏
-こうすればちゃんとこの順序で候補が出てきます。この辺の処...
-将来的には読みの重複もエラーにする予定です。もっとも、そ...
-同じテキストファイル中で、同じ候補が縦にならんでいるのな...
in_ar = []
while instr = gets
in_ar << instr.chomp
end
in_ar.sort!
hl = ""
pt = ""
in_ar.each {|s|
if s != "" then
if /^([^\/\s]+)(\s+)(.+)/ =~ s then
key = $1
sth = $3
hl = key if hl == ""
if hl == key then
if pt == "" then
pt = sth
else
pt = pt + " " + sth
end
else
print hl + "\t" + pt + "\n"
pt = sth
hl = key
end
end
end
}
print hl + "\t" + pt + "\n" if hl != ""
適当に名前を付けて(とりあえず tdicm.rb )保存、コマンドラ...
ruby tdicm.rb old.txt
-↑Rubyでよければどうぞ 笑・・・だけどあまりテストしっか...
-早速へんなとこがあったので修正しました 汗 -- [[nisi]] S...
-神!感謝感謝。 -- [[(´_ゝ`)]] SIZE(10){2003-09-02 (火)...
-ちなみに複数の辞書を結合したい場合は結合したいファイル名...
#comment
終了行:
*かんなの辞書をOSASKで使うためのメモ
***注意:(´_ゝ`)が勝手に調子にのってやってるだけですの...
テキスト形式のかんな辞書ではできましたが、他の辞書ではど...
----
例として、とりあえずhttp://omaemona.sourceforge.net/packa...
----
$ vi 2ch.t~
ddコマンドでコメント行を削除し、~
:%s/#[^ ]*/\t/g
で整形する。viじゃなくてもいいと思う。~
$ qkc -sm 2ch.t~
で文字コードを合わせる。~
OSASKのFDを挿入。~
$ mount /mnt/floppy~
$ cp /mnt/floppy/te_dict0.txt ./~
$ cat te_dict0.txt 2ch.t > /mnt/floppy/te_dict0.txt~
$ umount /mnt/floppy~
再起動して、あとは!guide!.txtでも読んでください。~
**お叱り
-そういえばte_dicv0.binしたときに、error:insertとかたくさ...
-うーん!。これはなかなか面白い試みですねぇ。私も早速試し...
-そのエラーは同じ読みを検出したというエラーだと思います。...
-すみません。よく意味が分かりませんでした。できた辞書は使...
-すみません、おっしゃるとおりでした。重複はまずいのですが...
-1.辞書サイズが僕の想定限界に近くなりすぎた(256KB)。2...
-重複についてですが、例えば「あらし」が2ch.tでは次のよう...
あらし 荒らし
あらし 荒ら氏
あらし 荒氏
あらし 新氏
あらし 嵐
-さらに読み「あらし」については、te_dicv0.txtにもあります。
あらし 嵐
-この結果、おそらく「あらし」を変換しても、この中のどれか...
あらし 嵐 荒らし 荒ら氏 荒氏 新氏
-こうすればちゃんとこの順序で候補が出てきます。この辺の処...
-将来的には読みの重複もエラーにする予定です。もっとも、そ...
-同じテキストファイル中で、同じ候補が縦にならんでいるのな...
in_ar = []
while instr = gets
in_ar << instr.chomp
end
in_ar.sort!
hl = ""
pt = ""
in_ar.each {|s|
if s != "" then
if /^([^\/\s]+)(\s+)(.+)/ =~ s then
key = $1
sth = $3
hl = key if hl == ""
if hl == key then
if pt == "" then
pt = sth
else
pt = pt + " " + sth
end
else
print hl + "\t" + pt + "\n"
pt = sth
hl = key
end
end
end
}
print hl + "\t" + pt + "\n" if hl != ""
適当に名前を付けて(とりあえず tdicm.rb )保存、コマンドラ...
ruby tdicm.rb old.txt
-↑Rubyでよければどうぞ 笑・・・だけどあまりテストしっか...
-早速へんなとこがあったので修正しました 汗 -- [[nisi]] S...
-神!感謝感謝。 -- [[(´_ゝ`)]] SIZE(10){2003-09-02 (火)...
-ちなみに複数の辞書を結合したい場合は結合したいファイル名...
#comment
ページ名: