ページへ戻る

− Links

 印刷 

tek1​/oldlog​/000 のソース :: OSASK計画

osaskwiki:tek1/oldlog編集/000のソース

« Prev[3]  
TITLE:x
* 旧 [[tek1/comp]]の内容 [#b55ba93d]

* [[tek1]]の続き [#f9635066]
-(by [[K]], 2004.06.15)
-tek1~tek3の圧縮展開比較表
--MLに書いたら読みにくくなってきたのでこっちにまとめ

*** 比較表 [#n9225079]
-サイズ
||無圧縮|tek0|tek1|tek2|tek3|stk1|stk2|stk3|lh7|gzip|bzip2|LZMA|LZO|rk|
|hellok1|RIGHT:272|RIGHT:128|RIGHT:125|RIGHT:124|RIGHT:145|RIGHT:125|RIGHT:124|RIGHT:145|RIGHT:205|RIGHT:143|RIGHT:166|RIGHT:121|RIGHT:193|RIGHT:208|
|zero4k|RIGHT:4096|RIGHT:27|RIGHT:26|RIGHT:25|RIGHT:26|RIGHT:26|RIGHT:25|RIGHT:26|RIGHT:86|RIGHT:49|RIGHT:43|RIGHT:39|RIGHT:91|RIGHT:100|
|zero64k|RIGHT:65536|RIGHT:28|RIGHT:28|RIGHT:27|RIGHT:28|RIGHT:28|RIGHT:27|RIGHT:28|RIGHT:117|RIGHT:108|RIGHT:43|RIGHT:90|RIGHT:422|RIGHT:108|
|bim2binc|RIGHT:53792|RIGHT:15019|RIGHT:14475|RIGHT:14067|RIGHT:17229|RIGHT:14475|RIGHT:14067|RIGHT:17229|RIGHT:14181|RIGHT:14029|RIGHT:12903|RIGHT:12787|RIGHT:16015|RIGHT:11608|
|kdun00b|RIGHT:655360|RIGHT:46246|RIGHT:42098|RIGHT:41412|RIGHT:49993|RIGHT:42098|RIGHT:41412|RIGHT:49993|RIGHT:45520|RIGHT:44589|RIGHT:47306|RIGHT:34517|RIGHT:52148|RIGHT:36736|
|osaskgo|RIGHT:1973741|RIGHT:1149662|RIGHT:1097405|RIGHT:1092517|RIGHT:1318722|RIGHT:1097405|RIGHT:1092517|RIGHT:1318722|RIGHT:1099064|RIGHT:1111648|RIGHT:1047411|RIGHT:953821|RIGHT:1177820|RIGHT:909824|
|osask.bmp|RIGHT:393334|RIGHT:6389|RIGHT:5934|RIGHT:5612|RIGHT:8190|RIGHT:5934|RIGHT:5612|RIGHT:8190|RIGHT:6467|RIGHT:6341|RIGHT:4906|RIGHT:4779|RIGHT:8618|RIGHT:4344|
|num128|RIGHT:131072|RIGHT:106953|(40前後)|(40前後)|RIGHT:40|RIGHT:94278|RIGHT:(94276)|RIGHT:131603|RIGHT:118548|RIGHT:124645|RIGHT:25542|RIGHT:84237|RIGHT:131136|RIGHT:1192|

-規格化指数
||無圧縮|tek0|tek1|tek2|tek3|stk1|stk2|stk3|lh7|gzip|bzip2|LZMA|LZO|rk|
|hellok1|RIGHT:224.8|RIGHT:105.8|RIGHT:103.3|RIGHT:102.5|RIGHT:119.8|RIGHT:103.3|RIGHT:102.5|RIGHT:119.8|RIGHT:169.4|RIGHT:118.2|RIGHT:137.2|RIGHT:100.0|RIGHT:159.5|RIGHT:171.9|
|zero4k|RIGHT:16384|RIGHT:108.0|RIGHT:104.0|RIGHT:100.0|RIGHT:104.0|RIGHT:104.0|RIGHT:100.0|RIGHT:104.0|RIGHT:344.0|RIGHT:196.0|RIGHT:172.0|RIGHT:156.0|RIGHT:364.0|RIGHT:400.0|
|zero64k|RIGHT:242726|RIGHT:103.7|RIGHT:103.7|RIGHT:100.0|RIGHT:103.7|RIGHT:103.7|RIGHT:100.0|RIGHT:103.7|RIGHT:433.3|RIGHT:400.0|RIGHT:159.3|RIGHT:333.3|RIGHT:1563|RIGHT:400.0|
|bim2binc|RIGHT:463.4|RIGHT:129.4|RIGHT:124.7|RIGHT:121.2|RIGHT:148.4|RIGHT:124.7|RIGHT:121.2|RIGHT:148.4|RIGHT:122.2|RIGHT:120.9|RIGHT:111.2|RIGHT:110.2|RIGHT:138.0|RIGHT:100.0|
|kdun00b|RIGHT:1899|RIGHT:134.0|RIGHT:122.0|RIGHT:120.0|RIGHT:144.8|RIGHT:122.0|RIGHT:120.0|RIGHT:144.8|RIGHT:131.9|RIGHT:129.2|RIGHT:137.1|RIGHT:100.0|RIGHT:151.1|RIGHT:106.4|
|osaskgo|RIGHT:216.9|RIGHT:126.4|RIGHT:120.6|RIGHT:120.1|RIGHT:144.9|RIGHT:120.6|RIGHT:120.1|RIGHT:144.9|RIGHT:120.8|RIGHT:122.2|RIGHT:115.1|RIGHT:104.8|RIGHT:129.5|RIGHT:100.0|
|osask.bmp|RIGHT:9055|RIGHT:147.0|RIGHT:136.6|RIGHT:129.2|RIGHT:188.5|RIGHT:136.6|RIGHT:129.2|RIGHT:188.5|RIGHT:148.9|RIGHT:146.0|RIGHT:112.9|RIGHT:110.0|RIGHT:198.4|RIGHT:100.0|
|num128|RIGHT:327680|RIGHT:267383|||RIGHT:100.0|235695|(235690)|RIGHT:329008|RIGHT:296370|RIGHT:311613|RIGHT:63855|RIGHT:210593|RIGHT:32840|RIGHT:2980|
|(max)||RIGHT:147.0|RIGHT:136.6|RIGHT:129.2|RIGHT:188.5|RIGHT:136.6|RIGHT:129.2|RIGHT:188.5|RIGHT:148.9|RIGHT:146.0|RIGHT:137.1|RIGHT:110.2|RIGHT:198.4|RIGHT:106.4|

--(max)は、bim2binc、kdun00b、osaskgo、osask.bmpのみ対象(他はあまりにtek系が得意なため除外)
--(max)で判断すると安定して圧縮率のよいものは以下の順になる。
|rk|LZMA|tek2|stk2|tek1|stk1|bzip2|gzip|tek0|lh7|tek3|stk3|LZO|
|106.4|110.2|129.2|129.2|136.6|136.6|137.1|146.0|147.0|148.9|188.5|188.5|198.4|
--↑これは主にosask.bmpの結果で決まっているともいえるので、参考までにosask.bmpを除いて集計すると以下のようになる。
---しかし、「汎用圧縮符号」としては弱点があるというのは好ましくない。そしてosask.bmpの内容は多くの符号の共通の弱点を突く内容なのだろう。
|rk|LZMA|tek2|stk2|tek1|stk1|gzip|lh7|tek0|bzip2|tek3|stk3|LZO|
|106.4|110.2|121.2|121.1|124.7|124.7|129.2|131.9|134.0|137.1|148.4|148.4|151.1|
---bzip2が落ちてlh7が少し回復する以外は、順位そのものの傾向は変わらない。

-tar+tek2(.tar.tk/.ttk)
||tar|ttk|lh7|tgz|tbz|tar.lzma|
|bim2bi4j|RIGHT:266725|RIGHT:70030|RIGHT:90266|RIGHT:84581|RIGHT:72747|RIGHT:65314|
|osat45i|RIGHT:759808|RIGHT:528582|RIGHT:532093|RIGHT:528923|RIGHT:547131|RIGHT:503545|
|[[cantrbry:http://corpus.canterbury.ac.nz/descriptions/]]|RIGHT:2821120|RIGHT:708236|RIGHT:714769|RIGHT:735997 |RIGHT:568667|RIGHT:483768|
--ディスクイメージへの強さが、tarへの強さにつながったのかも?
--ロングファイルネーム対応のSF16ができるまで.img.tk(.itk)は不便だろうから、とりあえず.tar.tk(.ttk)で。
--cantrbryはよく分からないけど有名な圧縮対象のようです。
---http://www.emit.jp/gca/cmptest.html
---http://compression.ca/act-canterbury.html

-展開速度
--参考:EPIA-VE5000でのosaskgoの展開速度
|meth.|deco.time|size|vs rk|score|score2|言語|備考|
|tek3|0.15[sec]|1315527|144.6|RIGHT:4.5|RIGHT:21.7|ASKA|Cでは0.22[sec]|
|LZO|0.18[sec]|1177820|129.5|RIGHT:3.8|RIGHT:23.3|?|←おそらくasm|
|tek1|0.58[sec]|1097475|120.6|RIGHT:10.9|RIGHT:69.9|C|ASKAは0.52[sec]以下|
|tek2|0.76[sec]|1092517|120.1|RIGHT:14.3|RIGHT:91.3|C|ASKAは0.69[sec]以下|
|lh7|1.04[sec]|1099064|120.8|RIGHT:20.6||?||
|gzip|1.24[sec]|1111684|122.2|RIGHT:26.4||?||
|tek0|1.39[sec]|1149662|126.4|RIGHT:35.4|RIGHT:175.7|C||
|LZMA|1.42[sec]|RIGHT:953821|104.8|RIGHT:6.6|RIGHT:148.8|C||
|bzip2|2.52[sec]|1047411|115.1|RIGHT:37.3|RIGHT:290.1|?||
|GCA|4.91[sec]|1002311|110.2|RIGHT:49.6||?||
--いずれも圧縮データを読み込む時間がデコードタイムに加算されてしまっています。
---したがって、tek3やLZOは小さくない誤差を含んでいる可能性が高い。
---試しに1315527バイトのファイルリードだけやらせてみたら0.05[sec]だった。
--「言語」はこの展開速度の測定につかったデコードルーチンの記述言語です。
---tek系についてはASKAで動かすのがメインなので、実用上はC版の1.5~2倍に上がります(アセンブラ版のライブラリパッケージも用意する予定)。
--たぶんLZOは既にアセンブラ化されていると思います(そうでないとこの圧縮率でこの速さは出ない)。bzip2はアセンブラ化されているかどうかは僕には想像がつきませんが、ブロックソート法では圧縮率の代償として展開速度低下があるという傾向はつかめると思います。
--GCA、gzip、lh7に関しては展開ルーチンの記述言語は不明です。
--score = (time - 0.05) x (vs_rk - 100)
---なんとなく計算してみたくなったので(笑)。小さければ小さいほど圧縮率と展開速度のバランスに優れていることを示していると思う。
//---LZOが僕の予想通りアセンブラ化されているとすれば、公平化のためには1.5倍くらいして8.9くらいのつもりで見るといいと思う。
--score2 = time x vs_rk
---scoreの指標がどれくらい実感に近いのかを確認するために計算した参考値。この指標で比較するとrkでの圧縮率に影響されないが、この指標ではあんなにがんばっているLZMAがtek2に劣ることになってしまう。これはいくらなんでも圧縮率の評価が弱すぎるわけだ。

--補足(履歴)
---2004.06.20  tek1のC言語版展開ルーチンを改良(0.75[sec]→0.58[sec])
---2004.06.20  tek2のC言語版展開ルーチンを改良(0.82[sec]→0.76[sec])

*** 圧縮形式の説明 [#f9a047ca]
-無圧縮
-tek0
-tek1
-tek2
-tek3
-stk1
--tek1でBS:0かつ補助バッファを使わないもの(subset-tek1)
-stk2
--tek2でBS:0かつ補助バッファを使わないもの(subset-tek2)
-stk3
--tek3でBS:0かつ補助バッファを使わないもの(subset-tek3)
-lh7
-gzip
-bzip2
-LZMA
-LZO
-rk

-展開ルーチンのコンパクトさにこだわる人向けの情報
--stk3の展開ルーチンは135行(dtk3s.c)
--stk1/stk2の展開ルーチンセットは582行(dtk2s.c)
--tek1/tek2/tek3のフルセット展開ルーチンセットは1009行(dtkf.c)
--展開速度はフルセット版もサブセット版もほぼ同じ

* こめんと欄 [#vaf3e673]

#comment

« Prev[3]