May 26, 2005   [去年の今ごろ]

google_highlight プラグインの導入

google_highlight

google_highlight プラグイン

 google_highlight プラグインは、google などのサーチエンジンで入力された検索語がリファラに存在したらその単語をハイライト表示する機能を提供する(右図)。二つの変更(下リスト)を加えて導入した。

  1. 各サーチエンジンの検索語に対応
  2. Jcode モジュールではなく Encode を使う

 1. は Jpan Tools -TOOL:検索ワード抽出ルーチン- を参考にして実現。

 2. について。入力された単語の文字コードを guess して euc-jp に encode するという処理をプラグインに加える。guess の対象となる文字コードを

use Encode::Guess qw(euc-jp shiftjis 7bit-jis);

としてしばらく運用してみると、どうやら単語がうまい具合に guess されていない問題に気付く。guess 結果にて shift-jis or euc-jp とか shift-jis or UTF8 となる場合が見られた。試行錯誤するうちに、guess に失敗するのは shift-jis とその他の文字コードの判別ができない場合に多いことがわかった。検索語の文字コードの分布の話 によると大手サーチエンジン (google, Yahoo, msn) の検索語は shift-jis であるよりも euc-jp か utf8 であることが多いので

use Encode::Guess qw(euc-jp utf8);

と、shift-jis を考慮せずに guess するように変更した。対症療法であるが今のところ Yahoo, msn の検索語についてはうまく guess / encode されている様子。

この記事へのコメント

 

コメントを書く

お名前:
コメント:

トラックバックURL: http://park18.wakwak.com/~ogane/cgi-bin/blosxom.cgi/computer/blosxom/200505261123.trackback

Posted at 11:23 -  permalink -  category: Blosxom -  tags: blosxom

これまでの記事。

2008 | 5 | 4 | 3 | 2 | 1 |
2007 | 12 | 11 | 10 | 9 | 7 | 6 | 5 | 4 | 3 | 2 | 1 |
2006 | 12 | 11 | 10 | 9 | 8 | 7 | 6 | 5 | 4 | 3 | 2 | 1 |
2005 | 12 | 11 | 10 | 9 | 8 | 7 | 6 | 5 | 4 | 3 | 2 | 1 |
2004 | 12 | 11 | 10 | 9 | 8 | 7 | 6 | 5 | 4 | 3 | 2 | 1 |
2003 | 12 | 11 | 10 | 9 | 8 | 7 | 6 | 5 | 4 | 3 | 2 | 1 |
2002 | 12 |