HyperEstraierのインストールonさくらインターネット

http://apparelclip.com
apparelclip内に全文検索を入れたいので調査。


【1】まずmysql標準の機能で試すと・・。
参考)
http://www.tatamilab.jp/rnd/archives/000389.html#i

テーブル
blog_article

contentsというカラムに対して。

1.
alter table `blog_article` add fulltext( contents );
insert into blog_article(contents) values('ZOZO');
insert into blog_article(contents) values('森ガール');

とすることで、下記でselectが可能に。
2.
select * from blog_article where match( contents ) against('ZOZO');
select * from blog_article where match( contents ) against('zozo');
select * from blog_article where match( contents ) against('森ガール');

注意点
・全レコードの50%以上が該当する検索語は除外
・4文字未満の検索語は無視
・stop words リストにある検索語は無視
・' とか + とかは無視
・FULLTEXTインデックスがあると INSERT/UPDATE 処理が遅くなる
・UTF8ならば文字のゆらぎを吸収

【2】
次に、サーバーがさくらサーバーなので、
諸々検索エンジンがそれらに入るか調査。

Solr/
Tomcat上で動作。Jettyがバンドルされてるのでなしでもできる。

HyperEstraier/
http://www.potaway.net/tdiary/20080521.html#p01

Senna/
mysql自体を組み込みなおし・・むむむ。
http://blog.non-style.com/2006/08/senna.html
形態素解析エンジン「MecabEUCのみ

【3】結果HyperEstraierを採用。
参考
http://blog.masuidrive.jp/index.php/2007/12/04/asts_as_searchable/
疑似ノードマスタ>>大量のインデックスを保持などの機能があるとな。
Estraier では、分かち書きを実現するソフトウェアとして、 KAKASIChaSen が使用可能
mixiなどでも実績があるそうで、これで試してみることに。


■インストールについて
http://hiyuzawa.jpn.org/blog/2006/10/_hyper_estraier_on_sakura_inte.html ▲
http://mook.jpn.org/archives/2007/02/hyper_estraier_1.html 〇
http://www.machu.jp/diary/20040804.html#p01 〇〇

インストール方法は次回。