本文抽出のアルゴリズム（メモ）

http://d.hatena.ne.jp/tarao/20090322#1237750634
から重要部部を転載。
自分用のメモです。

１．明らかに要らないタグはそぎ落とす
２．ＨＴＭＬを適当なブロック毎に分割
３．分割されたブロックにスコアをつける
４．つながっているブロックをまとめてクラスタにする
５．スコアの一番高いクラスタが本文

本文っぽさ

・句読点がいっぱいあると本文っぽい
・テキストノードの文字列が長いと本文っぽい

本文っぽくなさ

・リンクばっかり並んでいると本文っぽくない

本文が１ブロックとは限らないので、適度に繋げる

低Ａ
高Ｂ
高Ｃ
低Ｄ
低Ｅ
高Ｆ
低Ｇ　＜−低いけれどＦが高いので切れ目にしない
高Ｉ

クラスタは{B,C},{F,G,I}

上にあるほど本文っぽいということにして
結果{B,C}が採用。