本文抽出のアルゴリズム(メモ)

http://d.hatena.ne.jp/tarao/20090322#1237750634
から重要部部を転載。
自分用のメモです。


本文抽出のアルゴリズム

1.明らかに要らないタグはそぎ落とす
2.HTMLを適当なブロック毎に分割
3.分割されたブロックにスコアをつける
4.つながっているブロックをまとめてクラスタにする
5.スコアの一番高いクラスタが本文

アルゴリズム

本文っぽさ

・句読点がいっぱいあると本文っぽい
・テキストノードの文字列が長いと本文っぽい

本文っぽくなさ

・リンクばっかり並んでいると本文っぽくない


本文が1ブロックとは限らないので、適度に繋げる

低A
高B
高C
低D
低E
高F
低G <−低いけれどFが高いので切れ目にしない
高I

クラスタは{B,C},{F,G,I}


上にあるほど本文っぽいということにして
結果{B,C}が採用。