本文抽出のアルゴリズム(メモ)
http://d.hatena.ne.jp/tarao/20090322#1237750634
から重要部部を転載。
自分用のメモです。
本文抽出のアルゴリズム
1.明らかに要らないタグはそぎ落とす
2.HTMLを適当なブロック毎に分割
3.分割されたブロックにスコアをつける
4.つながっているブロックをまとめてクラスタにする
5.スコアの一番高いクラスタが本文
本文っぽさ
・句読点がいっぱいあると本文っぽい
・テキストノードの文字列が長いと本文っぽい
本文っぽくなさ
・リンクばっかり並んでいると本文っぽくない
本文が1ブロックとは限らないので、適度に繋げる
低A
高B
高C
低D
低E
高F
低G <−低いけれどFが高いので切れ目にしない
高I
クラスタは{B,C},{F,G,I}
上にあるほど本文っぽいということにして
結果{B,C}が採用。