「集合知プログラミング」第20回(12月20日)

参加者 今井(読み手)、青木、沼田(記)
範囲 pp. 127 – 135

6章 ドキュメントフィルタリング

  • 6.1 スパムフィルタリング
  • 6.2 ドキュメントと単語
  • 6.3 分類器のトレーニング
  • 6.4 確率を計算する
    • 6.4.1 推測を始める
  • 6.5 単純ベイズ分類器
    • 第2パラグラフ末尾
      …前者の方に”money”という単語より出現しやすい。、では?
    • 6.5.1 ドキュメント全体の確率

One comment on “「集合知プログラミング」第20回(12月20日)

  1. 他にこんな話題がありました。

    6.2
    p.128 コード中ほど
    正規表現の’\\W*’はどういうパターン?
    → 調べました。\Wは任意の非英数文字。[^a-zA-Z0-9]と同じ。
    *は+の方が良いと思う。

    6.3
    p.131 下の実行例中
    ‘the quick brown fox jumps over the lazy dog’は、このなかにa~zの全ての文字が入っている文字列で、プリンタの印字テストなどによく使われた文字列。

    6.4
    p.133 中ほどの計算式
    (重み*仮確率 + count*fprob)/(count+重み)
    とあり、分母でカウントと重みを同様のものとして使っているが違和感がある。
    → 重みというより、既にn個の平均mのトレーニングがされた状態を作っているという意味でn個を重み、平均mを仮確率といっているのだと思う。
    平均mのデータn個に、平均fprobのデータcount個を足した場合の平均の再計算をしているのと同じ。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

CAPTCHA