代码之家 › 专栏 › 技术社区 › Jacob

基于熵的加权决策树

decision-tree entropy machine-learning

8

Jacob · 技术社区 · 16 年前

我正在使用 mutual information gain 作为分裂函数。但是,由于训练数据偏向于几个类,所以建议用逆向类频率对每个训练示例进行加权。

如何对培训数据进行加权?当计算概率来估计熵时,我要取加权平均数吗?

编辑:我想要一个有权重的熵表达式。

2 回复 | 直到 16 年前

1

2

Robert Harvey 16 年前

状态值加权熵作为投资风险的度量。
http://www56.homepage.villanova.edu/david.nawrocki/State%20Weighted%20Entropy%20Nawrocki%20Harding.pdf

2

4

Community Mohan Dere 9 年前

你引用的维基百科文章涉及权重。它说:

加权变量
在传统的互信息表述中,

$alt text$

(x,y)指定的每个事件或对象由相应的概率p(x,y)加权。这假设除了发生概率外,所有对象或事件都是等效的。但是,在某些应用程序中,某些对象或事件可能比其他对象或事件更重要,或者某些关联模式在语义上比其他模式更重要。

例如,确定性映射(1,1)、(2,2)、(3,3)可以被视为比确定性映射(1,3)、(2,1)、(3,2)更强(某些标准),尽管这些关系将产生相同的相互信息。这是因为相互信息对变量值中的任何固有顺序根本不敏感(Cronbach 1954,Coombs&Dawes 1970,Lockhead 1970),因此对相关变量之间的关系映射形式根本不敏感。如果希望前一关系“显示对所有变量值的一致性”比后一关系强,则可以使用以下加权相互信息(Guiasu 1977)

$alt text$

在每个变量值同时出现的概率上加上一个权重w(x,y),p(x,y)。这使得某些概率可能比其他概率具有更多或更少的重要性,从而允许对相关的整体因素或pr_gnaz因素进行量化。在上面的示例中,对w(1,1)、w(2,2)和w(3,3)使用较大的相对权重将具有评估关系(1,1)、(2,2)、(3,3)比关系(1,3)、(2,1)、(3,2)更大信息性的效果,这在某些模式识别情况下可能是可取的。

http://en.wikipedia.org/wiki/Mutual_information#Weighted_variants