周志华《机器学习》部分习题

第2章

习题\(2.5\),证明 \[{\rm AUC} = 1-\ell_{rank}\] 其中, \[{\rm AUC} = \frac{1}{2}\sum_{i=1}^{m-1} (x_{i+1}-x_i)\cdot({y_i+y_{i+1}})\] \[\ell_{rank}=\frac{1}{m^+ m^-}\sum_{ {\boldsymbol x}^+\in D^+}\sum_{ {\boldsymbol x}^-\in D^-}\left( {\mathbb I}(f({\boldsymbol x}^+) < f({\boldsymbol x}^-)) + \frac{1}{2}{\mathbb I}(f({\boldsymbol x}^+) = f({\boldsymbol x}^-))\right)\] \(m^+,m^-\)分别为正例与反例个数,\(D^+,D^-\)为正、反例集合。 根据上文,设排序后,将样例\({\boldsymbol x}_i\)作为正例(即预测值\(f({\boldsymbol x}_i)\)作为分类阈值)时对应点 \((x_i,y_i)\) \[(x_{i+1}-x_i)\cdot({y_i+y_{i+1}})= \begin{cases} 0, & {\boldsymbol x}_{i+1}\in D^+ \\ \frac{2y_{i+1}}{m^-},& {\boldsymbol x}_{i+1}\in D^- \end{cases}\]

\[y_{i+1}={\rm TPR}_{i+1}=\frac{TP_{i+1}}{TP+FN}=\frac{TP_{i+1}}{m^+}\]

根据相关定义,

\[TP_{i+1}=\sum_{ {\boldsymbol x}\in D^+} {\mathbb I}(f({\boldsymbol x})> f({\boldsymbol x}_{i+1}))\]

于是 \[\begin{split} {\rm AUC} &= \frac{1}{m^+m^-}\sum_{ {\boldsymbol x}_{i+1} \in D^-}\sum_{ {\boldsymbol x}\in D^+} {\mathbb I}(f({\boldsymbol x})> f({\boldsymbol x}_{i+1})) \\ &= \frac{1}{m^+m^-}\sum_{ {\boldsymbol x}^- \in D^- \setminus \{ {\boldsymbol x}_1\} }\sum_{ {\boldsymbol x}^+\in D^+} {\mathbb I}(f({\boldsymbol x}^+)> f({\boldsymbol x}^-)) \end{split} \]

由于排序后\(f({\boldsymbol x}_1)\)为最大,因此\(\forall {\boldsymbol x}\in D^+\cup D^-, {\mathbb I}(f({\boldsymbol x})> f({\boldsymbol x}_1)) = 0\),且这里\(\sum\)与次序无关,所以 \[{\rm AUC} = \frac{1}{m^+m^-} \sum_{ {\boldsymbol x}^+\in D^+} \sum_{ {\boldsymbol x}^- \in D^-} {\mathbb I}(f({\boldsymbol x}^+)> f({\boldsymbol x}^-))\]

------ 本文结束 ------

版权声明

Memory is licensed under a Creative Commons BY-NC-SA 4.0 International License.
博客采用知识共享署署名(BY)-非商业性(NC)-相同方式共享(SA)
本文首发于Memory,转载请保留出处。