在线观看不卡亚洲电影_亚洲妓女99综合网_91青青青亚洲娱乐在线观看_日韩无码高清综合久久

鍍金池/ 問答/人工智能  HTML5/ 使用特征叉乘(feature crosses)進(jìn)行數(shù)據(jù)清洗

使用特征叉乘(feature crosses)進(jìn)行數(shù)據(jù)清洗

請(qǐng)問,用feature crosses進(jìn)行數(shù)據(jù)清洗的時(shí)候,為什么要把叉乘結(jié)果補(bǔ)到預(yù)測(cè)模型的后面,而不是直接代替叉乘中的參數(shù)?

比如,有如圖數(shù)據(jù)集。橫坐標(biāo) x1 表示 特征1 ,縱坐標(biāo)x2 表示 特征2。橘色點(diǎn)代表垃圾郵件,藍(lán)色點(diǎn)代表正常郵件

顯然我們無法構(gòu)建一個(gè)垃圾郵件預(yù)測(cè)模型形如:$$ y=b+w_1·x_1+w_2·x_2 $$

解決辦法是使用特征叉乘,即x3 = x1 * x2。從而構(gòu)建新的預(yù)測(cè)模型:
$$ y=b+w_1·x_1+w_2·x_2+w_3·x_3 $$

我的問題是,為什么x3是補(bǔ)加到公式后面,而不是直接代替x1和x2,即為什么新模型不是如下形式???
$$ y=b+w_3·x_3 $$

問題來源于我看google的ML課程視頻:Google Machine Learning Course

我數(shù)學(xué)不好,有木有大神解釋一下。謝了

回答
編輯回答
空痕

想明白了,我們?cè)诮A(yù)測(cè)模型的時(shí)候,其實(shí)應(yīng)該全盤考慮各種feature(特征)以及feature crosses(特征組合/特征叉積),并給予系數(shù)wi。至于wi是否會(huì)被學(xué)習(xí)為0,要看后面的數(shù)據(jù)處理,不應(yīng)當(dāng)再建模的時(shí)候想當(dāng)然的就不考慮進(jìn)來(即想當(dāng)然wi=0)。這也是為什么,機(jī)器學(xué)習(xí)引入L1正則、L2正則來使一些系數(shù)降為0,來消除模型的復(fù)雜度,以避免overfitting。

2018年5月11日 08:14