五月综合激情婷婷六月,日韩欧美国产一区不卡,他扒开我内裤强吻我下面视频 ,无套内射无矿码免费看黄,天天躁,日日躁,狠狠躁

新聞動(dòng)態(tài)

python機(jī)器學(xué)習(xí)算法與數(shù)據(jù)降維分析詳解

發(fā)布日期:2021-12-11 13:23 | 文章來源:站長(zhǎng)之家

一、數(shù)據(jù)降維

機(jī)器學(xué)習(xí)中的維度就是特征的數(shù)量,降維即減少特征數(shù)量。降維方式有:特征選擇、主成分分析。

1.特征選擇

當(dāng)出現(xiàn)以下情況時(shí),可選擇該方式降維:

①冗余:部分特征的相關(guān)度高,容易消耗計(jì)算性能

②噪聲:部分特征對(duì)預(yù)測(cè)結(jié)果有影響

特征選擇主要方法:過濾式(VarianceThreshold)、嵌入式(正則化、決策樹)

過濾式:

sklearn特征選擇API

sklearn.feature_selection.VarianceThreshold

注意:沒有最好的方差選擇,需要根據(jù)實(shí)際效果選擇方差。

2.主成分分析(PCA)

API:sklearn.decomposition

主成分分析會(huì)盡可能降低原數(shù)據(jù)的維數(shù),損失少量信息。當(dāng)特征數(shù)量達(dá)到上百的時(shí)候,就需要考慮主成分分析。可以削減回歸分析或者聚類分析中特征的數(shù)量。

PCA語法:

里面的n_components通常填0-1的小數(shù),代表保留百分之多少的數(shù)據(jù),比如0.95意思是保留95%的數(shù)據(jù)。通常在0.9-0.95之間

3.降維方法使用流程

例如:研究用戶和購買物品類別的關(guān)系,數(shù)據(jù)有不同的表格存儲(chǔ),均為csv文件,但所需的兩者“用戶”和“購買物品類別”,存在于不同的表中。則可以按照以下流程進(jìn)行:

1.觀察各個(gè)表格的鍵,通過相同的鍵對(duì)表格進(jìn)行合并,使用pandas.merge(表1,表2,鍵1,鍵2)方法,其中鍵1和鍵2相同。經(jīng)過多次合并,最終將兩個(gè)目標(biāo)合并到一張表中。

2.通過交叉表pd.crosstab(合并后的表['用戶'], 合并后的表['物品類別']),建立一個(gè)以用戶為行,以物品類別為列的數(shù)據(jù)表。

3.對(duì)表格進(jìn)行數(shù)據(jù)的降維,可以使用PCA(n_components=0.9),保留90%的有效信息,輸出降維后的數(shù)據(jù)。即可有效減少維度,并確保留存90%的有效信息。

二、機(jī)器學(xué)習(xí)開發(fā)流程

1.機(jī)器學(xué)習(xí)算法分類

數(shù)據(jù)類型:

離散型:區(qū)間內(nèi)不可分,通常是在分類型問題中。

連續(xù)型:區(qū)間內(nèi)可分,通常是在預(yù)測(cè)型問題中。

算法分類:

算法總體分為兩類,監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。

①監(jiān)督學(xué)習(xí)包含特征值+目標(biāo)值,算法又分為兩小類,分類算法和回歸算法。

分類算法:k-近鄰算法、貝葉斯分類、決策樹與隨機(jī)森林、邏輯回歸、神經(jīng)網(wǎng)絡(luò)

回歸算法:線性回歸、嶺回歸

②無監(jiān)督學(xué)習(xí)只有特征值,通常是聚類算法:k-means

2.機(jī)器學(xué)習(xí)開發(fā)流程

機(jī)器學(xué)習(xí)開發(fā)首先需要有數(shù)據(jù),數(shù)據(jù)來源可能有以下幾種:公司本身有數(shù)據(jù)、合作過來的數(shù)據(jù)、購買的數(shù)據(jù)。

具體開發(fā)流程如下:

①明確實(shí)際問題做什么:根據(jù)目標(biāo)值數(shù)據(jù)類型,建立模型,劃分應(yīng)用種類。看看是分類問題還是預(yù)測(cè)問題。

②數(shù)據(jù)的基本處理:使用pandas處理數(shù)據(jù),缺失值,合并表等等。

③特征工程:對(duì)數(shù)據(jù)特征進(jìn)行處理(重要)。

④找到合適的算法去進(jìn)行預(yù)測(cè)。

⑤模型的評(píng)估,判定效果→上線使用,以API形式提供;若模型評(píng)估沒有合格:換算法、參數(shù),特征工程

sklearn數(shù)據(jù)集的使用:

通常在使用前會(huì)對(duì)數(shù)據(jù)集進(jìn)行劃分,從數(shù)據(jù)中拿出約75%作為訓(xùn)練集、25%作為測(cè)試集。也可以0.8/0.2等。通常0.75/0.25是使用最多的。

sklearn數(shù)據(jù)集劃分API:sklearn.model_selection.train_set_split

sklearn數(shù)據(jù)集API:

獲取數(shù)據(jù)集返回的類型:

數(shù)據(jù)集進(jìn)行分割:

用于分類的大數(shù)據(jù)集:

sklearn回歸數(shù)據(jù)集:

三、轉(zhuǎn)換器與估計(jì)器

1.轉(zhuǎn)換器

在數(shù)據(jù)處理中用到的fit_tansform方法中,其實(shí)可以拆分為fit方法和transform方法。

fit_transform() = fit() + transform()

若直接使用fit_transform(),則是對(duì)輸入的數(shù)據(jù)進(jìn)行求平均值、標(biāo)準(zhǔn)差,并使用它們進(jìn)行數(shù)據(jù)處理最終輸出結(jié)果。

如果拆開的話:

fit():輸入數(shù)據(jù),計(jì)算平均值,標(biāo)準(zhǔn)差等,不進(jìn)行后續(xù)工作。

transform():使用fit計(jì)算好的內(nèi)容進(jìn)行轉(zhuǎn)換。

也就是說可以通過fit()方法,生成1個(gè)數(shù)據(jù)對(duì)應(yīng)的標(biāo)準(zhǔn),使用這個(gè)標(biāo)準(zhǔn),對(duì)其他數(shù)據(jù),通過transform方法進(jìn)行轉(zhuǎn)換。

2.估計(jì)器

估計(jì)器就是已經(jīng)實(shí)現(xiàn)了的算法的API,可以直接調(diào)用,輸入相關(guān)數(shù)據(jù),對(duì)結(jié)果進(jìn)行預(yù)測(cè)等。

估計(jì)器工作流程:

1.調(diào)用fit(x_train, y_train),輸入訓(xùn)練集

2.輸入測(cè)試集的數(shù)據(jù)(x_test, y_test),調(diào)用不同接口可得不同結(jié)果

API①:y_predict = predict(x_test),該接口可獲得算法對(duì)y的預(yù)測(cè)值。

API②:score(x_test, y_test) ,該接口可獲得預(yù)測(cè)的準(zhǔn)確率。

以上就是python機(jī)器學(xué)習(xí)算法與數(shù)據(jù)降維分析詳解的詳細(xì)內(nèi)容,更多關(guān)于python機(jī)器學(xué)習(xí)算法與數(shù)據(jù)降維的資料請(qǐng)關(guān)注本站其它相關(guān)文章!

版權(quán)聲明:本站文章來源標(biāo)注為YINGSOO的內(nèi)容版權(quán)均為本站所有,歡迎引用、轉(zhuǎn)載,請(qǐng)保持原文完整并注明來源及原文鏈接。禁止復(fù)制或仿造本網(wǎng)站,禁止在非maisonbaluchon.cn所屬的服務(wù)器上建立鏡像,否則將依法追究法律責(zé)任。本站部分內(nèi)容來源于網(wǎng)友推薦、互聯(lián)網(wǎng)收集整理而來,僅供學(xué)習(xí)參考,不代表本站立場(chǎng),如有內(nèi)容涉嫌侵權(quán),請(qǐng)聯(lián)系alex-e#qq.com處理。

相關(guān)文章

實(shí)時(shí)開通

自選配置、實(shí)時(shí)開通

免備案

全球線路精選!

全天候客戶服務(wù)

7x24全年不間斷在線

專屬顧問服務(wù)

1對(duì)1客戶咨詢顧問

在線
客服

在線客服:7*24小時(shí)在線

客服
熱線

400-630-3752
7*24小時(shí)客服服務(wù)熱線

關(guān)注
微信

關(guān)注官方微信
頂部