123,123,123

CDA數(shù)據(jù)分析師怎么挖掘數(shù)據(jù)

發(fā)布時間：2023-03-01 13:48:39

數(shù)據(jù)分析師培訓班

數(shù)據(jù)分析
探索性數(shù)據(jù)分析（ExploratoryDataAnalysis，EDA）是指對已有數(shù)據(jù)在盡量少的先驗假設下通過作圖、制表、方程擬合、計算特征量等手段探索數(shù)據(jù)的結構和規(guī)律的一種數(shù)據(jù)分析方法。
圖片
常用的第三方庫
數(shù)據(jù)科學庫
pandas：用于分組、過濾和組合數(shù)據(jù)，還提供了時間序列功能。
numpy：處理大型的多維數(shù)組和矩陣
scipy：用于解決線性代數(shù)、概率論、積分計算等任務
數(shù)據(jù)可視化庫
matplotlib：構建各種圖表，從直方圖和散點圖到非笛卡爾坐標圖等
seaborn：提供了豐富的可視化圖庫，包括時間序列、聯(lián)合圖和小提琴圖等復雜的類型。
常用函數(shù)
數(shù)據(jù)簡略觀測
head()：觀察數(shù)據(jù)讀取是否準確，常讀取前5行數(shù)據(jù)。
shape：讀取數(shù)據(jù)集的維度。
數(shù)據(jù)總覽
describe()：包含每列的統(tǒng)計量，個數(shù)、平均值、方差、最小值、中位數(shù)、最大值等。
數(shù)據(jù)類型info()：了解數(shù)據(jù)每列的type，了解是否存在除了nan以外的特殊符號異常。
數(shù)據(jù)檢測
缺失值檢測
查看每列的存在nan情況
排序函數(shù)sort_values()：將數(shù)據(jù)集依照某個字段中的數(shù)據(jù)進行排序,該函數(shù)即可根據(jù)指定列數(shù)據(jù)也可根據(jù)指定行的
可視化nan值與缺失值
異常值檢測
3σ原則：拉依達準則，該準則具體來說，就是先假設一組檢測數(shù)據(jù)只含有隨機誤差，對原始數(shù)據(jù)進行計算處理得到標準差，然后按一定的概率確定一個區(qū)間，認為誤差超過這個區(qū)間的就屬于異常值。
箱線圖：依據(jù)實際數(shù)據(jù)繪制，真實、直觀地表現(xiàn)出了數(shù)據(jù)分布的本來面貌，且沒有對數(shù)據(jù)作任何限制性要求（3σ原則要求數(shù)據(jù)服從正態(tài)分布或近似服從正態(tài)分布），其判斷異常值的標準以四分位數(shù)和四分位距為基礎。
預測分布
總體分布概況：
無接觸約翰遜分布：
正態(tài)分布
圖片
很多模型假設數(shù)據(jù)服從正態(tài)分布，數(shù)據(jù)整體服從正態(tài)分布，樣本均值和方差則相互獨立。當樣本不服從正態(tài)分布時，可以做如下轉換：
線性變化z-scores：基于原始數(shù)據(jù)的均值（mean）和標準差（standarddeviation）進行數(shù)據(jù)的標準化。將A的原始值x使用z-score標準化到x’
Boxcox變換：一種廣義冪變換方法，是統(tǒng)計建模中常用的一種數(shù)據(jù)變換，用于連續(xù)的響應變量不滿足正態(tài)分布的情況。
yeo-johnson變換：是冪變換（powertransformation）的方法之一，通過構建一組單調(diào)函數(shù)對隨機變量進行數(shù)據(jù)變換。
查看skeness和kurtosis
skeness：衡量隨機變量概率分布的不對稱性，是相對于平均值不對稱程度的度量，通過對偏度系數(shù)的測量，我們能夠判定數(shù)據(jù)分布的不對稱程度以及方向。
kurtosis：研究數(shù)據(jù)分布陡峭或平滑的統(tǒng)計量，通過對峰度系數(shù)的測量，我們能夠判定數(shù)據(jù)相對于正態(tài)分布而言是更陡峭/平緩。
圖片
預測值的具體頻數(shù)
當某范圍預測值很少時，可將其當作異常值處理填充或刪除。若頻數(shù)很失常，需對數(shù)據(jù)進行處理，例如進行l(wèi)og變換，使數(shù)據(jù)分布較均勻，可據(jù)處理后的數(shù)據(jù)進行預測，這也是預測問題常用的技巧。
特征分析
數(shù)字特征
相關性分析：對兩個或多個具備相關性的變量元素進行分析，從而衡量兩個變量因素之間的相關密切程度。
特征的偏度和峰度
數(shù)字特征分布可視化
pd.melt()：處理數(shù)據(jù)，透視表格，可將寬數(shù)據(jù)轉化為長數(shù)據(jù)，以便于后續(xù)分析。形成的數(shù)據(jù)即為，鍵：各特征名稱，值：特征對應的值
sns.FacetGrid()：先sns.FacetGrid()畫出輪廓,再map()填充內(nèi)容
sns.pairplot()：展示變量兩兩之間的關系（線性或非線性，有無較為明顯的相關關系）。
類別特征
unique分布：對于一維數(shù)組或者列表，unique函數(shù)去除其中重復的元素，并按元素由大到小返回一個新的無元素重復的元組或者列表。
可視化：
箱型圖可視化：直觀識別數(shù)據(jù)中的離群點，判斷數(shù)據(jù)離散分布情況，了解數(shù)據(jù)分布狀態(tài)。
小提琴圖可視化：用于顯示數(shù)據(jù)分布及概率密度，這種圖表結合了箱形圖和密度圖的特征，主要用來顯示數(shù)據(jù)的分布形狀
柱形圖可視化類別
每個類別頻數(shù)可視化
數(shù)據(jù)清洗
數(shù)據(jù)和特征決定了機器學習的上限，而模型和算法只是逼近這個上限而已。俗話說：garbagein,garbageout。分析完數(shù)據(jù)后，特征工程前，必不可少的步驟是對數(shù)據(jù)進行清洗。
數(shù)據(jù)清洗作用是利用有關技術如數(shù)理統(tǒng)計、數(shù)據(jù)挖掘或預定義的清理規(guī)則將臟數(shù)據(jù)轉化為滿足數(shù)據(jù)質(zhì)量要求的數(shù)據(jù)。主要包括缺失值處理、異常值處理、數(shù)據(jù)分桶、特征歸一化/標準化等流程。
圖片
缺失值處理
關于缺失值處理的方式，有幾種情況：
不處理：針對xgboost等樹模型，有些模型有處理缺失的機制，所以可以不處理；
如果缺失的太多，可以考慮刪除該列；
插值補全（均值，中位數(shù)，眾數(shù)，建模預測，多重插補等）；
分箱處理，缺失值一個箱。
異常值處理
常用的異常值處理操作包括BOX-COX轉換（處理有偏分布），箱線圖分析刪除異常值，長尾截斷等方式，當然這些操作一般都是處理數(shù)值型的數(shù)據(jù)。
BOX-COX轉換：用于連續(xù)的變量不滿足正態(tài)的時候，在做線性回歸的過程中，一般需要做線性模型假定。
箱線圖分析：依據(jù)實際數(shù)據(jù)繪制，真實、直觀地表現(xiàn)出了數(shù)據(jù)分布的本來面貌，其判斷異常值的標準以四分位數(shù)和四分位距為基礎。
數(shù)據(jù)分桶
連續(xù)值經(jīng)常離散化或者分離成“箱子”進行分析,為什么要做數(shù)據(jù)分桶呢？
離散后稀疏向量內(nèi)積乘法運算速度更快，計算結果也方便存儲，容易擴展；
離散后的特征對異常值更具魯棒性，如age>30為1否則為0，對于年齡為200的也不會對模型造成很大的干擾；
LR屬于廣義線性模型，表達能力有限，經(jīng)過離散化后，每個變量有單獨的權重，這相當于引入了非線性，能夠提升模型的表達能力，加大擬合；
離散后特征可以進行特征交叉，提升表達能力，由M+N個變量編程M*N個變量，進一步引入非線形，提升了表達能力；
特征離散后模型更穩(wěn)定，如用戶年齡區(qū)間，不會因為用戶年齡長了一歲就變化
當然還有很多原因，LightGBM在改進XGBoost時就增加了數(shù)據(jù)分桶，增強了模型的泛化性�，F(xiàn)在介紹數(shù)據(jù)分桶的方式有：
等頻分桶：區(qū)間的邊界值要經(jīng)過選擇,使得每個區(qū)間包含大致相等的實例數(shù)量。比如說N=10,每個區(qū)間應該包含大約10%的實例。
等距分桶：從最小值到最大值之間,均分為N等份；
Best-KS分桶：類似利用基尼指數(shù)進行二分類；
卡方分桶：自底向上的(即基于合并的)數(shù)據(jù)離散化方法。它依賴于卡方檢驗：具有最小卡方值的相鄰區(qū)間合并在一起,直到滿足確定的停止準則。
數(shù)據(jù)轉換
數(shù)據(jù)轉換的方式有：
數(shù)據(jù)歸一化(MinMaxScaler)；
標準化(StandardScaler)；
對數(shù)變換(log1p)；
轉換數(shù)據(jù)類型(astype)；
獨熱編碼(OneHotEncoder)；
標簽編碼(LabelEncoder)；
修復偏斜特征(boxcox1p)等。

以上文章由成都CDA數(shù)據(jù)分析師培訓機構課程顧問整理編輯發(fā)布，部分文章來自網(wǎng)絡內(nèi)容真實性請自行核實或聯(lián)系我們，了解相關專業(yè)課程信息您可在線咨詢也可免費申請試課。關注官方微信了解更多：150 3333 6050

免費申請試課

推薦課程