數據:數值數據和分類數據(類別、文本,不能進行計算)
分類數據描述統計:頻數統計、頻數百分比
數值數據描述統計:統計度量(平均數:當數值差異性很大,平均數會被拉大或拉小、中位數、眾數)、圖形
分位數:第壹分位數:25%分位數、第二分位數:中位數、第三分位數:75%分位數
方差:描述離散程度,數據波動性
標準差:方差是平方,實際業務中沒有“平方”,所以需要開方,即為標準差,有+-之分
數據標準化:Z-Score,將兩組數據放在壹個可對比的維度,比如銷量和溫度
量綱:單位;當觀察日期和某業務數據關系時,可以將日期分解為按周和星期
切比雪夫定理:至少有75%的數據,位於平均數2個標準差範圍內;至少有89%的數據,位於平均數3個標準差範圍內;至少有96%的數據,位於平均數5個標準差範圍內
可視化:箱線圖、直方圖(對稱型、陡壁型、鋸齒型、孤島型、偏鋒型、雙峰型)
切比雪夫定理V2.0
正態分布中,至少有68%的數據,位於平均數1個標準差範圍內
正態分布中,至少有95%的數據,位於平均數2個標準差範圍內
正態分布中,至少有99.8%的數據,位於平均數3個標準差範圍內
概率
事件:{正面,反面}
概率:各50%
補集、交集、並集
韋恩圖
P(A∪B)=P(A)+P(B)-P(A∩B)
P(A|B)=P(A∩B)/P(B)
P(A|B)=P(A)
貝葉斯定理:結果A已經發生了,通過結果A反推真實原因可能性有多大
三道題
1、參加營銷活動的人群中,女性只有30%,能否說明女性不愛參加活動?
2、某城市有兩種顏色的出租車,藍車和綠車市場比率15:85。壹輛出租車夜間肇事逃逸,當時壹位目擊證人認出出租車是藍色的。經過相同環境下對“藍綠”測試得到:80%情況下識別正確,20%不正確,實際為藍車可能性?
3、假設1000條正常短信中,包含“澳門賭場”的短信有2條,在垃圾短信中,包含“澳門賭場”的短信有400條。現在接收了壹條新短信,在不瀏覽內容情況下,假設正常幾率50%。現在解析短信內容,發現了澳門賭場這個詞,它是垃圾短信的概率有多高?