當前位置:名人名言大全網 - 短信平臺 - 工具:數據分析(統計學)

工具:數據分析(統計學)

方法:描述統計、推斷統計

數據:數值數據和分類數據(類別、文本,不能進行計算)

分類數據描述統計:頻數統計、頻數百分比

數值數據描述統計:統計度量(平均數:當數值差異性很大,平均數會被拉大或拉小、中位數、眾數)、圖形

分位數:第壹分位數:25%分位數、第二分位數:中位數、第三分位數:75%分位數

方差:描述離散程度,數據波動性

標準差:方差是平方,實際業務中沒有“平方”,所以需要開方,即為標準差,有+-之分

數據標準化:Z-Score,將兩組數據放在壹個可對比的維度,比如銷量和溫度

量綱:單位;當觀察日期和某業務數據關系時,可以將日期分解為按周和星期

切比雪夫定理:至少有75%的數據,位於平均數2個標準差範圍內;至少有89%的數據,位於平均數3個標準差範圍內;至少有96%的數據,位於平均數5個標準差範圍內

可視化:箱線圖、直方圖(對稱型、陡壁型、鋸齒型、孤島型、偏鋒型、雙峰型)

切比雪夫定理V2.0

正態分布中,至少有68%的數據,位於平均數1個標準差範圍內

正態分布中,至少有95%的數據,位於平均數2個標準差範圍內

正態分布中,至少有99.8%的數據,位於平均數3個標準差範圍內

概率

事件:{正面,反面}

概率:各50%

補集、交集、並集

韋恩圖

P(A∪B)=P(A)+P(B)-P(A∩B)

P(A|B)=P(A∩B)/P(B)

P(A|B)=P(A)

貝葉斯定理:結果A已經發生了,通過結果A反推真實原因可能性有多大

三道題

1、參加營銷活動的人群中,女性只有30%,能否說明女性不愛參加活動?

2、某城市有兩種顏色的出租車,藍車和綠車市場比率15:85。壹輛出租車夜間肇事逃逸,當時壹位目擊證人認出出租車是藍色的。經過相同環境下對“藍綠”測試得到:80%情況下識別正確,20%不正確,實際為藍車可能性?

3、假設1000條正常短信中,包含“澳門賭場”的短信有2條,在垃圾短信中,包含“澳門賭場”的短信有400條。現在接收了壹條新短信,在不瀏覽內容情況下,假設正常幾率50%。現在解析短信內容,發現了澳門賭場這個詞,它是垃圾短信的概率有多高?