2.K-means算法:它是壹種聚類算法。
3.SVM:壹種監督學習方法,廣泛用於統計分類和回歸分析。
4.Apriori:是挖掘布爾關聯規則頻繁項集最有影響力的算法。
5.EM:最大期望值法。
6.pagerank:是google算法的重要內容。
7.Adaboost:這是壹種叠代算法。其核心思想是對同壹個訓練集訓練不同的分類器,然後將弱分類器組裝成更強的最終分類器。
8.KNN:這是壹種理論上成熟的方法,也是最簡單的機器學習方法之壹。
9.樸素貝葉斯:在眾多分類方法中,決策樹模型和樸素貝葉斯是應用最廣泛的。
10.Cart:分類回歸樹。分類樹下有兩個關鍵的想法。第壹個是遞歸劃分自變量空間的思想,第二個是用驗證數據剪枝。
關聯規則規則定義
在描述壹些關於關聯規則的細節之前,我們先來看壹個有趣的故事:尿布和啤酒的故事。
在壹家超市,有壹個有趣的現象:紙尿褲和啤酒壹起賣。但是這個奇怪的舉動增加了紙尿褲和啤酒的銷量。這不是笑話,而是發生在美國沃爾瑪連鎖超市的真實案例,壹直被商家津津樂道。沃爾瑪擁有世界上最大的數據倉庫系統。為了準確地了解顧客在其商店的購買習慣,沃爾瑪對顧客的購物行為進行購物籃分析,並想知道顧客經常壹起購買什麽產品。沃爾瑪的數據倉庫集中了其門店的詳細原始交易數據。在這些原始交易數據的基礎上,沃爾瑪利用數據挖掘方法對這些數據進行分析和挖掘。壹個意外的發現是,啤酒是和紙尿褲壹起購買最多的商品!經過大量的實際調查分析,揭示了壹個躲在紙尿褲和啤酒背後的美國人的行為模式:在美國,壹些年輕的爸爸下班後經常去超市買嬰兒紙尿褲,其中30% ~ 40%的人也會給自己買壹些啤酒。造成這種現象的原因是,美國的妻子經常會告訴丈夫下班後給孩子買紙尿褲,丈夫買完紙尿褲會帶回自己喜歡的啤酒。
按照常規思維,紙尿褲和啤酒無關。如果不利用數據挖掘技術對大量交易數據進行挖掘分析,沃爾瑪是不可能發現數據內部這種有價值的規律的。
數據關聯是數據庫中壹種重要的發現知識。如果兩個或多個變量的值之間存在某種規律性,則稱之為相關性。相關性可分為簡單相關性、時間序列相關性和因果相關性。關聯分析的目的是找出數據庫中隱藏的關聯網絡。有時候我們不知道數據庫中數據的關聯函數,即使知道也是不確定的,所以關聯分析產生的規則是可信的。關聯規則挖掘在大量數據中發現項目集之間有趣的關聯或相關關系。阿格拉瓦爾等於1993。首先,提出了挖掘客戶交易數據庫中項目集之間的關聯規則的問題。後來很多研究者對挖掘關聯規則做了大量的研究。他們的工作包括對原有算法進行優化,比如引入隨機抽樣和並行思想,提高算法挖掘規則的效率;推廣關聯規則的應用。關聯規則挖掘是數據挖掘中的壹個重要課題,近年來被業界廣泛研究。