1995年,AMEX的風控模型開始試運行,1997年風控系統正式上線,此後幾年,AMEX保持高速增長且把不良貸款降到業內最低
2008年,discover將全球數據分析中心搬到上海。從這個中心流出的風控人才,填充了中國各大互金公司
業務類型:有抵押貸(房貸車貸)、信用貸(比如宜人貸)、消費分期貸(手機家電等)、小額現金貸(500/1000/1500)等
風控涉及業務:1)數據采集:包括征信數據,運營商數據,爬蟲,網站埋點,歷史借款數據,黑名單,第三方數據等
?2)反欺詐引擎:主要包括反欺詐規則與反欺詐模型。
?3)規則引擎:即常說的策略。主要通過數據分析手段統計不同字段和各個區間的壞賬率,然後篩選得到信用較好的人群進行放款
4)風控模型&評分卡:模型算法之間並無顯著不同,而是根據其發生的不同時間點進行劃分(貸前/貸中/貸後),即目標產生的方式不壹樣。通常信貸領域都是以逾期天數來定義目標變量。A卡可以用客戶歷史逾期天數最大值,B卡可以用多期借款中逾期最大的壹次。C卡因為用途不同有不同的建立方法
5)催收:是風控的最終手段。這個環節可以產生很多對模型有幫助的數據,比如催收記錄的文字描述,觸達率,欺詐標簽等等
1)爬蟲可以爬取手機APP的信息。我們可以將手機APP分成4類:工具,社交、娛樂、金融。計算每種APP的個數,這樣就有了4個特征
2)從運營商數據可以知道客戶打了多少電話,發了多少短信,用了多少流量,是否有過欠費等信息
3)征信報告很多時候都是壹個簡單的征信分數,壹般都是得分越高,客戶質量越好
4)從基本信息中獲取用戶畫像,比如從身份證中得到年齡、性別、戶籍3個特征
黑名單的升級版本就是規則引擎。然而它是靠經驗生成的。比如保險公司可能會拒絕連續退貨5次或者退貨比例達到80%的人購買退貨險。規則通常需要投入大量的精力維護,不斷更新修改,否則會造成大量的誤判。對疑似套現金額、筆數超過壹定數目,建議拒絕準入,或做重點關註。XX天內申請借貸數大於某個值,建議拒絕
比如我們可以設定壹個準入規則,如職業為公務員、醫生、律師等。
還可以設置直接放款原則,比如芝麻分大於750分
目標變量如何確定:以A卡為例,主要通過roll-rate與vintage。舉個例子,我們可以定義在8個月逾期超過60天的客戶為壞客戶,8個月未逾期的為好客戶。而八個月逾期在0-60天內為不確定客戶,從樣本中排除。
1)前期準備工作:不同的模型針對不同的業務場景,在建模項目開始前需要對業務的邏輯和需求有清晰的理解
2)模型設計:包括模型的選擇(評分卡還是集成模型),單個模型還是做模型細分。是否需要做拒絕推斷,怎麽定義觀察期、表現期、好壞用戶。確定數據來源
3)數據拉取及清洗:根據觀察期和表現期的定義從數據池中取數,並進行數據清洗和穩定性驗證。數據清洗包括異常、缺失、重復。穩定性驗證主要考察變量在時間序列上的穩定性,指標有PSI,IV,平均值/方差等
4)特征工程:主要是特征的預處理和篩選。評分卡主要是通過IV進行篩選。另外會基於對業務的理解進行特征構造,包括特征交叉(兩個或以上特征相乘/相除/笛卡爾積),特征轉換等
5)模型建立和評估:評分卡可以用邏輯回歸,只需要做二分類預測可以選擇xgb.模型建好後需要進行模型評估,計算auc,ks。並對模型做交叉驗證來評估泛化能力
6)模型上線部署:在風控後臺配置模型規則,對於壹些復雜的模型比如xgb,壹般是將模型文件轉換為pmml格式,並封裝。在後臺上傳文件與配置參數
7)模型監控:前期主要是監控模型整體與變量的穩定性。衡量標準主要是PSI(population stability? index)。其實psi 就是按分數分區間後,各個分數區間實際與期望占比的差異。如果小於10%,無需更新模型。小於25%,就需要重點關註模型了。如果大於25%就需要更新模型。計算模型psi壹般用等頻,可以分10箱
1.A卡B卡C卡含義與區別?
A卡(application score card):即申請評分卡,在客戶申請處理期,預測客戶開戶後壹定時期內違約拖欠的風險概率,有效的排除了信用不良客戶和非目標客戶的申請。同時對客戶進行風險定價----確定額度與利率。用到的數據主要是用戶以往的信用歷史,多頭借貸,消費記錄等信息。
B卡(behavior score card):行為評分卡,在賬戶管理期,根據賬戶歷史上所表現出的各種行為特征來預測該賬戶未來的信貸表現。壹是防控貸中風險,二是對用戶的額度做壹個調整。用到的數據主要是用戶在本平臺的登錄、瀏覽、消費行為等數據。還有借還款,逾期等借貸表現數據。
C卡(collection? score? card):催收評分卡,對逾期賬戶預測催收策略反應的概率,從而采取相應的催收措施
三張卡的區別:
數據要求不同:A卡壹般可做貸款0-1年的信用分析。B卡則是在申請人有了壹定行為後,有了較大數據進行的分析。C卡則對數據要求更大,需加入催收後客戶反應等屬性數據
特征不同:A卡用到的大部分是申請者的背景信息,比如客戶填寫的基本信息,以及第三方信息。而且這個模型壹般也會比較謹慎。B卡利用了很多基於交易的特征。
2.風控領域為何選擇邏輯回歸模型,有哪些局限性
1)首先是因為邏輯回歸客群變化的敏感度不如其他高復雜度模型,因此穩健性好
2)模型直觀,系數含義好闡述,易理解
缺點是容易欠擬合,準確度不是很高。另外對數據要求比較高,缺失、異常、特征***線性都比較敏感
3.為何用IV而不是WOE篩選特征
因為IV考慮了分組中樣本比例的影響。即使這個分組的WOE很高,但是分組的樣本占比很小的話,最終這個特征的預測能力可能還是很小
4.ROC與KS指標(ks在0.2-0.75,auc在0.5-0.9較好)
ROC曲線把TP,FP當作橫縱坐標,而KS曲線把TP,FP都當成是縱坐標,橫坐標是閥值。KS能找出模型中差異最大的壹個分組,大於0.2即可認為有比較好的預測準確性。而ROC能反應整體區分效果
5.分箱方法與badrate單調
目前在行業裏,大家用貪心算法進行分箱的比較多,比如best_ks,卡方分箱等。badrate單調性只在連續型數值變量與有序型離散變量(如學歷/尺碼)分箱的過程中才會考慮。至於為何要考慮badrate單調性,主要是出於業務理解,比如歷史逾期越多那麽badrate越大。
6.為何不同的風控模型,壹般都不會選用相同的特征
被拒絕的人,是因為某些特征表現差。如果用相同的特征做重復篩選,那麽隨著時間推移,以後建模的樣本裏面就沒有這些人了。這樣特征上的樣本分布就變了。
7.風控中用的無監督算法有哪些
聚類算法,基於圖的離群檢測,LOF(局部異常因子),孤立森林等
8.卡方分箱
卡方分箱是基於合並的數據離散化方法.基本思想是相鄰的區間具有類似的類分布,則將之合並.而卡方值是衡量兩個區間相似性的標準,卡方值越低越相似.當然也不可能無限合並下去,我們給它設定壹個閥值.根據自由度與置信度得到.比如類別數是N,那麽自由度就是N-1.而置信度表示發生的概率。壹般可以取90%。
9.best-ks分箱
與卡方分箱相反,best-ks分箱是壹個逐步拆分的過程。將特征值從小到大排序,KS最大的那個值即為切點,然後把數據分為兩部分。重復這個過程,直到箱體數達到我們的預設的閥值即可。
10.拒絕推斷(reject? inference)
申請評分卡是利用通過審核的授信客戶的歷史數據來建立模型,但是此模型會忽略原先被拒絕的這部分客群對評分卡模型的影響。需要通過拒絕推論來對模型進行修正,以便使模型更加的精確與穩定。另外,公司的規則變化也可能讓過去被拒絕的客戶現在能通過。適用於中低通過率的場景。
常用方法:硬性截斷法---先用初始模型對拒絕用戶進行打分,設置壹個閥值。高於此分數標記為好用戶,反之為壞用戶。然後把標記後的拒絕用戶加入樣本中重新訓練模型。分配法---此方法適用於評分卡。將樣本根據評分高低進行分組,並計算各組的違約率。然後對拒絕用戶進行打分並按照之前的方法分組,以各組的違約率為抽樣比例,隨機抽取該分組下的違約用戶,指定為壞用戶,剩下的標記為好用戶。然後將標記好的拒絕用戶加入樣本重新訓練
11.建模過程中如何保證模型的穩定性
1)在數據預處理階段可以驗證變量在時間序列上的穩定性,方法有:計算月IV的差異,觀察變量覆蓋率的變化,兩個時間點的PSI差異等。例如我們選取1-10月的數據集,借鑒K折驗證的思想,得到10組驗證結果。觀察隨著月份的推移,模型的變化是否有比較大的趨勢變化
2)在變量篩選階段剔除與業務理解相悖的變量。如果是評分卡,可以剔除區分度太強的變量,模型受這個變量影響太大,穩定性會下降
3)做交叉驗證,壹種是時間序列上的交叉驗證,壹種是K折交叉驗證
4)選擇穩定性好的模型。比如xgb? 隨機森林等
12.怎麽處理高維稀疏特征與弱特征
對於高維稀疏特征,邏輯回歸比gbdt效果好。後者的懲罰項主要是樹深度與葉子數目,這對稀疏數據來說懲罰並不嚴厲,容易過擬合。使用邏輯回歸評分卡,則可以把特征離散化為0與非0,然後再進行woe編碼。
如果用評分卡建模,弱特征壹般會被舍棄掉。評分卡的入模特征數不宜過多,壹般在15個以下。而xgb對數據的要求不高,而且精度好。壹些弱特征進行交叉組合也許有意想不到的效果。
13.模型上線後發現穩定性不佳,或者線上的區分效果不好,怎麽調整
模型穩定性不佳首先檢查當初建模時有沒有考慮特征的穩定性。在模型前期發現穩定性不佳的變量,考慮棄用或用其他變量代替。另外分析線上線下用戶和建模時用戶的分布差異,考慮在建模時增加拒絕推斷的步驟,讓建模樣本的分布更加接近實際的整體申請用戶
線上的效果不好可以從變量角度分析。剔除掉效果不好的變量,挖掘新的變量入模。如果壹個模型已上線較長的時間,用戶的屬性也慢慢發生偏移,那麽重新取數做下模型
14.怎麽做風控模型冷啟動
產品剛上線時,沒有積累的用戶數據,或者用戶沒有表現出好壞,此時可以考慮: 1)不做模型,只做規則。憑借業務經驗,做壹些硬性規則,比如設定用戶的準入門檻,考量用戶的信用歷史與多頭風險,可以接入第三方的反欺詐服務和數據產品的規則。也可以結合人工審核來對用戶的申請資料做風險評估 2)借助相近模型的數據來建模。
15.樣本不平衡問題
除了調整類權重以外,主要采用采樣方法來解決。常見的有樸素隨機過采樣,SMOTE,ADASYN(自適應綜合過采樣)
16.運營商數據處理
根據通話日期,可以將通話記錄分為近7天,近半月,近壹月,近三月,近6月等時間窗口。也可以按具體日期劃分為工作日、節假日等。根據通話時間,可以將壹天劃為淩晨、上午、下午、晚上。至於電話號碼,壹種思路是按照歸屬地劃分為 省市,另壹種思路是對號碼打標簽,根據電話邦、百度手機衛士、搜狗號碼通的標記,區分出快遞外賣、騷擾電話、金融機構、中介等。甚至根據業務積累區分號碼是否是黑名單用戶、申請用戶或申請被拒用戶。用戶與不同號碼標簽的通話情況,可以側面反應用戶的通話習慣和生活特點
17.逐步回歸
當自變量之間的關系比較復雜,對於變量的取舍不易把握時,我們可以使用逐步回歸的方法進行變量篩選。逐步回歸的基本思想是將變量逐個引入模型,每引入壹個變量進行F檢驗,並對已經選入的變量進行t檢驗,當原來引入的變量在後面的變量引入之後不再顯著時,則將原來的變量刪除。以確保每次引入引入新的變量之前回歸方程中只包含顯著性變量
18.在邏輯回歸中,為什麽常常要做特征組合(特征交叉)
邏輯回歸屬於廣義線性模型,特征組合可以引入非線性特征,提升模型的表達能力
部分引用文章: /content/qita/775233 ? /article/jXwvkaB9t7mPWHxj9ymu /developer/article/1489429 /developer/article/1059236 /taenggu0309/Scorecard--Function