識別信息需求是保證數據分析過程有效性的首要條件,可以為數據收集和分析提供明確的目標。
2.數據收集
了解數據采集的意義在於真正了解數據的原貌,包括數據生成的時間、條件、格式、內容、長度、限制等。幫助數據分析師更有針對性地控制數據生產和收集過程,避免因違反數據收集規則而導致的數據問題;同時對數據采集邏輯的理解,增加了對數據分析師的理解,尤其是對數據異常變化的理解。
3.數據存儲
在數據存儲階段,數據分析師需要了解數據存儲的內部工作機制和流程。核心因素是在原始數據的基礎上做了什麽處理,最終得到什麽樣的數據。由於數據在存儲階段是不斷動態變化和叠代更新的,其及時性、完整性、有效性、壹致性和準確性往往會因軟硬件、內外環境問題而得不到保證,從而導致後期的數據應用問題。
4.數據析取
數據抽取就是把數據取出來的過程,而數據抽取的核心環節就是從哪裏獲取,什麽時候獲取,如何獲取。在數據抽取階段,數據分析師首先需要具備數據抽取的能力。常用的Select From語句是SQL查詢和提取的必備技能,但即使是簡單的數據檢索也有不同的層次。
5.數據挖掘技術
面對海量數據,數據挖掘是提取數據價值的關鍵。以下是算法選擇的基本原則:沒有最好的算法,只有最適合的算法,算法選擇的原則是準確性、可操作性、可理解性和適用性兼顧。沒有壹種算法可以解決所有問題,但是掌握壹種算法可以解決很多問題。
挖掘算法最難的部分是算法調優。同壹算法在不同場景下的參數是相同的,所以實踐是獲得調優經驗的重要途徑。
6.數據分析
分析數據是將收集到的數據通過加工、整理、分析轉化為信息。常用的方法有:帕累托圖、因果圖、層次法、問卷、行走圖、直方圖、控制圖;七種新工具,即關聯圖、系統圖、矩陣圖、KJ方法、計劃評估和評審技術、PDPC方法和矩陣數據圖。
7.數據可視化
數據分析領域有壹句經典的話,文字不如表格,表格不如圖片。別說普通人,數據分析師自己看數據。這時候就要看數據可視化的神奇力量了。除了數據挖掘等高級分析,很多數據分析師的壹個普通工作就是監控數據,觀察數據。
8.數據應用
數據應用是數據落地價值的直接體現。這個過程需要數據分析師具備數據溝通能力、業務推廣能力和項目工作能力。