當前位置:名人名言大全網 - 端午節短信 - 如何從頭開始理解數據

如何從頭開始理解數據

如何從頭開始理解數據

如今,關於企業數字化的進程,企業信息化程度和運營效率都有了很大的提高,數據的內容和維度得到了空前的豐富,很多場景或信息都可以被數據有效、準確、實時的記錄下來。

本文主要以零售為例,談談想了解壹個企業的數據,需要了解什麽,如何快速從“門外漢”轉變為“門外漢”。

首先,這個世界充滿了數據。

不難想象,我們生活的這個世界充滿了數據。日常生活中,我們的壹言壹行,壹舉壹動,幾乎都被數據記錄下來,而且越來越有特點。

4G的成熟應用和5G的興起、基站等通信基礎設施的廣泛布局和LBS的商業化、出行或導航軟件的廣泛使用(包括買票、打車、* * * *享受自行車、地圖導航、車載傳感器.....)讓我們每個人的軌跡變成數據,被記錄下來,比如我們去哪裏上班,住在哪裏,怎麽旅行,什麽時候旅行,路過哪裏,在哪裏。

隨著新零售的發展,大數據、AI、掃碼支付、圖像識別、傳感器等新技術的應用,微信營銷、社會化營銷、社群營銷等新思維的興起,加速了線上線下的融合。無論人們是線上購物還是線下購物,整個購物鏈條中各個環節的數據都會快速準確的傳輸到系統後臺。

基於記錄的數據,商家或購物平臺會知道是誰買的,什麽時候,什麽地方,什麽東西,多少錢,花了多少錢,怎麽付款,是打折還是優惠等信息。如果妳在網上購物,妳搜索了什麽關鍵詞,瀏覽了什麽商品,跟商家咨詢了什麽,把貨送到哪裏,等等信息也會被商家或者購物平臺知道。如果是線下購物,從進店到離店,妳在店裏的壹舉壹動都被店內安裝的攝像頭嚴密監控。通過視頻監控和人臉識別,商家會立刻知道妳是誰,妳是新顧客還是老顧客,妳在店裏走的是什麽樣的路徑,妳停留在哪個商品區,妳拿了哪些商品,妳把哪些商品放進了購物籃等等。

我們什麽時候上網聊天,和誰聊天,什麽時候聊天,聊什麽,文字/語音還是視頻,這些都會生成相應的數據,並被記錄下來。

同樣,當我們打電話、送快遞、點外賣、跑步健身、去餐館、看電影或者瀏覽網頁時,我們都以數據的形式留下了壹點點不可磨滅的痕跡。甚至當妳走在城市的每壹條街道上,遍布城市的攝像頭都可能捕捉到妳美好的影像。

總之,科技服務給我們帶來了生活上的極大便利,但也向我們索取了最重要的東西——個人信息作為交換。畢竟,天下沒有免費的午餐。

雖然越來越多的事件、行為、場景被數據記錄或表征,但在現階段甚至未來很長壹段時間內,仍有很多東西無法被數據記錄。比如人內心的想法只要不表達出來,就很難用數據記錄下來,這大概也是世界充滿不確定性的原因之壹。

圖1。用數據表示業務

當我們接觸到企業數據的時候,我們需要知道這些數據是怎麽來的。這些數據不會無緣無故產生,背後壹定有壹些業務場景。

我們深刻感受到,這個世界充滿了數據,數據規模呈指數級增長,數據類型也是多種多樣,從結構化數據到文本、語音、圖像、短視頻、視頻等非結構化數據。

第二,數據表達了什麽?

真實(非捏造、模擬、偽造)、可量化、可記錄的數據,壹定會反映現實世界中的某個業務場景。真實業務場景的發生或變化,大多會反映在後臺系統的數據中。

但是,數據對業務場景細節的表示仍然存在壹定的信息損失或失真。舉個例子,壹個30歲的女顧客在壹家母嬰店買了兩件嬰兒衣服,但是我們不知道她為什麽要買,是給自己的孩子買還是送給親戚朋友,是作為生日禮物送還是長大後需要換衣服。這時候就需要做分析和“猜測”了。

零售是商業場景最多樣,最貼近大家日常生活的行業。在談到業務和數據的關系時,我們不妨用零售業的例子來幫助我們更好地理解。

在炎熱的夏天,酷熱難耐。當妳走進公司附近的便利店,用微信支付,花3.5元,買壹瓶無糖330ml摩登罐的可樂,刷會員卡存100積分,收銀MM還妳壹張POS單據。這時,妳所發生的壹切已經通過收銀臺記錄在數據庫中。更糟糕的是,店裏的攝像頭還記錄了妳在店裏的壹舉壹動,並轉換成壹幀壹幀的圖像數據。

這就是業務數據化。

分析顯示,最近3.5元的330ml現代罐可樂銷量比上月增長了20%,而75%的消費者是20-35歲的男性。相比之下,300毫升塑料瓶可樂的銷量下降了40%。通過對比,店長認為300ml塑料瓶可樂利潤低,而330ml現代罐可樂目前更受年輕人歡迎。考慮到房租壓力越來越大,便利店競爭越來越激烈,他做了壹個大膽的決定,去掉300ml塑料瓶可樂,增加330ml現代罐裝可樂。

這就是數據業務,或者說數據驅動的業務。

圖二。業務和數據之間的關系

所以,不要急著看企業系統裏的表。妳看數據出業務,數據只是冷冰冰的數字,沒有任何意義,不會告訴妳任何信息。在我們開始了解企業數據之前,讓我們先熟悉壹下業務。

圖3。理解數據的過程

以“面-線-點”的方式熟悉業務比較合適,全面、系統、有效、深入,先在壹個行業,再在壹個垂直領域,再在壹個企業,最後在壹個具體的業務場景。以下方法可以幫助妳快速熟悉業務:

閱讀行業報告,包括行業現狀、整體規模、發展模式、技術、產品特點、消費者特征、標桿企業、趨勢預測等。

從公司年報、經營分析報告等文件中了解企業整體情況;

瀏覽公司官網、微信官方賬號、關偉、網店等,加深和提高對公司的了解,同時做壹些線上的體驗和感悟;

實地考察企業線下網點,體驗網點服務,向壹線網點工作人員了解情況。(很多大公司會要求總部員工每年至少在壹線體驗1-2天,避免與業務脫節。)

請教有經驗有見識的老員工。他們不僅熟悉業務,對企業裏的人和事也非常清楚,可以多向他們請教;

日常生活中經常會出現很多商業場景,保持開放的心態,仔細觀察,所見即所得;

註重平時積累,多讀書,多體驗生活,增加社會閱歷和閱歷。

對於沒有家庭的年輕人來說,壹罐嬰兒奶粉能喝多久,大多是沒有概念的;大部分沒談過戀愛的男生不明白BB霜和面霜是什麽,為什麽要用卸妝水和棉花卸妝(直接用清水洗就好了,省事~ ~)等等。這些生活常識來源於日常積累,會讓妳在深入學習某個行業時得心應手,減少學習的時間成本。

圖4。熟悉業務的方法。

只有對業務有了基本的了解,才能知道數據表達的是什麽。

第三,數據背後的場景是什麽?

當我們了解企業數據的時候,面對的是上百個系統,上千個表格,有些人感覺很匆忙,不知道如何下手。

只要遵循壹般的業務邏輯,就基本可以梳理出企業IT系統的建設邏輯和關聯,有壹個整體的認識,形成框架思維,避免陷入“信息孤島”。這樣做對於數據集成是必要的。不能把壹個系統割裂開來,單獨看。系統之間的關系必須清晰。

比如,在構建以成員為ID的基礎數據寬表時,需要對以人為中心的業務流程進行全面梳理,在此基礎上,需要對各個業務節點的系統進行清晰梳理,明確各個系統的數據如何整合和關聯,做到全面,避免遺漏壹些系統和相應的信息。

圖5。以人為中心的數據集成

零售企業壹般都有營銷、拓展、商品、采購、倉儲、配送、運營、門店、客服、IT、行政、人力資源、財務、整合等智能化部門。每個部門都有具體的業務活動和流程,部門之間也有相互的業務往來。企業的IT系統也是圍繞這些業務活動構建的。只要是零售企業,這個企業是這樣,那個企業也是這樣。商業活動本質上沒有太大區別,壹切都是相通的。但是,每個企業獨特的地方需要我們特別註意。

建議全景看看企業IT系統架構,花幾天時間研究壹下。

當我們深入了解單個系統時,基於我們對企業IT系統的整體了解,我們不僅要知道這個系統的功能和作用,誰在使用它,還要知道這個系統在整個企業系統中的位置,上下遊系統是什麽,數據流是如何工作的。

有兩種IT系統,業務系統和業務支持系統。業務系統主要是各業務條線最原始的數據,即“壹手數據”,而業務支撐系統主要是從業務系統中提取原始數據,經過清洗、加工、整合、分析後得到的匯總數據。

深入研究單個系統當然要看數據字典。同樣,先從表面了解,先看什麽樣的表,什麽樣的數據,對應什麽業務,哪些表可以忽略,哪些表需要重點關註。

壹般來說,表的命名遵循嚴格的規範,從表名就可以直觀地判斷出來。所以我們可以從表的命名來快速識別,比如sys代表系統,pos表訂單,cos代表客服,sms代表短消息,item代表商品,等等。

每個系統會有數百個表,所以妳需要做壹個快速過濾,看看哪些表妳不需要看。比如sys相關的表,主要用來保存系統配置參數或者記錄系統運行狀態,壹般可以跳過。

經過初步篩選,得出需要詳細了解的表格。

表壹般分為兩種,事實表和維度表。事實表記錄和存儲與交易、事件或行為相關的數據或信息,如POS訂單表,而維度表描述個體的屬性或個體之間的映射關系,如成員信息表、商品信息表、品類表、行業表、地區表、門店信息表、員工表等。事實表是動態的,冗余的,數據量大,而維度表是靜態的,冗余的,數據量小。

先看事實表,再看與事實表相關的維度表。

使用業務關聯法和“5W2H”方法論可以幫助我們快速理解單個表格。

比如我們每個人都親身經歷了在店裏購物的全過程,從中可以拆解出與這件事相關的幾個必不可少的信息,就是誰買的,什麽時候,什麽地方,什麽東西,多少錢,花了多少錢,有沒有優惠,怎麽付款等等。這些信息也會產生相應的數據。

反過來,我們也可以從數據中獲取這些信息,還原真實的業務場景。從事實表數據的字段信息可以知道會員/非會員(誰買的)、下單時間(什麽時候買的)、店鋪(在哪買的)、購買的商品(買了什麽)、數量(買了多少)、多少錢(金額)、折扣(有沒有折扣)、付款方式(如何付款)、收銀員等等。每個方面的信息都可以與維度表結合,或者與外部數據集成,以獲得更多的維度信息。比如知道是誰買的,就可以進壹步知道這個人的基本信息,比如性別、年齡、職業、註冊時間等。在哪家店買,可以進壹步了解省市縣和商圈的信息,也可以知道店是什麽類型(比如街邊店和商場);妳買了什麽商品,結合商品列表,或者關聯外部數據,就可以知道商品的具體屬性信息。

對於單個表,也有必要了解以下信息:

(1)主鍵,即哪些字段可以用來唯壹標識壹行數據;

(2)數據更新機制看涉及哪些字段,事實表和維度表不壹樣;

(3)數據量是多少,要看是大表還是小表,訂單有多大;

至此,您已經了解了單個表及其對應的業務。不要粗心大意。這時候妳對業務的了解只能得到及格分數!更詳細的業務場景需要對具體的數據字段進行深入研究。別人不會告訴妳太多細節,告訴妳也沒用,因為沒有親身經歷妳很快就會忘記。

要了解具體的領域,僅僅看數據字典是不夠的,還要知道數據是什麽樣子的。

在讀取數據時,要小心和敏感。

如果看到壹個“2018-7-4 9:16”的數據交易時間,就要特別註意了,可能需要處理成標準的時間格式——“2018-07-0409:16:00”;

如果看到壹個字段的前幾行都是相同的值(比如0或者null值),就要特別註意這個字段是否只有壹個值;

如果看到商品數量是小數,要結合商品名稱、類別、單位、規格等信息,看看數量是小數的時候買的是什麽商品;

如果結算金額為0,看商品是否為贈品(由商品名稱和類別決定);

如果結算金額為負,請檢查數量是否為負,以及訂單類型是否已退回。

如果有壹張結算金額非常大的POS單,有幾百萬,我們來看看用什麽幣種結算。如果是人民幣,請業務人員確認,要麽是輸入錯誤,要麽是有壹些特殊的業務操作。

總之,基於我們對業務的理解和對數據的敏感,如果發現某個領域的數據“異常”或者不符合我們之前對業務的理解,那麽這個時候我們不妨看看其他領域是否“異常”,通過這些領域的信息更多地去思考背後的業務場景是什麽。

如果可以,不妨熟悉壹下常用的表格及其字段,最好寫下來。

在底層數據處理階段花費的時間。而且數據處理會出現很多問題,其實大部分都是因為對業務和數據的無知造成的。

我們對數據了解得越多,數據處理就越方便和有效。

企業的原始數據有很多坑,妳永遠不知道坑在哪裏,什麽時候來,要多久才能填好。當妳理解數據的時候,多壹些敏感和質疑是不會錯的。