我的爬蟲規則是這樣的:從有幾萬個關註的知乎V中隨機選取10作為種子,依次爬取自己關註的人,再從自己關註的人爬取自己關註的人,如此遞歸。也就是說,爬蟲的規則保證每個進入數據庫的人至少有壹個追隨者。以下數據分析來自爬蟲獲取的信息,如報告有偏差,敬請見諒。
首先對知乎用戶的職位描述進行詞雲分析,列出前100個高頻詞。結果如下。
在職位描述高頻詞分析中,“互聯網”以4552次勝出,其次是“大學”,頻率為2163。這和我們平時看到的互聯網從業者和名校學生占據內容輸出的主力是壹致的。這100個高頻詞還包括了知乎用戶的興趣、居住地等信息,不過這些我們以後會仔細分析。
來看看知乎上的各種“最好”吧。有哪些最高的贊同數,最多的關註者,最多的書面回答?
首先是最高批準數的排名。
論批準數,@張嘉瑋老師靠自己的努力超過了第二名,是個穩操勝券的冠軍。然後前五名分別是@肥貓、@朱璇、@卒。輪哥排名第六。
然後我們來看看關註人數最多的列表。
在關註者名單中,@張嘉瑋老師仍然遙遙領先於@李開復老師。再往前有知乎大佬@黃繼新和@周源,再往前是@ yolfil。
我們來看看回答最多的列表。
@Phil以極高的輸出獲得了Top1,而號稱“走來走去”的@vczh只能排在第二。前五名分別是@王若風、@柴健壹和@振良。
讓我們來看看問題最多的列表。
@常偉以2684個問題排名第壹,以未來知識圖譜聞名的@圖靈堂排名第二。前五名分別是@新顏、@程翰和@肖恩。
然後是BAT三廠的員工數量對比,根據抓取的用戶職位描述詞的出現頻率。
可以看到鵝廠在知乎的員工占比最高,其次是阿裏(詞頻:0.004554),熊廠略落後。
都說知乎是個滿985/211的地方,那麽清北復交後哪個更強呢?
可以看出,北大和清華的詞頻差不多,後三者需要更加努力。
移動智能時代,Android、iOS、WEB前端工程師簡直在當今的軟件開發中大放異彩。那麽在知乎上什麽樣的程序員最多呢?
結果前端詞頻遠高於安卓和iOS。其實差壹點點就是安卓和iOS的總和。這麽說吧,妳可能是壹個堅信喬布斯少即是多的粉絲,也可能是壹個擁抱開源的安卓粉絲,但每個人都需要瀏覽網頁,對吧?)
然後很好奇知乎用戶的普遍興趣。
結果發現健身高居榜首。看來在知乎上,還是普遍提倡健身的,這樣才能提高價值和吸引力。但是為什麽讀書的比例最低呢?正因如此,我只能假設知乎的學生學習效率高,完成基本的閱讀任務後,再去其他領域探索更大的世界。或者讀書,相對於旅遊健身攝影來說,性價比不是很高,所以人們更傾向於去健身房,旅遊,拍照。
知乎用戶的地域分布。
詞頻集中在北方、廣州、深圳、杭州、四川、浙江、江蘇。類似於個人主觀印象。畢竟上述顏色較深的都是互聯網產業相對發達的省份。
然後就是大家最關心的知乎男女比例問題。
在爬的用戶數據中,男性占比67.8%,女性僅占32.2%。也就是說男女比例大於2: 1。
看到這裏,妳可能會反駁我說,知乎初始用戶的性別是男性,不可能搞出這樣的大新聞。我也覺得有道理,就進壹步篩選了核心中的核心用戶。篩選條件是粉絲200以上,認可400以上的用戶。這種下采樣應該是準確的。然後就是下圖。
女性比例降至30.1%,男性比例為69.9%。這個數據比之前的數據更不平衡。所以女性用戶在知乎上更稀缺,更珍貴。
所以,知乎與其說是壹個高質量的問答社區,不如說是:
作者:彭來源:知乎