筆者估計(jì):除了圖像處理,從事工業(yè)大數(shù)據(jù)分析時(shí),95%以上的工作都可以用線性回歸、決策樹、方差分析、頻譜分析、最大似然估計(jì)、取平均數(shù)等基本的統(tǒng)計(jì)或數(shù)據(jù)處理方法完成。但是,人們講到這些方法時(shí),卻往往會(huì)把重點(diǎn)放在深度學(xué)習(xí)、模式識(shí)別等。
現(xiàn)實(shí)中,這些高級(jí)方法往往是“殺雞用牛刀”,反而不好用。因?yàn)檫@些方法,難以與人的知識(shí)和認(rèn)識(shí)結(jié)合起來。人們樂于宣傳這些方法的原因,除了便于發(fā)表文章,就是便于保密。從事相關(guān)工作的朋友必須明白;自己要對(duì)自己的時(shí)間負(fù)責(zé)。最好用簡(jiǎn)單的辦法分析問題。
但是,做數(shù)據(jù)分析工作其實(shí)很不容易。即便對(duì)數(shù)學(xué)和統(tǒng)計(jì)學(xué)功底好的人來說,人才的“成才率”恐怕不會(huì)高于10%。那么,困難到底在什么地方?要理解這種困難,還是從《黑天鵝》中的那個(gè)故事談起。作者問道:一個(gè)硬幣丟了99次,每次都是正面朝上。請(qǐng)問第100次正面朝上的概率是多大?學(xué)霸的標(biāo)準(zhǔn)答案是:第100次正面朝上的概率與前面99次的結(jié)果沒有關(guān)系。所以,概率是50%。而老油條的答案則是:前面連續(xù)99次都朝上了,你還會(huì)認(rèn)為正面朝上的概率是50%嗎?前提不成立了!
現(xiàn)實(shí)中,數(shù)據(jù)分析的難點(diǎn),在于認(rèn)清正確的前提。
錯(cuò)誤使用統(tǒng)計(jì)分析方法的現(xiàn)象非常普遍。筆者在寶鋼工作時(shí),看到鋼鐵行業(yè)同仁們寫的論文,就對(duì)辦公室的年輕人說:真想把這些論文作為反面案例,告訴大家什么是錯(cuò)誤的分析方法。在這些例子中,有的回歸分析的前提不成立,有人在選取樣本時(shí)犯了初級(jí)錯(cuò)誤。
這種現(xiàn)象并不奇怪。
筆者參與研究生面試時(shí),經(jīng)常遇到這樣的事情:給學(xué)生出一道復(fù)雜的計(jì)算題,基本上都能正確地計(jì)算出來。但是,如果問基本的概念,很多人就回答不出來了。更有意思的是:如果把計(jì)算題出得特別簡(jiǎn)單、不再需要采用復(fù)雜公式時(shí),多數(shù)學(xué)生居然回答不出來了!
我們現(xiàn)在的教育,總是考核在“標(biāo)準(zhǔn)前提下,給出標(biāo)準(zhǔn)答案”。學(xué)生沒有懷疑“前提”的習(xí)慣。這樣的學(xué)生有知識(shí),卻不會(huì)用知識(shí)。
回到前面的問題。用線性回歸可以清晰地分析一個(gè)變量的作用。但前提是其它變量的干擾較小、且具有隨機(jī)性。解決這個(gè)問題的辦法之一,是盡量固定其他變量??茖W(xué)試驗(yàn)往往就是這么做。
但工業(yè)現(xiàn)場(chǎng)往往受各種約束,總會(huì)有很多干擾。而且,這些干擾并不是隨機(jī)的。變量選擇有問題時(shí),小的非隨機(jī)干擾,就會(huì)對(duì)分析結(jié)果產(chǎn)生很大的影響。所以,做數(shù)據(jù)分析時(shí),必須時(shí)刻警惕非隨機(jī)系統(tǒng)干擾的影響,并設(shè)法剔除它。
處理和發(fā)現(xiàn)非隨機(jī)的系統(tǒng)干擾很難。原因是這樣的因素太多。比如,任何一個(gè)變量的采集過程,都可能存在非隨機(jī)系統(tǒng)干擾。而識(shí)別這些干擾,需要更多的數(shù)據(jù)項(xiàng)。這樣,分析問題時(shí)面對(duì)的數(shù)據(jù)項(xiàng)就會(huì)越來越多。人的注意力就容易淹沒在數(shù)據(jù)的海洋中。更糟糕的是:受數(shù)據(jù)條件制約,有些系統(tǒng)干擾可能就是不可見的。
現(xiàn)場(chǎng)中的有些干擾往往難以排除。筆者曾經(jīng)遇到過這樣一件事:某鋼種的性能波動(dòng)非常大。強(qiáng)度700MPa級(jí)的鋼種,波動(dòng)的標(biāo)準(zhǔn)差就高達(dá)60MPa。筆者分析后認(rèn)為:這是某環(huán)節(jié)的系統(tǒng)干擾導(dǎo)致的。于是,筆者就設(shè)計(jì)了一個(gè)實(shí)驗(yàn)室試驗(yàn)、設(shè)法避開這種干擾。后來,同事在實(shí)驗(yàn)室里做了這個(gè)試驗(yàn)。他們做了幾十對(duì)試樣,每對(duì)試樣的強(qiáng)度差不超過3MPa.
對(duì)前提做出判斷的時(shí)候,往往需要較為全面的專業(yè)知識(shí)。這是制約數(shù)據(jù)分析人才“成才率”提高的主要原因。
利用統(tǒng)計(jì)軟件,做一次回歸分析只要幾秒鐘的時(shí)間。數(shù)據(jù)分析師的絕大多數(shù)時(shí)間都用來對(duì)數(shù)據(jù)合理性進(jìn)行分析。如果自己缺乏專業(yè)知識(shí),可能幾分鐘就要去請(qǐng)教別人。別人豈不要煩死了?
合格的數(shù)據(jù)分析師,不僅要善于與數(shù)據(jù)打交道,更要善于理解物理對(duì)象和物理過程。
作者:郭朝暉(工學(xué)博士,教授級(jí)高工。企業(yè)研發(fā)一線工作20年;優(yōu)也科技信息公司首席科學(xué)家;東北大學(xué)、上海交大等多所院校兼職教授。國內(nèi)知名智庫、走向智能研究院的發(fā)起人之一。原寶鋼研究院首席研究員)