郭朝暉談工業(yè)數據建模

2021/12/9 2:25:39 人評論次瀏覽分類：文化長廊文章地址：http://m.prosperiteweb.com/community/4073.html

業(yè)界使用的模型本質上有兩種類型：一種是研發(fā)設計階段的建模，目的是生產出與模型一致的物理產品。這時，一般是先有數字世界中的模型后有物理世界中的實體。另外一種是針對特定客觀對象的建模，目的是讓模型與客觀對象吻合。這時，往往是先有物理世界中的對象，后有數字世界的模型。本節(jié)討論的是后一種建模。這種模型是參照實際數據建立的，人們希望模型的結果與實際數據吻合。

針對特定物理對象的數據建模有兩個層次的用途：一種是模型的正向應用，用于預測或計算某個變量；一種是模型的反向應用，用于優(yōu)化和控制。前一種用途的模型不一定采用因果關系，而后一種用途的模型則要符合因果關系。

模型應用的場景
完整地理解模型的重要性，就要理解模型的局限性。我們前面曾經談到，模型都是有誤差的，這很大程度上限制了模型的應用。在維納的理論中，通過反饋來應對模型的誤差問題。傳統(tǒng)控制論的模型，往往針對線性系統(tǒng)。線性系統(tǒng)往往適合用參數變動比較小的場景下。但智能時代的模型，往往針對的是變化范圍變化較大的場景。這樣的場景，往往是非線性的。

所以，基于工業(yè)數據建模，往往面對的是大范圍和高精度的矛盾。下面我們會討論：這樣的矛盾是如何產生的，又是如何解決的。

數據建模的基礎
很多人認為，工業(yè)數據建模的原因是“原理不清楚”。事實上，工業(yè)對象都是物理對象，都符合自然科學的規(guī)律。工業(yè)對象是人造對象。人們建立物理的工業(yè)對象時，往往也都是在科學原理的指導下做成的。

有些人不明白：既然科學原理清楚了，為什么還要建立模型。工業(yè)人建立模型的原因有兩個：首先是科學模型是抽象的、工業(yè)模型是具體的。從抽象走到具體，需要給出若干參數。而這些參數并不一定容易獲得。其次，科學原理針對的都是簡單對象，工業(yè)對象卻往往是復雜的系統(tǒng)，需要大量的參數。參數多的問題是：如果參數準確度不高，理論模型的精確度就會低到難以忍受的程度，無法滿足工業(yè)生產的需要

下面給出一個形象的說法：某個工業(yè)對象可以用函數描述，假設它的理論模型是。應用模型時必須依靠現實中能夠獲得的數據?，F實中，X往往是無法準確、及時獲得。這時，人們要設法在可以得到的數據中，尋找一些與X相關的變量，如Z。于是，現實的數據模型往往就變成。

某廠發(fā)現：一種材料的合格率與生產這種材料的班組有關。事實上，合格率與某個工藝參數有關，不同班組采用的工藝參數不一樣。但每個班組采用的參數不同、也沒有記錄。所以，人們看到的是合格率與班組有關。在這個例子里，工藝參數就是X，而班組就是Z。

人們經常發(fā)現：材料的性能與生產的季節(jié)相關。本質上，材料的性能與生產材料時的溫度、濕度、空氣流動的綜合情況有關。在這里，溫度、濕度、空氣流動情況是人們需要的X，而生產季節(jié)就是Z。

人們預報鋼水溫度時，采用了一個經驗做法：如果盛放鋼水的鋼包是第一次使用，則鋼水溫度降低5度。真正的原因是：鋼包第一次盛放鋼水時，鋼包壁是比較冷的，鋼水溫度降低得更快。但是，人們容易得到使用次數的參數，卻不容易得到鋼包壁溫度相關的參數。

變量的選取是非常重要的。變量的選擇不同，最終的模型就不一樣。其中，一個重要的差別是：模型的精度和適用范圍不一樣。對科學理論模型來說，模型的精度高往往意味著適用范圍大，而現實的模型則不一定。從這種意義上說，模型精度未必是是越高越好。

工業(yè)企業(yè)追求穩(wěn)定，而模型往往用來應對不穩(wěn)定的工況。工況穩(wěn)定的時候，參數波動的范圍往往較小，簡單的線性模型往往就可以奏效。復雜模型往往用于不穩(wěn)定的場合。用于不穩(wěn)定的場合時，對模型適用范圍的要求就會比較大。

有些人開發(fā)的模型精度比較高，卻不能得到生產廠的認可。背后的原因是：模型在生產穩(wěn)定的時候精度很高，在生產不穩(wěn)定的時候精度較低。由于多數時間的生產是穩(wěn)定的，模型的平均精度往往較高。但是，生產穩(wěn)定的時候，工人對模型沒有需求；工人對模型有需求的時候，往往是生產不穩(wěn)定的時候。

模型精度和適用范圍的矛盾，是建模時最常見的問題之一。

工業(yè)大數據時代的機會
大數據時代的重要機會，就是可以用簡單的方法建立好的模型。

從A地到B地時，要找到一條速度最快的路徑。理論上講，建立相關模型時需要給出許多參數，如距離、行駛速度等。而行駛速度，受到各種不確定因素的影響。在大數據的背景下，這個問題就容易解決了：看看其他人怎么走的、花了多少時間。找到合適的走法，按照他們的路子走就是了。為了提高精度，還可以根據日期、時段和道路事情情況做些修正。

事實上，工業(yè)大數據的方法，早已出現在前人的實踐中。這類方法的基本思路就是：找一個類似的做法，在此基礎上進行修訂。

鋼水冶煉前，需要給出合適的工藝參數。計算過程涉及到很多參數，不容易算對。解決這個問題的思路：先從歷史數據中找類似的成功案例。以此為基礎，根據案例爐與本爐次的參數差異進行修正。

熱軋帶鋼軋制結束后，需要確定冷卻水閥門的打開組數，以便冷卻到特定的目標溫度。在冷卻過程中，冷卻速度受鋼種、厚度、起始溫度、冷卻目標溫度、冷卻水溫度等多個因素的影響，純粹的機理模型很難準確計算。解決問題的辦法是對帶鋼進行分組，在每個分組內確定一組與冷卻速度有關的參數。在此基礎上，對具體帶鋼參數進行變換、得到對于的冷卻制度，并根據實測結果對參數進行修訂。在某些鋼鐵企業(yè)，響應的分組有幾萬個。

我們注意到：上述方法其實解決了模型的應用范圍大和精度要求高之間的矛盾。外表上看，模型適合于各種產品、應用范圍很大。在這個范圍內，模型本質上可能是非線性關系。但是，通過尋找類似的案例，就自然地回避了非線性問題。而歷史的案例，本質上是實踐積累的結果。具體地看，非線性模型本質上是由若干個小模型組成的，每個模型的應用范圍很小。這樣，就可以在每一個小的范圍內設法提高模型的精度。在這個小的范圍內，參數的影響往往可以用線性模型或者廣義線性模型近似。在范圍足夠小的時候，人們就可以采用反饋調節(jié)等手段，進一步提升模型的精度。

我們曾經提到：工業(yè)對象復雜、對精度要求高的時候，知識往往來自于實踐。上述辦法本質上就是把實踐中行之有效的做法記下來，用于指導下次的實踐。從本質上講，這種辦法與PDCA持續(xù)改進的思想是一致的。但這種持續(xù)改進是由計算機自動完成的。

對從事算法研究的人來講，上面的思想其實并不新穎。所謂近鄰方法、CBR方法、模式識別、R2R等方法，基本上就是這個思路。但是，在過去數據基礎有限的條件下，這些方法不一定能用好。比如，人們可能找不到相同或者類似的案例。

在筆者看來，工業(yè)大數據的根本優(yōu)勢是數據的質量好。質量好的一個方面，就是數據分布范圍大，覆蓋了各種可能發(fā)生的情況。這就是所謂“ 樣本等于全體”。在這樣的前提下，就總能從歷史上找到類似的案例。所以，大數據的本質優(yōu)勢是數據來源全面，而不是數量多到什么程度。如果數據存儲得足夠久、場景存儲得足夠多，新問題就會越來越少，這類方法就容易走向實用了。

以設備故障診斷為例。針對單臺設備研究問題時，故障樣本就少，甚至每次都不一樣。但是，如果把成千上萬臺設備的信息收集起來，情況就不一樣了：每次出現問題，都容易在歷史數據庫中找到類似的案例。這時，人們研究的重點，往往是如何利用理論的指導，更加準確地尋找類似案例、更加準確地修正。

“戒煙最容易了：我都戒過100多次了”。

從事數據建模工作時，往往就會遇到這樣的問題：用一批數據建立數學模型，結果非常理想。但不久以后，精度卻很快降低下去、無法繼續(xù)使用。所以，許多結果很好的學術論文，在現實中卻是沒有用的。為什么會出現這樣的問題呢？

有個小朋友說：穿紅裙子的人是我的媽媽。在特定的時間、特定的地點，小朋友的話是正確的。但如果換了一個場景、換一個日子，這個判別標準可能就錯了：媽媽可能不穿紅裙子了，穿紅裙子的女士也可能有很多個。

數據建模的失效常常也是類似原因導致的：當場景變化時，模型很容易失效。要解決這樣的問題，必須綜合運用多個方面的特征。
許多人臉識別算法非常成功。有的算法在人臉上找到了一百多個特征。識別時綜合考慮這些特征，就不容易出錯了。有些罪犯過了幾十年、相貌發(fā)生了很大變化，機器仍然能識別出來。

在大數據時代，數據的完整性很好。人們有可能找到若干獨立的特征進行綜合。這樣，模型識別的準確率就大大提高了。

第四范式與科學規(guī)律發(fā)現
自然科學規(guī)律本質上也是用數學模型描述的。自然科學規(guī)律的特點是：模型精度高、適用范圍大。我們前面曾經提到，經典科學原理往往有個特點：變量的數目非常少。這背后有個重要的原因：

科學結論都是需要經過嚴格檢驗和論證的。按照科學哲學的觀點，科學理論的基本特征是可證偽性。所謂的可證偽性，就是理論上存在一種驗證辦法，如果驗證結果與理論不符，就可以證明理論是錯的。如果一個理論涉及到的因素少，就容易證偽。

復雜問題的影響因素多，不容易嚴格論證。例如，新藥的開發(fā)困難，就與此有關。在大數據時代，這類問題可能得到改變。圖靈獎得主吉姆·格雷(Jim Gray)將科學研究分為四類范式(Paradigm)即實驗歸納，模型推演，仿真模擬和數據密集型科學發(fā)現。其中，最后一種就是通過大數據發(fā)現科學知識。

理論上講，許多工業(yè)過程都可以用科學公式來描述。但現實的影響因素太多?；?、冶金等行業(yè)的一種典型的現象是：在同一個生產過程中同時存在著幾十種化學反應。每個化學反應都可以用簡單的化學反應方程來描述。但反應之間互相影響，許多參數會動態(tài)變化、無法準確確定，整體的化學反應過程就很難準確描述。

鋼鐵材料中的很多物理和化學變化是在固體中進行的、反應過程不充分、不徹底。故而導致產品質量與工藝過程密切相關。鋼鐵產品的力學性能是多種元素的含量和工藝參數綜合影響的結果。力學性能與影響因素都是可以測量的物理量，而成分和工藝可以決定性能。理論上講，存在一個科學的公式來描述性能與成分、工藝的關系。

對于這樣的情況，傳統(tǒng)的辦法很難建立準確的模型。除了問題本身復雜外，一個重要的原因就是許多干擾是不可見的。這就會對模型的驗證帶來巨大的困難。

在大數據的背景下，為解決這類困難提供了可能。一個重要的原因是：當數據量足夠大的時候，隨機干擾是可以通過平均的方法濾除的。這相當于數據的精度可以大大提高。同時，大數據還可能為人們提供較好的樣本分布，有助于復雜問題的解耦，即把復雜的、變量多的模型簡化成若干變量數目少的簡單模型。模型簡單以后，也便于科學地驗證。

模型簡化的過程，其實是一個猜測和排除的過程。這一點和傳統(tǒng)的科學研究非常類似。是一個循環(huán)往復、不斷深入的過程，需要不斷地進行定性判斷和定量的估計。在這個過程中，科學知識和數據中反映出來的現象可以共同起作用。人的經驗也是非常重要的：優(yōu)秀的專家往往“猜得準”，能夠提高研究的效率和成功率。

需要特別指出的是：這樣的研究并不能保證成功。成功的必要條件是數據本身決定的。一定數量的科學實驗和仿真研究也是必要的。

作者：郭朝暉(工學博士，教授級高工。企業(yè)研發(fā)一線工作20年；優(yōu)也科技信息公司首席科學家；東北大學、上海交大等多所院校兼職教授。國內知名智庫、走向智能研究院的發(fā)起人之一。原寶鋼研究院首席研究員)

上一篇：工業(yè)大數據時代的數據質量和數據可追溯性

下一篇：從工業(yè)4.0的三個維度理解工業(yè)互聯網