：如今計算機系統承載的服務和算法邏輯日益復雜，理解、設計并改進計算機系統已成為核心挑戰。面對系統復雜度和規模的指數級增長，以及新的大模型驅動場景下的分布式系統形態的涌現，人們亟需創新方法與技術來應對。在計算機系統發展的新篇章里，現代系統應當是一個不斷自我進化的結果。機器學習和大模型的崛起使得現代計算機系統迎來了新的智能化機遇，即學習增強系統（learning-augmented systems）。微軟亞洲研究院創新地從兩個核心方向，來思考系統應如何不斷自我學習和自我進化：“模塊化”機器學習模型，與“系統化”大模型的推理思維。目標在于使得模型能夠對齊復雜多變的系統環境和需求，并且推理思維能夠對齊計算機系統時間和空間上的行為。相關論文 Autothrottle: A Practical Bi-Level Approach to Resource Management for SLO-Targeted Microservices 獲評 NSDI 2024 杰出論文獎。

隨著技術的不斷進步，計算機系統不僅承擔著人們生活中眾多服務的重任，還包含著許多復雜的算法邏輯。用戶需求的多樣化與場景的增加，也使得計算機系統的復雜性和規模持續增長。從搜索、購物、聊天到新聞推薦、串流媒體和人工智能服務，這些系統的復雜性不只是龐大的代碼量，更體現在背后成百上千工程師在設計、開發及維護上所付出的巨大工作量。與此同時，新類型的場景（比如大模型驅動?co-pilots?和?AI agents）也帶來了新興的分布式系統形態。如何理解、設計并作出改進成為了現代計算機系統的核心挑戰。然而，系統復雜度和規模的指數級增長，使得這些挑戰已經無法完全依賴人的直覺和經驗去解決。

幸運的是，計算機科學的技術更新迭代為計算機系統帶來了新的機遇。其中，學習增強系統（learning-augmented systems）正逐漸成為以智能化來重塑計算機系統的新趨勢。學習增強系統通常采用三種不同的實現路徑：一是通過機器學習技術來輔助增強現有計算機系統中啟發式算法和決策規則的性能；二是利用機器學習技術對啟發式算法和決策規則進行優化和重新設計；三是用機器學習模型取代原有的啟發式算法和決策規則，進而推動系統的全面智能化升級。

為此，微軟亞洲研究院的研究員們開展了一系列學習增強系統的工作。研究重點聚焦于兩個關鍵方面：第一，"模塊化"機器學習模型，與計算機系統行為進行對齊；第二，"系統化"大模型推理思維，賦予計算機系統自我進化的能力。

"模塊化"機器學習模型，與計算機系統行為對齊

機器學習擅長于從數據中提取規律和模式，并利用這些規律進行建模和數值優化，以驅動預測和決策過程。現代計算機系統普遍具有完善的行為和性能監測機制，因此可以作為模型訓練的數據來源。在以往的研究中（Metis [1]和 AutoSys [2]），研究員們曾探討過如何利用機器學習技術優化計算機系統中的系統參數。但實際經驗證明，構建學習增強系統不單單是應用現有的機器學習算法，它還面臨著現代計算機系統與機器學習協同設計的關鍵研究挑戰。

具體而言，由于現代計算機系統具有高度的規模性（例如，有著上百個分布式微服務的集群）和動態性（例如，集群里的微服務可以被獨立開發、部署和擴容），在未來，利用強大的模型來學習整個系統是否還能成為一個可持續的方法？當系統部署與環境發生變化（例如，系統擴容導致集群規模改變），機器學習模型對于任務之前的一些假設可能不再成立。因此，如果不重新訓練模型，模型驅動決策的正確性就會受到影響。但現代計算機系統的高動態性和高復雜度，又會使得機器學習在持續學習復雜任務上仍面臨著昂貴的數據采集和資源開銷成本。

"模塊化"是將機器學習融入計算機系統基礎的一大關鍵。雖然現代計算機系統具有高度的規模性和復雜度，但它們實際上是由多個子組件或服務組合而成，其動態性也就有規律可循。以一個由多個微服務組成的云系統為例，如果更新了其中的一個微服務，那么可能會影響到整個系統的端到端性能。但是，從系統架構上來看，這種更新只是更改了某個獨立服務的編碼配置。同理，系統的擴容，即系統里的某個服務被獨立復制并部署了多份，也是如此。因此，如果機器學習模型也只需要相應地修改變化部分，那相比于持續訓練整個模型，就將大大地減少學習增強系統的維護成本。

研究員們提出的利用模塊化學習模擬端到端系統延遲的框架 Fluxion [3]，是在學習增強系統中應用模塊化學習（modularized learning）的第一步。在預測微服務系統延遲的任務上，隨著個別服務的持續擴容和部署，Fluxion 顯著減低了延遲預測模型的維護成本。通過引入新的學習抽象，Fluxion 允許對單個系統子組件進行獨立建模，并且通過操作可將多個子組件的模型組合成一個推理圖。推理圖的輸出即為系統的端到端延遲。此外，推理圖可以動態地被調整，進而與計算機系統的實際部署進行對齊。這一做法與直接對整個系統進行端到端延遲建模的方法有顯著區別。相關論文 On Modular Learning of Distributed Systems for Predicting End-to-End Latency 發表于?NSDI 2023。

亚洲一区二区三区无吗_中文视频一区_yw.尤物在线精品视频_亚洲一区中文在线

以智能化為舵手，引領現代計算機系統架構新航向

"模塊化"機器學習模型，與計算機系統行為對齊

每日福利更多>>