場景三 “ 慢動作 ” 的游戲
“ 老板,過去一周有 100 多個核心玩家說咱的游戲體驗不好,經常卡頓,沒法玩下去了。”
“ 什么 ?這可不行。小王,你告訴我到底是哪里出問題了?”
沒有 ThousandEyes 的情況下…
“ 我們不僅有自建數據中心,也已經盡力買了各個地方最好的 CDN 和公有云服務了,阿里云,Azure ,Google 云和 AWS 都上了。涉及這么多家,很難查啊?”
“ 那怎么辦?”
“ 要不我們再擴一擴帶寬?或者買IOPS更好的服務器資源?”
“ 那不是又要提高成本嘛 ”
“ 這也是沒有辦法的辦法…”
有 ThousandEyes 的情況下…
“ 老板等一下。ThousandsEyes 控制面板里說,海外玩家受到***供應商DNS故障的影響 ;國內南方城市的玩家受多處線路影響,估計跟洪水險情有關系。”
“ 有明確的故障信息嗎?”
“ 我們已經和這些服務商分享了 ThousandsEyes 提供的故障報告,正在電話聯系他們盡快處理。”
“ 要等多長時間?我們需要第一時間發(fā)布游戲服務的故障公告!”
五分鐘后……
“ 老板,這幾家供應商已郵件確認我們的故障反饋,可以發(fā)游戲公告了 ”
ThousandEyes 是如何做到的呢?
ThousandsEyes 的 Cloud Agent ( 預安裝的云上代理 ) 是可以在各運營商、公有云里預部署的診斷組件。ThousandsEyes目前已在全球部署了191個 IPv4 Cloud Agent、76 個 IPv6 Cloud Agent,與全球 Tier1/2/3 ISP 直接相連,比如國內的電信、聯通等。此外,全球微軟 Azure 云 25 個 Region、Google 云的 17 個 Region、AWS的15 個 Region、阿里云的 19 個 Region 上均部署了Cloud Agent。這些 Agent 數量、位置,還在持續(xù)增加(見下圖)。

如果您的企業(yè)對外提供服務,不管是基于私有云還是混合云部署,都可以在全球不同位置通過 Enterprise Agent 、 Cloud Agent ,監(jiān)控這些服務對于全球不同位置訪客的訪問體驗。
如果您的企業(yè)為員工購買第三方公有云服務,包括 SaaS 服務,可以基于 Endpoint Agent (安裝在 PC 機上的代理)監(jiān)控員工的訪問體驗,也可以基于 Enterprise Agent、Cloud Agent 監(jiān)控各自區(qū)域訪問這些服務的體驗 ;
可供配置的監(jiān)控任務多種多樣:
- 監(jiān)控 BGP ,幫助分析路由故障根因,檢查全路徑節(jié)點和線路質量,包括節(jié)點間多路徑情況。官網也有多個 Internet BGP 大網故障事件的監(jiān)控、分析報告,大家可以參考。
- 網絡監(jiān)控: Network 類型里可以監(jiān)控 Agent 到服務的情況,這在前面的事例里面已經看到效果;也可以監(jiān)控 Agent 到 Agent 的雙向情況,這允許您充分發(fā)揮想象力以實現多種多樣的監(jiān)控效果。
- DNS 監(jiān)控 :可以創(chuàng)建啟用所有 Agent 對 DNS 做豐富的檢測。
- Web 監(jiān)控:以在線購物為例,可以模擬賬戶登錄后的操作以實現對 Transaction ( 交易 ) 類型的監(jiān)控。
- 語音監(jiān)控:針對語音部分,也提供多種監(jiān)控方式,可以針對SIP Server、RTP 流、VOIP 呼叫,包括“ Skype for Business ”。
場景四 故障復盤愁死人
企業(yè) A 最近剛開始上 SD-WAN ,但吃不準廠商的解決方案是不是最優(yōu)的。
“小王啊,我們最近上了 SD-WAN 效果怎么樣啊?錢是省了,網絡速度降低的多不多?不知道是不是要換一家試試?”
沒有 ThousandEyes 的情況下
“ 感覺還可以,沒有明顯問題 ”
“ 什么叫感覺還可以?你有數據嘛?”
“我可以找個測試軟件找找時間切面上的速度情況…”
“ 那能有多準確??而且發(fā)現性能不好能定位故障嗎?”
有 ThousandEyes 的情況下…
“ 老板放心,準得很。ThousandsEyes 能同時看到底層網絡和 SD-WAN 的性能表現 。不僅能知其然,還能知其所以然。”
ThousandEyes 是如何做到的呢?
SD -WAN 是一個 “ 網絡上面創(chuàng)建網絡 ” 的場景, 前者是運營商的專線 /internet 線路等,后者是企業(yè)互聯各分支的“ 虛擬的網絡 ”,前者是底層 /underlay 而后者是虛擬隧道 /overlay,這樣復雜的網絡模型,ThousandEyes 是如何做到性能監(jiān)控的呢?
如下是一個真實的客戶案例 : 該客戶基于運營商 MPLS 的線路搭建企業(yè) SD-WAN 網絡。
此圖是基于不同類型 Agent 通過 ThousandEyes 平臺創(chuàng)建不同類型的 Test (測試):比如基于 Cloud 或 Enterprise Agent 測試 underlay MPLS 線路網絡質量、比如安裝在 SD-WAN 內的 Enterprise Agent 之間可以互測以便提供Overlay 虛擬通道的網絡質量和網絡吞吐 (比如分支與總部各部署一個 Agent ) ;


創(chuàng)建種類豐富的 Test (測試) 后,即可按需制作各種類型的Dashboard (監(jiān)控大屏),比如私有云服務、SaaS 應用服務、Web 服務、不同區(qū)域、網絡性能、不同運營商線路等等;這在 SD-WAN 整體運營中非常重要。

在該案例中,10 月 12~ 18號期間,芝加哥分支不管訪問哪一個 SaaS 服務,都出現持續(xù)高延時 ;

而芝加哥地區(qū)的運營商線路監(jiān)控顯示,AT & T線路存在高時延 :

點開路徑可視化即可發(fā)現此時的 AT & T與 Microsoft 的 Ingress節(jié)點之間 ( BGP Peering ) 可能出現了某類故障。整個路徑上,延遲超過 60 毫秒的為紅色 MPLS tunnel ,貢獻了 105 毫秒的高延時 ;

這就是從上到下的整體復盤能力,該案例中可以將運維畫面 ( 監(jiān)控畫面的網址 ) 分享給對應的服務商,快速定位故障點!

ThousandEyes 這一綜合運維的能力,幫助企業(yè)提供底層 Underlay、上層 SDWAN overlay 及企業(yè)應用的全面而可視化的綜合體驗,幫助企業(yè)IT提供全面可視化的精細運維提升企業(yè)生產力!
總結
ThousandEyes基于代理工作機制,通過Endpoint、Enterprise 、Cloud三大 Agent 類型,針對企業(yè)內外應用 ( 包括 SaaS 服務 ) 的多運營商全旅程,提供精細可視化健康監(jiān)控。
除了 ThousandsEyes 之外,思科圍繞 Application-First (關注應用為先)正在不斷推出適合多云環(huán)境的 AIOps 平臺,包括網絡、服務器、容器和應用;比如 ACI/NAE 針對多云網絡環(huán)境,比如 AppDynamics 針對多云應用自身,從應用支撐的產品交易運營到應用的代碼級排錯,還與思科多云網絡集成;再比如 Tetration 針對多云應用安全,顆粒度精細到每一個操作系統包括容器,提供給企業(yè)零信任安全架構。
通過全棧式 ( Fullstack ) 視角和架構產品,思科正在幫助企業(yè)不斷提升 AIOps 水平,形成真正的基于數據驅動的BizDevOps ( 業(yè)務/開發(fā)/運營 ) 閉環(huán)運營能力,努力幫助企業(yè)擁抱云計算時代,推進數字化轉型進程。