【編者按】作為美國最大的婚戀交友網站之一的eHarmony通過性格測試來進行婚戀匹配,所有加入eHarmony的用戶,必須首先回答由心理學家精心設計的數百個問題,eHarmony借此了解用戶個性的數十個維度,并基于此給用戶介紹合適的交往對象。隨著OpenStack、Hadoop、Spark、Docker等技術的發展,公司CTO Thod Nguyen表示他們正在積極擁抱這些技術。
以下為譯文:
這計劃開始于2013年,預計在2015年底結束,Nguyen在最近的一次采訪中告訴我。eHarmony將現有以虛擬化為中心的數據中心轉變為私有云環境的一個很大原因是希望運行開源的OpenStack云軟件。這將給公司在擴展和配置基礎設施方面更大的靈活性,包括虛擬服務器和存儲,這些將強化其網站和移動App。
eHarmony的業務都安裝在思科的UCS刀片服務器上(服務器已經悄悄地成為思科數十億美元的業務),現在公司希望能將web服務器數量從目前的1000臺機器裁減到一半,他說,該公司還管理著約2000臺其他設備。
Cisco的刀片服務器
eHarmony以前也研究過Citrix系統支持的開源CloudStack技術,但Nguyen說OpenStack似乎可伸縮性更好。盡管OpenStack已經支持有很多大型IT公司支持,并且用戶也越來越多,但這不影響他們的評估。
“作為軟件定義存儲解決方案的一部分,它通過OpenStack Swift組件給你在共享存儲方面有更多的靈活性,”Nguyen補充道,“我們真正的終極目標是能夠以最小的運營成本來讓存儲規模指數增長。”
但是Nguyen表示,eHarmony專注于運營效率的新方案不會止步在OpenStack上,時下,該公司也在為簡化分布式應用程序的部署和管理考慮流行的Docker容器技術,并且在某些情況下它們也許“可以探索公有云解決方案”。eHarmony已經使用AWS來概念驗證和災難恢復,他補充說。
Nguyen說: “利用Docker的概念,我們在不需要投資DR數據中心的情況下,就可以很輕松的擁有一個DR解決方案運行在一個請求式公有云上,而投資DR數據中心對我們來說非常,非常昂貴。
Thod Nguyen
但eHarmony也收集并分析了大量的數據——Nguyen預計在未來幾年將達到PB級別,其先前運行在512 節點SeaMicro裝置上的Hadoop環境已經成為擴展和創新的一個障礙。每個工作負載需要它自己的集群,Nguyen解釋道,這意味著所有其他裝置都是這樣并且需要再次復制相同的數據。
轉移到運行YARN資源管理框架的單個集群上將給公司帶來很多益處。首先,它可以在同一組服務器上承載多重工作負載和流程框架,共享相同的文件系統。它還可以按需增加容量來水平擴展,而不是每次通過512個節點。
一個共享的Hadoop集群具有商業意義,Nguyen解釋道。eHarmony可以在更便捷和更少投入的前提下,啟動新的大數據應用程序,并且YARN意味著eHarmony可以開始著眼新技術,如加快機器學習工作負載的Spark和流處理的Storm。
雖然公司和大多數的交友網站一樣,最出名的是它的匹配算法,但Nguyen表示,更好的數據基礎設施也將給業務方面帶來更好的模型,包括諸如價格優化和用戶體驗。
Hortonworks YARN on Hadoop架構圖
“我們的目標是創建一個數據產品,能夠真正可以提供正確的功能,非常吸引客戶的正確特性集,他說。“我們應該在客戶提出要求之前,提供給他們想要的產品。”
eHarmony在技術上的改造,特別是在數據方面并不是巧合。實際上在過去一兩年,Spark、 Storm 和 Kafka技術開始達到臨界點,使其在交互地或實時分析數據以及定期對機器學習模型進行迭代更為可行。
“我認為大數據被炒作的過頭了“,Nguyen說。“許多人認為他們正在做大數據,但他們只是僅僅在存儲數據,他們實際上用數據作不了任何事。”
原文鏈接: Why eHarmony is rebuilding itself atop Hadoop and (probably) OpenStack (責編/魏偉)