Linux基礎(chǔ)教程之cluster集群全講解
??Linux cluster集群
Linux cluster(集群):
cluster:計(jì)算機(jī)組合,為解決某個(gè)特定問題組合起來形成的單個(gè)系統(tǒng);
Linux Cluster類型:
???LB:Load Balancing,負(fù)載均衡;
???HA:High Availiablity,高可用;
???A=MTBF(平均無故障時(shí)長(zhǎng))/(MTBF+MTTR(平均修復(fù)時(shí)間))
(0,1):90%, 95%, 99%, 99.5%, ?99.9%, 99.99%, 99.999%
???????A=(0<=1)
???HP:High Performance,高性能;
全球計(jì)算機(jī)性能評(píng)測(cè)網(wǎng)站:www.top500.org??
系統(tǒng)擴(kuò)展方式:
Scale UP:向上擴(kuò)展
Scale Out:向外擴(kuò)展Cluster集群
LB Cluster負(fù)載均衡集群:
???LB Cluster的實(shí)現(xiàn):
?硬件:
???F5 Big-IP
???Citrix Netscaler
???A10 A10
??軟件:
lvs:Linux Virtual Server
nginx
haproxy
ats:apache traffic server
perlbal
pound
基于工作的協(xié)議層次劃分:
???傳輸層(通用):(DPORT)主要根據(jù)目標(biāo)端口進(jìn)行轉(zhuǎn)發(fā);
lvs:主要工作在傳輸層調(diào)度;
nginx:(stream)模擬傳輸層調(diào)度;
haproxy:(mode tcp)模擬傳輸層調(diào)度;
應(yīng)用層(專用):(自定義的請(qǐng)求模型分類)
proxy server:
???http:nginx, httpd, haproxy(mode http), …
???fastcgi:nginx, httpd, …
???mysql:mysql-proxy, …
…
????站點(diǎn)指標(biāo):
PV:Page View?頁(yè)面入口的瀏覽量;
UV:Unique Vistor?獨(dú)立的訪問者;
IP:訪問網(wǎng)站時(shí)使用的外網(wǎng)地址;
會(huì)話保持:
???(1) session sticky:會(huì)話粘性;
Source IP
Cookie?追蹤用戶身份;
???(2) session replication;
session cluster
???(3) session server
??主從復(fù)制集群;
lvs:Linux Virtual Server
VS: Virtual Server
RS: Real Server
lvs在不適用的場(chǎng)合使用會(huì)帶來的麻煩:
??lvs太原生態(tài),使得很多輔助性的工具可控性極低,因?yàn)樗皇菫榱苏{(diào)度而生。
??lvs不適用小型站點(diǎn)。
lvs:四層路由器,四層交換機(jī);
VS:根據(jù)請(qǐng)求報(bào)文的目標(biāo)IP和目標(biāo)協(xié)議及端口將其調(diào)度轉(zhuǎn)發(fā)至某RealServer,根據(jù)調(diào)度算法來挑選RS;
iptables/netfilter:
iptables:用戶空間的管理工具;
netfilter:內(nèi)核空間上的框架;
流入:PREROUTING –> INPUT
流出:OUTPUT –> POSTROUTING
轉(zhuǎn)發(fā):PREROUTING –> FORWARD –> POSTROUTING
DNAT:目標(biāo)地址轉(zhuǎn)換;?PREROUTING;
lvs: ipvsadm/ipvs
ipvsadm:用戶空間的命令行工具,規(guī)則管理器,用于管理集群服務(wù)及RealServer;
ipvs:工作于內(nèi)核空間的netfilter的INPUT鉤子之上的框架;
注意:一般不建議在lvs調(diào)度服務(wù)器上做太多的iptables過濾規(guī)則。
lvs集群類型中的術(shù)語:
vs:Virtual Server, Director, Dispatcher, Balancer
rs:Real Server, upstream server, backend server
CIP:Client IP, VIP: Virtual serve ip , DIP: Director IP,RIP: Real server IP
CIP <–> VIP == DIP <–> RIP
OS七層模型:
應(yīng)用層
表示層
會(huì)話層
傳輸層
網(wǎng)絡(luò)層
數(shù)據(jù)鏈路層
物理層
lvs集群的類型:
lvs-nat:修改請(qǐng)求報(bào)文的目標(biāo)IP;
lvs-dr:重新封裝新的MAC地址,默認(rèn)使用的類型;
lvs-tun:在原請(qǐng)求IP報(bào)文之外新加一個(gè)IP首部;
lvs-fullnat:修改請(qǐng)求報(bào)文的源和目標(biāo)IP;
lvs-nat:
多目標(biāo)IP的DNAT,通過將請(qǐng)求報(bào)文中的目標(biāo)地址和目標(biāo)端口修改為某挑出的RS的RIP和PORT實(shí)現(xiàn)轉(zhuǎn)發(fā);
(1)RIP和DIP必須在同一個(gè)IP網(wǎng)絡(luò),且應(yīng)該使用私網(wǎng)地址;RS的網(wǎng)關(guān)要指向DIP;
(2)請(qǐng)求報(bào)文和響應(yīng)報(bào)文都必須經(jīng)由Director轉(zhuǎn)發(fā);Director易于成為系統(tǒng)瓶頸;
(3)支持端口映射,可修改請(qǐng)求報(bào)文的目標(biāo)PORT;
(4)vs必須是Linux系統(tǒng),rs可以是任意系統(tǒng);
lvs-dr:
???Direct Routing,直接路由;
???通過為請(qǐng)求報(bào)文重新封裝一個(gè)MAC首部進(jìn)行轉(zhuǎn)發(fā),源MAC是DIP所在的接口的MAC,目標(biāo)MAC是某挑選出的RS的RIP所在接口的MAC地址;源IP/PORT,以及目標(biāo)IP/PORT均保持不變;
???Director和各RS都得配置使用VIP;
(1)?確保前端路由器將目標(biāo)IP為VIP的請(qǐng)求報(bào)文發(fā)往Director:
(a)?在前端網(wǎng)關(guān)做靜態(tài)綁定,此種方案不可行;
(b)?在RS上使用arptables;
????(c)?在RS上修改內(nèi)核參數(shù)以限制arp通告及應(yīng)答級(jí)別;
arp_announce
arp_ignore
(2) RS的RIP可以使用私網(wǎng)地址,也可以是公網(wǎng)地址;RIP與DIP在同一IP網(wǎng)絡(luò);RIP的網(wǎng)關(guān)不能指向DIP,以確保響應(yīng)報(bào)文不會(huì)經(jīng)由Director,在RS的lo別名網(wǎng)卡上配置vip地址;
(3) RS跟Director要在同一個(gè)物理網(wǎng)絡(luò);
(4)?請(qǐng)求報(bào)文要經(jīng)由Director,但響應(yīng)不能經(jīng)由Director,而是由RS直接發(fā)往Client;
(5)?不支持端口映射;
lvs-tun:
???轉(zhuǎn)發(fā)方式:不修改請(qǐng)求報(bào)文的IP首部(源IP為CIP,目標(biāo)IP為VIP),而在原IP報(bào)文之外再封裝一個(gè)IP首部(源IP是DIP,目標(biāo)IP是RIP),將報(bào)文發(fā)往挑選出的目標(biāo)RS;
(1)?DIP, VIP, RIP都應(yīng)該是公網(wǎng)地址;
(2) RS的網(wǎng)關(guān)不能,也不可能指向DIP,在RS的lo別名網(wǎng)卡上配置vip地址;
(3)?請(qǐng)求報(bào)文要經(jīng)由Director,但響應(yīng)不能經(jīng)由Director;
(4)?不支持端口映射;
(5) RS的OS得支持隧道功能;
客戶端請(qǐng)求:
?client—–CIP VIP——->director——–CIP VIP ?DIP RIP———realserver(在lo別名上配置vip);
服務(wù)器響應(yīng)請(qǐng)求:
?realserver——VIP CIP———client
????
lvs-fullnat:
通過同時(shí)修改請(qǐng)求報(bào)文的源IP地址和目標(biāo)IP地址進(jìn)行轉(zhuǎn)發(fā);
CIP –> DIP
VIP –> RIP
(1) VIP是公網(wǎng)地址,RIP和DIP是私網(wǎng)地址,且通常不在同一IP網(wǎng)絡(luò);因此,RIP的網(wǎng)關(guān)一般不會(huì)指向DIP;
(2) RS收到的請(qǐng)求報(bào)文源地址是DIP,因此,只需響應(yīng)給DIP;但Director還要將其發(fā)往Client;
(3)?請(qǐng)求和響應(yīng)報(bào)文都經(jīng)由Director;
(4)?支持端口映射;
??注意:lvs-fullnat型lvs默認(rèn)不支持;
ipvs scheduler(調(diào)度):
根據(jù)其調(diào)度時(shí)是否考慮各RS當(dāng)前的負(fù)載狀態(tài),可分為靜態(tài)方法和動(dòng)態(tài)方法兩種:
靜態(tài)方法:僅根據(jù)算法本身進(jìn)行調(diào)度;
RR:roundrobin,輪詢;
WRR:Weighted RR,加權(quán)輪詢;
SH:Source Hashing,實(shí)現(xiàn)session sticy,源IP地址hash;將來自于同一個(gè)IP地址的請(qǐng)求始終發(fā)往第一次挑中的RS,從而實(shí)現(xiàn)會(huì)話綁定;
????DH:Destination Hashing;目標(biāo)地址哈希,將發(fā)往同一個(gè)目標(biāo)地址的請(qǐng)求始終轉(zhuǎn)發(fā)至第一次挑中的RS;
動(dòng)態(tài)方法:主要根據(jù)每RS當(dāng)前的負(fù)載狀態(tài)及調(diào)度算法進(jìn)行調(diào)度;
Overhead=
LC:least connections
Overhead=activeconns*256+inactiveconns
WLC:Weighted LC
Overhead=(activeconns*256+inactiveconns)/weight
SED:Shortest Expection Delay
Overhead=(activeconns+1)*256/weight
NQ:Never Queue
LBLC:Locality-Based LC,動(dòng)態(tài)的DH算法;
LBLCR:LBLC with Replication,帶復(fù)制功能的LBLC;
?
ipvsadm/ipvs:
ipvs:
??~]# grep -i -C 10 “ipvs” /boot/config-3.10.0-327.el7.x86_64
??支持的協(xié)議:TCP,?UDP,?AH,?ESP,?AH_ESP, SCTP;
ipvs集群:
集群服務(wù)
服務(wù)上的RS
ipvsadm命令:
ipvsadm -A|E -t|u|f service-address [-s scheduler] [-p [timeout]] [-M netmask] [–pe persistence_engine] [-b sched-flags]
ipvsadm -D -t|u|f service-address
ipvsadm -C
ipvsadm -R
ipvsadm -S [-n]
ipvsadm -a|e -t|u|f service-address -r server-address [options]
ipvsadm -d -t|u|f service-address -r server-address
ipvsadm -L|l [options]
ipvsadm -Z [-t|u|f service-address]
?管理集群服務(wù):增、改、刪;
增、改:
ipvsadm -A|E -t|u|f service-address [-s scheduler] [-p [timeout]]
刪:
ipvsadm -D -t|u|f service-address
service-address:
-t|u|f:
-t: TCP協(xié)議的端口,VIP:TCP_PORT
-u: TCP協(xié)議的端口,VIP:UDP_PORT
-f:firewall MARK,是一個(gè)數(shù)字;
[-s scheduler]:指定集群的調(diào)度算法,默認(rèn)為wlc;
管理集群上的RS:增、改、刪;
增、改:
???ipvsadm -a|e -t|u|f service-address -r server-address [-g|i|m] [-w weight]
?刪:
ipvsadm -d -t|u|f service-address -r server-address
server-address:
rip[:port]
選項(xiàng):
lvs類型:
-g: gateway, dr類型
-i: ipip, tun類型
-m: masquerade, nat類型
-w weight:權(quán)重;
清空定義的所有內(nèi)容:
ipvsadm -C
查看:
ipvsadm -L|l [options]
?–numeric, -n:numeric output of addresses and ports
?–exact:expand numbers (display exact values)
?–connection,?-c:output of current IPVS connections
?–stats:output of statistics information
–rate?:output of rate information
保存和重載:
ipvsadm -S = ipvsadm-save
ipvsadm -R = ipvsadm-restore
實(shí)驗(yàn)測(cè)試lvs集群:
??實(shí)驗(yàn)環(huán)境:準(zhǔn)備4臺(tái)虛擬機(jī),配置一個(gè)lvs-nat的lvs集群;
???client客戶機(jī)IP為192.168.3.7
???director調(diào)度服務(wù)器準(zhǔn)備兩塊網(wǎng)卡,network 1?(vip):192.168.3.5 ?network 2(Dip)?:192.168.22.1
???realserver1 httpd服務(wù)器rip為192.168.22.2 gateway:192.168.22.1
????????在realserver1 httpd配置訪問主頁(yè)realserver 1
???realserver2 httpd服務(wù)器rip為192.168.22.3gateway:192.168.22.1
????????在realserver2 httpd配置訪問主頁(yè)realserver 2
?1)以上實(shí)驗(yàn)測(cè)試環(huán)境準(zhǔn)備好之后,我們就可以配置lvs director調(diào)度服務(wù)器了。
在director調(diào)度服務(wù)器上開啟路由轉(zhuǎn)發(fā)功能;
2)在director調(diào)度服務(wù)器上配置調(diào)度服務(wù),使用rr輪循調(diào)配:
3)測(cè)試lvs的rr輪循功能:
4)修改director調(diào)度服務(wù)器調(diào)度方式為wrr加權(quán)輪循:
5)測(cè)試lvs的wrr加權(quán)輪循功能:
6)修改director調(diào)度服務(wù)器調(diào)度方式為SH源地址哈希:
7)測(cè)試lvs的SH源地址哈希功能,將客戶端IP第一次訪問的realserver始終綁定在固定的第一次訪問的realserver上。
負(fù)載均衡集群的設(shè)計(jì)要點(diǎn):
(1)?是否需要會(huì)話保持;
(2)?是否需要共享存儲(chǔ);
共享存儲(chǔ):NAS,?SAN,?DS(分布式存儲(chǔ))
數(shù)據(jù)同步:
課外作業(yè):rsync+inotify實(shí)現(xiàn)數(shù)據(jù)同步,一般不建議使用。
lvs-nat:
???設(shè)計(jì)要點(diǎn):
(1) RIP與DIP在同一IP網(wǎng)絡(luò), RIP的網(wǎng)關(guān)要指向DIP;
(2)?支持端口映射;
實(shí)踐作業(yè)(博客):負(fù)載均衡一個(gè)php應(yīng)用;
測(cè)試:(1)?是否需要會(huì)話保持;(2)?是否需要共享存儲(chǔ);
lvs-dr:
???dr模型中,各主機(jī)上均需要配置VIP,解決地址沖突的方式有三種:
?(1)?在前端網(wǎng)關(guān)做靜態(tài)綁定;不可用;
?(2)?在各RS使用arptables;比較麻煩;
?(3)?在各RS修改內(nèi)核參數(shù),來限制arp響應(yīng)和通告的級(jí)別;可行;
限制響應(yīng)級(jí)別:arp_ignore(響應(yīng))
0:默認(rèn)值,表示可使用本地任意接口上配置的任意地址進(jìn)行響應(yīng);
1:?僅在請(qǐng)求的目標(biāo)IP配置在本地主機(jī)的接收到請(qǐng)求報(bào)文接口上時(shí),才給予響應(yīng);
限制通告級(jí)別:arp_announce(通告)
0:默認(rèn)值,把本機(jī)上的所有接口的所有信息向每個(gè)接口上的網(wǎng)絡(luò)進(jìn)行通告;
1:盡量避免向非直接連接網(wǎng)絡(luò)進(jìn)行通告;
2:必須避免向非本網(wǎng)絡(luò)通告;
實(shí)驗(yàn)測(cè)試lvs集群:
??實(shí)驗(yàn)環(huán)境:準(zhǔn)備4臺(tái)虛擬機(jī),配置一個(gè)lvs-nat的lvs集群;
實(shí)驗(yàn)測(cè)試lvs集群:
??實(shí)驗(yàn)環(huán)境:準(zhǔn)備4臺(tái)虛擬機(jī),配置一個(gè)lvs-dr的lvs集群;
??client客戶機(jī)IP為:192.168.3.7;
??director調(diào)度服務(wù)器配置一塊網(wǎng)卡,在eno16777736上配置dip:192.168.3.5,在eno16777736:0別名上配置vip:192.168.3.6
??realserver1 httpd服務(wù)器rip為192.168.3.2,在lo網(wǎng)卡上配置別名vip:192.168.3.6,配置arp_ignore=1 ,arp_announce=2
?????realserver2 httpd服務(wù)器rip為192.168.3.8,在lo網(wǎng)卡上配置別名vip:192.168.3.6,配置arp_ignore=1 ,arp_announce=2
??1)在director調(diào)度服務(wù)器上配置eno16777736:0別名上配置vip:192.168.3.6:
? 2)在realserver1 lo網(wǎng)卡別名上配置VIP:192.168.3.6,配置arp_ignore=1 ,arp_announce=2配置網(wǎng)頁(yè)為<h>realserver1</h>為了方便配置,簡(jiǎn)化重復(fù)操作,提高效率我們可以編寫腳本setlvs.sh
3)在realserver2上同樣執(zhí)行setlvs.sh腳本文件,配置vip在lo網(wǎng)卡別名上,配置arp_ignore=1 ,arp_announce=2,配置網(wǎng)頁(yè)為:<h>realserver2</h>
4)配置director調(diào)度服務(wù)器為wrr加權(quán)輪循,lvs類型為lvs-dr:
?
5)測(cè)試lvs-dr加權(quán)輪循:
FWM:FireWall Mark?(防火墻標(biāo)記)
借助于防火墻標(biāo)記來分類報(bào)文,而后基于標(biāo)記定義集群服務(wù);可將多個(gè)不同的應(yīng)用使用同一個(gè)集群服務(wù)進(jìn)行調(diào)度;
????打標(biāo)記方法(在Director主機(jī)):
???# iptables -t mangle -A PREROUTING -d $vip -p $proto –dport $port -j MARK –set-mark NUMBER
基于標(biāo)記定義集群服務(wù):
???# ipvsadm -A -f NUMBER [options]
lvs persistence:持久連接
??持久連接模板:實(shí)現(xiàn)無論使用任何算法,在一段時(shí)間內(nèi),實(shí)現(xiàn)將來自同一個(gè)地址的請(qǐng)求始終發(fā)往同一個(gè)RS;
??ipvsadm -A|E -t|u|f service-address [-s scheduler] [-p [timeout]]
??port Affinity:
每端口持久:每集群服務(wù)單獨(dú)定義,并定義其持久性;
每防火墻標(biāo)記持久:基于防火墻標(biāo)記定義持久的集群服務(wù);可實(shí)現(xiàn)將多個(gè)端口上的應(yīng)用統(tǒng)一調(diào)度,即所謂的port Affinity;
每客戶端持久:基于0端口定義集群服務(wù),即將客戶端對(duì)所有應(yīng)用的請(qǐng)求統(tǒng)統(tǒng)調(diào)度至后端主機(jī),而且必須使用持久連接進(jìn)行綁定;
保存及重載規(guī)則:
保存:建議保存至/etc/sysconfig/ipvsadm
ipvsadm-save > /PATH/TO/IPVSADM_FILE
ipvsadm -S > /PATH/TO/IPVSADM_FILE
systemctl stop ipvsadm.service
重載:
ipvsadm-restore < /PATH/FROM/IPVSADM_FILE
ipvsadm -R < /PATH/FROM/IPVSADM_FILE
systemctl restart ipvsadm.service
考慮:
(1) Director不可用,整個(gè)系統(tǒng)將不可用;SPoF
解決方案:高可用
keepalived
heartbeat/corosync
(2)?某RS不可用時(shí),Director依然會(huì)調(diào)度請(qǐng)求至此RS;
解決方案:對(duì)各RS的健康狀態(tài)做檢查,失敗時(shí)禁用,成功時(shí)啟用;
keepalived
heartbeat/corosync, ldirectord
檢測(cè)方式:
(a)?網(wǎng)絡(luò)層檢測(cè);
(b)?傳輸層檢測(cè),端口探測(cè);
(c)?應(yīng)用層檢測(cè),請(qǐng)求某關(guān)鍵資源;
ok –> failure
failure –> ok
實(shí)驗(yàn)測(cè)試:
?搭建lvs-dr類型的MySQL集群做防火墻標(biāo)記:
?client?客戶機(jī)IP:192.168.3.7;
?director調(diào)度服務(wù)器配置一塊網(wǎng)卡,在eno16777736上配置dip:192.168.3.5,在eno16777736:0別名上配置vip:192.168.3.6
realserver1 mysql服務(wù)器rip為192.168.3.2,在lo網(wǎng)卡上配置別名vip:192.168.3.6,配置arp_ignore=1 ,arp_announce=2
?????realserver2 mysql服務(wù)器rip為192.168.3.8,在lo網(wǎng)卡上配置別名vip:192.168.3.6,配置arp_ignore=1 ,arp_announce=2,創(chuàng)建一個(gè)數(shù)據(jù)庫(kù)mydb以表示和realserver的區(qū)別;
我們就延用以上lvs-dr httpd實(shí)驗(yàn)的配置:
1)在realserver1?服務(wù)器上安裝數(shù)據(jù)庫(kù),授權(quán)一個(gè)test用戶可以遠(yuǎn)程登錄:
2)在realserver2服務(wù)器上安裝數(shù)據(jù)庫(kù),授權(quán)一個(gè)test用戶可以遠(yuǎn)程登錄并創(chuàng)建一個(gè)mydb的數(shù)據(jù)庫(kù):
創(chuàng)建mydb數(shù)據(jù)庫(kù):
3)配置director調(diào)度服務(wù)器,添加3306端口的調(diào)度和80端口的調(diào)度:
4)測(cè)試MySQL的lvs-dr類型的調(diào)度:
5)測(cè)試httpd的lvs-dr類型的調(diào)度:
由此可以看出MySQL和httpd是分別進(jìn)行調(diào)度的。
5)使用IPvsadm -C清除調(diào)度器上的調(diào)度規(guī)則。并配置防火墻規(guī)則進(jìn)行調(diào)度;
6)測(cè)試防火墻標(biāo)記調(diào)度:
使用ipvsadm -S?保存ipvsadm規(guī)則到/etc/sysconig/ipvsadm
????ipvsadm ?-S ?> /etc/sysconfig/ipvsadm
使用ipvsadm -R?重載ipvsadm規(guī)則
????ipvsadm -R ?< /etc/sysconfig/ipvsadm?