production deployment updates take an age

I filed a ticket with M247, hosting provider for the storage machines - https://portal.m247.ro/viewticket.php?tid=M247-35336982&c=DHk7lzA3

M247 closed the issue because I didn't answer their questions fast enough.

I did a production deployment today. Here's the network throughput graph from the monitoring system.

storage005 is the dark blue line that barely moves off of the x axis (and when it does, it's because I manually ran speedtest on the node which showed it talks to nearby okla servers at >800Mbps).

While storage005 is still finishing its deployment, on saxtons this observation:

Tue Mar 22 02:03:50 PM UTC 2022     2127050 segments retransmitted
Tue Mar 22 02:03:51 PM UTC 2022     2127053 segments retransmitted
Tue Mar 22 02:03:52 PM UTC 2022     2127065 segments retransmitted
Tue Mar 22 02:03:53 PM UTC 2022     2127066 segments retransmitted
Tue Mar 22 02:03:54 PM UTC 2022     2127077 segments retransmitted
Tue Mar 22 02:03:55 PM UTC 2022     2127078 segments retransmitted
Tue Mar 22 02:03:56 PM UTC 2022     2127079 segments retransmitted
Tue Mar 22 02:03:57 PM UTC 2022     2127081 segments retransmitted
Tue Mar 22 02:03:58 PM UTC 2022     2127087 segments retransmitted
Tue Mar 22 02:03:59 PM UTC 2022     2127093 segments retransmitted
Tue Mar 22 02:04:00 PM UTC 2022     2127095 segments retransmitted
Tue Mar 22 02:04:01 PM UTC 2022     2127097 segments retransmitted
Tue Mar 22 02:04:02 PM UTC 2022     2127103 segments retransmitted
Tue Mar 22 02:04:03 PM UTC 2022     2127110 segments retransmitted
Tue Mar 22 02:04:04 PM UTC 2022     2127114 segments retransmitted
Tue Mar 22 02:04:05 PM UTC 2022     2127119 segments retransmitted
Tue Mar 22 02:04:06 PM UTC 2022     2127120 segments retransmitted
Tue Mar 22 02:04:07 PM UTC 2022     2127122 segments retransmitted
Tue Mar 22 02:04:08 PM UTC 2022     2127127 segments retransmitted
Tue Mar 22 02:04:09 PM UTC 2022     2127132 segments retransmitted
Tue Mar 22 02:04:10 PM UTC 2022     2127136 segments retransmitted
Tue Mar 22 02:04:11 PM UTC 2022     2127141 segments retransmitted
Tue Mar 22 02:04:12 PM UTC 2022     2127142 segments retransmitted
Tue Mar 22 02:04:13 PM UTC 2022     2127147 segments retransmitted
Tue Mar 22 02:04:14 PM UTC 2022     2127151 segments retransmitted
Tue Mar 22 02:04:15 PM UTC 2022     2127156 segments retransmitted
Tue Mar 22 02:04:16 PM UTC 2022     2127162 segments retransmitted
Tue Mar 22 02:04:17 PM UTC 2022     2127164 segments retransmitted
Tue Mar 22 02:04:18 PM UTC 2022     2127168 segments retransmitted
Tue Mar 22 02:04:19 PM UTC 2022     2127173 segments retransmitted
Tue Mar 22 02:04:20 PM UTC 2022     2127175 segments retransmitted
Tue Mar 22 02:04:21 PM UTC 2022     2127180 segments retransmitted
Tue Mar 22 02:04:22 PM UTC 2022     2127183 segments retransmitted
Tue Mar 22 02:04:23 PM UTC 2022     2127183 segments retransmitted
Tue Mar 22 02:04:24 PM UTC 2022     2127184 segments retransmitted

https://serverfault.com/questions/318909/how-passively-monitor-for-tcp-packet-loss-linux has a lot of suggestions for metrics to monitor

Here's the throughput graph after the deployment failed when it hit the 1 hour timeout.

Just because I had it noted:

traceroute to storage002.private.storage (37.120.214.110), 30 hops max, 60 byte packets
 1  gi0-1-1-18.223.agr21.lax01.atlas.cogentco.com (66.28.3.81)  0.714 ms  0.697 ms
 2  be2585.ccr42.lax01.atlas.cogentco.com (154.54.29.185)  0.907 ms be2584.ccr41.lax01.atlas.cogentco.com (154.54.29.33)  0.771 ms
 3  be3243.ccr41.lax05.atlas.cogentco.com (154.54.27.118)  0.820 ms  0.865 ms
 4  38.104.85.170 (38.104.85.170)  0.777 ms  0.784 ms
 5  irb-0.agg1.lax1.us.m247.com (77.243.185.145)  9.224 ms irb-0.agg2.lax1.us.m247.com (83.97.21.63)  7.178 ms
 6  vlan2924.as14.lax1.us.m247.com (176.10.82.113)  66.608 ms  66.644 ms
 7  37.120.214.110 (37.120.214.110)  0.433 ms  0.421 ms

traceroute to storage003.private.storage (45.83.89.186), 30 hops max, 60 byte packets
 1  gi0-1-1-18.223.agr21.lax01.atlas.cogentco.com (66.28.3.81)  0.631 ms  0.641 ms
 2  be2584.ccr41.lax01.atlas.cogentco.com (154.54.29.33)  0.921 ms be2585.ccr42.lax01.atlas.cogentco.com (154.54.29.185)  0.827 ms
 3  be3359.ccr41.lax05.atlas.cogentco.com (154.54.3.70)  0.675 ms be3243.ccr41.lax05.atlas.cogentco.com (154.54.27.118)  0.957 ms
 4  38.104.85.170 (38.104.85.170)  0.682 ms  0.686 ms
 5  irb-0.agg1.lax1.us.m247.com (77.243.185.145)  25.007 ms irb-0.agg1.lax1.us.m247.com (82.102.29.33)  25.026 ms
 6  vlan2924.as14.lax1.us.m247.com (176.10.82.113)  0.801 ms  0.927 ms
 7  45.83.89.186 (45.83.89.186)  0.388 ms  0.372 ms

Probably only news worthy for me: storage002 and storage3 seem to be attached to the same router.

changed the description

production deployment updates take an age

Designs

Child items 0

Activity