[haiku-sysadmin] Re: Infrastructure updates and next steps

  • From: "Alexander von Gluck IV" <kallisti5@xxxxxxxxxxx>
  • To: haiku-sysadmin@xxxxxxxxxxxxx, haiku-development@xxxxxxxxxxxxx
  • Date: Fri, 09 Nov 2018 15:32:28 +0000

November 7, 2018 1:34 PM, "Alexander von Gluck IV" <kallisti5@xxxxxxxxxxx> 
wrote:

Good afternoon,

A quick status update. We have the "basic" services running in a VM at 
scaleway at the moment while
we catch out breaths.

I've submitted a plan to the Inc. to "fix" the issues we've experienced this 
year.
One large issue we have had (not just this year) has been hosting 
"Everything" on a single big
server. This has given us a big price break, but historically we have had 
issues...

Good morning,

A quick status update here. The plans adjusted slightly based on costs, but we 
came to an
agreement and I'm currently working to get things configured and tested. The 
new server is
located in France (keeping our GDPR and EU patent protections) with online.net.

  1x bare metal compute node (dual 120GB SSD disks in a hardware raid)
  1x 1TiB SAN storage volume accessed over a private 1Gbps network via iscsi 
which is replicated to
     multiple datacenters.

While this isn't the original plan, it has a lot of added benefits:

 * The compute node doesn't hold "all of our data" on software raid volumes
   which means in the event of catastrophic loss, we can re-install, run an
   ansible script [1] and have it re-configured and ready to go live within an 
hour.
   (one big stumbling block was figuring out what to do with 900GB of data while
   we rebuilt the server + software raid arrays)

 * We now have a "real" instant access KVM which can be activated online within 
a
   few seconds. No human support intervention required.

 * We now have better options for growth without additional large investments in
   infrastructure labor. If Haiku takes off, and we need to bump up to a 
kubernetes cluster,
   or have active/passive, active/active infrastructure, we can order an 
additional server
   and they'll have a private 1Gbps network to communicate on.

 * Pricing at online.net is reasonable. It isn't GKE expensive, but isn't 
whitebox cheap.
   We're running on an HP ProLiant DL320e Gen8 v2

 * No CEPH cluster to manage.

So far, performance has been high.  I'm working through disk benchmarks at the 
moment 
to get some base numbers.

[1] https://github.com/haiku/infrastructure/blob/master/server/compute.yml

Thanks!

 -- Alex

Other related posts: