Performance per dollar, bar za ovo sto trcim, je i dalje prilicno na strani NVIDIA-e.
GTX970, sa sve tom potencijalnom kvakom sa sporijih 0.5 GB VRAM-a, trci kod 30% brze od GK110 Titan-a (kompletan VRAM je zazuet u testu).
To je cini 6.5x brzom od Xeon Phi 31S1P-a - a sama kartica je oko 2.5x skuplja. Cak i ako u kalkulaciju ubacimo da Xeon Phi 31S1P ima 2x vise RAM-a i da to direktno ubacimo u kalkulaciju kao 2x, opet je GTX970 performance-per-dollar bolji.
Naravno, ovo je samo u slucaju jednog problema, vasi problemi mogu imati drugacije rezultate. Takodje, Xeon Phi ima ECC memoriju (za sta je u slucaju NVIDIA-e neophodno kupiti Tesla akceleratore koji su drasticno skuplje), kome je ECC neophodan onda je Xeon Phi 31S1P trenutno najisplativije resenje, ako i dalje mozete da se dokopate kartice sa popustom.
Ne treba gubiti iz vida i da je moj kod je vec raspisan u CUDA-i - neko ko pocinje od nule, tj. od cistog C/C++ koda, moze doci do drugacije racunice, posto Xeon Phi, bar na papiru, omogucava lakse (brze) portovanje koda. Ali tu ne treba gubiti iz vida da to nije za dzabe: tacno je da je sa Phi-jem lakse doci do koda koji radi na samom akceleratoru, zato sto je u pitanju x86 kompatibilna arhitektura, ali takav kod nece biti optimalan.
Realno, ako je cilj iskoristiti hardver maksimalno, i u slucaju NVIDIA-e i Intel-a je neophodno raspisati kod koji je specificno optimizovan za arhitekturu.
--
Videcemo kako ce se odvijati ova trka - Knights Landing Xeon Phi ce preci na Atom OoO jezgra i efikasniju arhitekturu, sto ce sigurno Intel-u povecati performanse bar 3-4 puta, ako ne i vise. Medjutim, ni NVIDIA ne sedi skrstenih ruku: imali su vec head-start sa Kepler-om, a Maxwell je solidno efikasniji.
Takodje, AMD ce u sledecih par nedelja izbaciti prve kartice sa stacked-RAM-om, koji ce imati nekoliko puta veci bandwdith od GDDR5. NVIDIA ce izbaciti svoje stacked-RAM akceleratore sa Pascal arhitekturom.
Mislim da cemo u sledecih par godina imati velika unapredjenja u performansama: od stacked RAM-a koji ce konacno omoguciti TB/s performanse na akceleratoru, pa sve do eliminacije PCI Express bus-a kao interconnect-a, koji ce biti zamenjen drasticno brzim bus-evima.
Vec je sada izvesno da ce se unapredjenja u procesima fabrikacije usporiti - i verovatno ce svi veliki silicon vendori (Intel, TSMC, GlobalFoundries) u sledecih par godina, po prvi put, doci u situaciju da sledece generacije procesa fabrikacije ne donose ustedu u troskovima po tranzistoru. Ovo ce ih prisiliti da pribegnu novim nacinima optimizacije i inovacije, kao sto su prelazak na nove materijale i 3D "zidanje".
DigiCortex (ex. SpikeFun) - Cortical Neural Network Simulator:
http://www.digicortex.net/node/1 Videos:
http://www.digicortex.net/node/17 Gallery:
http://www.digicortex.net/node/25
PowerMonkey - Redyce CPU Power Waste and gain performance! -
https://github.com/psyq321/PowerMonkey