Ano, ta poznámka na konec je správná - "pokud je SW správně napsán". Ono totiž sestrojit takový SW pro 99 % případů nelze. Ostatně proč myslíš, že drtívá většina aplikací má jen jedno zátěžové vlákno? A teď ti prozradím jednu maličkost - grafické karty jsou dnes 256bit SIMD procesory a jsou schopny dosahovat výkonu podobného Cellu. Pokud je u high-end grafik 24 těchto 256bit SIMD pipelines, spočítej si, jaký je asi tak výkon takového řešení.
Čistě hypoteticky: Cell 3 GHz vs. grafická karta 600 MHz (5x nižní frekvence).
256bit / 128bit (poměr SIMD u grafiky vs. Cell) x 24 / 5 = 9,6
Tj. grafická karta má (za jinak stejných okolností) výkon asi jako 9,6 jader Cellu. Jenže... ona má nižší frekvenci, to znamená, že delay může být delší, a proto instrukční latence kratší. Výkon grafiky by tímto přepočtem stoupnul třeba dvojnásobně nebo trojnásobně. Stačí, když "je SW správně napsán", a výkon grafické karty je gigantický.
Co to znamená? Že výkon, který možná vypadá zajímavě, mají někteří z nás už delší dobu v domácím PC, byť slouží k jinému účelu. Cell není žádný zázrak, je to čistě účelový design, který nemá šanci se v běžných PC uchytit. Intel ani AMD nejsou hloupí a moc dobře vědí, proč nepřidávají další SIMD jednotky - je to prostě zbytečné. V normálních úlohách má out-of-order Conroe řádově vyšší výkon než in-order Cell. Ano, možná by byl dobrý na enkódování videa, ale to je asi tak všechno.
Pokud se budeme bavit o "dobře napsaném software", je možné dosáhnout o několik řádů vyššího výkonu se zlomkem transistorů, které má Cell. Ano, mluvím o specializovaných DSP procesorech. Myslíš si třeba, že Pentagon luští šifry na nějakém komerčně dostupném CPU?