Spatne jsem to napsal. Hlavni jsem myslel v tom, ze budou rozdelovat praci, propojovat a mozna i pocitat veskee celociselne operace, ve kterych cell zvorva neexceluje.Celly budou pocitat "jen" operace v plovouci carce, ve kterych maj vykon primo giganticky, pokud je SW spravne napsan
desktop: i5-2500K@3700MHz, MSI P67A-C43-B3, 2x4GB Kingston Value, Sapphire 5850 Xtreme 1GB 850/1100, 2xWD10EALX fake RAID-1, LG W2600HP-BF S-IPS,Razer DiamonBack, Seasonic SS-400ET-F3, Windows 7 x64 SP1 + ubuntu x64
notebook: IBM T41p, 1.7 Pentium M, 14" 1400x1050, 1.5GB RAM, 40GB 4200r, Ubuntu 9.04
ultraportable: IBM X41, 12" XGA 1.5GHz Dothan, 2GB RAM, 32GB CF Pretec 233x SSD, Ubuntu 9.10
repro: Teufel Concept E Magnum PE 5.1
Ano, ta poznámka na konec je správná - "pokud je SW správně napsán". Ono totiž sestrojit takový SW pro 99 % případů nelze. Ostatně proč myslíš, že drtívá většina aplikací má jen jedno zátěžové vlákno? A teď ti prozradím jednu maličkost - grafické karty jsou dnes 256bit SIMD procesory a jsou schopny dosahovat výkonu podobného Cellu. Pokud je u high-end grafik 24 těchto 256bit SIMD pipelines, spočítej si, jaký je asi tak výkon takového řešení.
Čistě hypoteticky: Cell 3 GHz vs. grafická karta 600 MHz (5x nižní frekvence).
256bit / 128bit (poměr SIMD u grafiky vs. Cell) x 24 / 5 = 9,6
Tj. grafická karta má (za jinak stejných okolností) výkon asi jako 9,6 jader Cellu. Jenže... ona má nižší frekvenci, to znamená, že delay může být delší, a proto instrukční latence kratší. Výkon grafiky by tímto přepočtem stoupnul třeba dvojnásobně nebo trojnásobně. Stačí, když "je SW správně napsán", a výkon grafické karty je gigantický.
Co to znamená? Že výkon, který možná vypadá zajímavě, mají někteří z nás už delší dobu v domácím PC, byť slouží k jinému účelu. Cell není žádný zázrak, je to čistě účelový design, který nemá šanci se v běžných PC uchytit. Intel ani AMD nejsou hloupí a moc dobře vědí, proč nepřidávají další SIMD jednotky - je to prostě zbytečné. V normálních úlohách má out-of-order Conroe řádově vyšší výkon než in-order Cell. Ano, možná by byl dobrý na enkódování videa, ale to je asi tak všechno.
Pokud se budeme bavit o "dobře napsaném software", je možné dosáhnout o několik řádů vyššího výkonu se zlomkem transistorů, které má Cell. Ano, mluvím o specializovaných DSP procesorech. Myslíš si třeba, že Pentagon luští šifry na nějakém komerčně dostupném CPU?
Ja sice mam rad sci-fi, ale kluciii, vratte se do reality ... specialne na PC se vec jako 'Dobre napsany software' nekona a konat nebude ...Dobre napsany software
Hrrrr, will you stop using people as human driven search engines? Google.com has all the answers you need.
Pockat, pokud se nepletu, tak se tu v tuto chvili nebavime o PC, ale o nejvykonnejsim pocitaci, jaky brzy bude na svete. Kdyby byly graficke GPU tak uzasne, jak pises, Eagle, urctite by je nekdo do nejakeho super pocitace jiz davno pouzil, tim si jsem jisty. Ja se obavam, ze ty SIMD jednotky v grafikach nejsou zdaleka tak univerzalni jako SPE v cellu, nebo snad ano? Nebo ze by se rozhodli pro cell jen kvuli potrebe a cene? neverim... Nezapomen, ze cell muze mit diky revolucni architekture podstatne lepsi zasobovani vypocetnich jednotek daty, takze mozna ze GPU maji vetsi teoreticky vykon, ale myslim si ze diky relativne pomalemu pristupu (oproti rychlosti pristupu SPE do sve lokalni SRAM) do jedine centralni pameti bude vetsina GPU pri pocitani nejake fyziky nebo jinych vypoctu zahalet. Dale nevim, kde jsi vzal ze 99% programu je nutne sigle threaded, koukni se na benmarky noveho 4-jadra od intelu a uvidis, ze ve vetsine programu je jiz velmi znatelny narust vykonu, nekdy az 4-nasobny. A ze vsechny superpocitacove programy jsou jaxi nutne mega-multithreadove (kdyz to bezi na tisicech procesoru, tak to ani jinak nejde, ze) asi netreba dodavat. Pokud se nepletu, tak pomoci GPU se zatim krome vyvojovych center nic jineho nez rendering her pocitat realne nedari, coz se neda rici o cellu. Byly nejake pokusy pocitat prostorovy zvuk, ATi se snazi pocitat fyziku a nvidia myslim chce enkodovat video (to uz mozna nejak funguje), ale zatim kde nic tu nic. Psat pro GPU je zrejmne jeste vetsi nocni mura nez pro Cell, pro ktery navic jsou nebo budou relativne pratelske nastroje a kompilery, ktere doufam odvedou vetsinu spinave prace za cloveka (automaticka paralelizace kodu, optimalizace pro cell a pod.). Konsorcium kolem Cellu slibuje, ze by to v budoucnu (mozna uz ted) melo vypadat tak, ze se proste vezme stavajici kod v Cku, prozene se specialnim kompilerem a voala, staci to pustit na cellu a valit oci na rychlost, jakou to cell chroupa...
Me proste bavi, jak jste vsichni desne chytri a tvrdite, ze to fungovat nemuze, ze to je nanic, ze se na to neda psat a pod. a jaxi ignorujete fakt, ze nejenom ze uz jsou hry pro playstation 3, ale ze kdyz se IBM rozhodne vybudovat nejvykonejsi superpocitac na svete, tak ze to ma asi sakra posefovany, nemyslite?
Naposledy upravil Petrik; 12.09.2006 v 12:15.
desktop: i5-2500K@3700MHz, MSI P67A-C43-B3, 2x4GB Kingston Value, Sapphire 5850 Xtreme 1GB 850/1100, 2xWD10EALX fake RAID-1, LG W2600HP-BF S-IPS,Razer DiamonBack, Seasonic SS-400ET-F3, Windows 7 x64 SP1 + ubuntu x64
notebook: IBM T41p, 1.7 Pentium M, 14" 1400x1050, 1.5GB RAM, 40GB 4200r, Ubuntu 9.04
ultraportable: IBM X41, 12" XGA 1.5GHz Dothan, 2GB RAM, 32GB CF Pretec 233x SSD, Ubuntu 9.10
repro: Teufel Concept E Magnum PE 5.1
Dyť na nich chtějí počítat fyziku a dekódovat HDTV MPEG4 AVC, tak proč by to nezvládly?
Revoluční? Co je na nějaké SRAM revolučního? To si vážně myslíš, že to nemá někde úzké hrdlo? Třeba přístup do RAM, závislosti výpočtů, latence mezi SPE a hlavním jádrem (jak dlouho asi bude trvat překonat takovou fyzickou vzdálenost...), sdílení dat mezi SPE... aby to mohlo dosahovat dobrého výkonu, bude to vyžadovat software, který bude mít kvanta SIMD operací a hlavně navzájem nezávislých - takový mě napadá jen jeden: práce s videem. Na jakékoli jiné věci (včetně např. her) je to jaksi na nic, protože všechny ty jednotky až na jednu budou stát a čekat, co se stane.
No a? Do registrů bude mít přístup za 0T jako jakýkoli jiný procesor. Ale o tom to není, důležitý je prefetch, náhodné vyhledávání, latence do RAM atp. Grafická karta má přirozeně taky nějakou svojí SRAM na mezivýpočty.
95 % her pro Xbox 360 v době vydání používalo jediné ze třech jader. Programátoři z toho byli nešťastní. Od Sony a jeho "úchvatného" Cellu dokonce utíkali, že se pro něco takového nedá programovat. Zrovna dělám test dual-core vs. single-core a je to bída - až na kódování videa a rendering je přínos dual-core ubohý, pokud už lze někde hovořit o nárůstu výkonu vlivem multithreadingu, je to tak kolem + 10 %. V mnoha testech je navíc dual-core pomalejší než single-core. Upozorňuju tě, že používám striktně reálně používané aplikace, ne nějaké synteťáky typu PCMark (navíc optimalizovaný na Intel pomocí jejich Math Library) či podobné věci.
Superpočítače počítají vědecké výpočty:
1) které jsou paralelizovatelné
2) do jejichž vývoje byly investovány miliony dolarů
Ani jedna z těchto podmínek není u běžného použití splněna (proto taky s dual-core přišli až v okamžiku, kdy neměli jinou možnost, jelikož jsou to neschopáci v dosahování frekvencí).
Přátelský nástroj je Visual Studio od Microsoftu, které pro Cell určeno není. Všechny proprietární řešení mají malou podporu vyplývající z toho, že tam nejsou peníze.
Zapomeň. Žádný kompilátor není schopen určit, které části kódu jsou paralelizovatelné a které ne. Nejlepší kompilátor světa - Intel C++ Compiler - umí auto-paralelizaci pouze u cyklů a výsledky jsou nepostřehnutelné. S vektorovými výpočty je na tom podobně. Vešketé paralelizace a výkonové vektorizace jsou dělány ručně... proto jich je taky tak málo.
Kompilátor, který by uměl určit závislosti kódu, by musel používat nějakou formu umělé inteligence a profile-guided optimalizace. Navíc by to byl tak složitý úkon, že by kompiloval odhadem týden.
Sci-fi. Možná ve Startreku. Mimochodem, je úplně jasné, že nic jiného říct nemůžou. Hypováním si získávají pověst u lidí slyšících na velká čísla (podobně jako například u aut se děti chlubí maximálkou, i když každý řidič ví, že o té to zdaleka není)... hodně GFlopů, ale že je to jen někde, to už se neříká (podobně jako McLaren F1 může jet 380 jen na okruhu nebo na runwayi).
Protože třeba víme něco o programování? Máme s ním zkušenosti, víme něco o assembleru, pointerech atd.?
Upřímně - myslíš si, že hry na Playstation budou lepší než hry na PC ? Nedávno nějaká firma tvořící jakousi novou střílečku prohlásila, že jí na konzole jako PS3 a XBox 360 nebude portovat, protože jsou na ní příliš pomalé! Fakt si myslíš, jak to všem Cell natře, když je Conroe schopen zásobovat daty dvojnásobný grafický výkon PS3ky? (high-end SLI jsou dvě grafiky, každá na úrovni té z PS3).
No a? Itanium 2 má šest paralelním ALU jednotek. A už do něj taky cpou HyperThreading, aby je bylo možné nějak využít.
Souhlas. Zkuste si něco programovat v shaderech. Na grafikách se shader modelem 3.0 jsou cykly, větvení, skoky,...
Jako grafiky maj v sobě kurevsky velkej potenciál.
To je i důvod proč neuznávám třeba samostatné fyzikální akcelerátory. Proč si přidávat další vektorový procesor do počítače, když jeden velmi výkonný už tam máme v podobě grafické karty.
Diagon Swarm - redaktor NOTEBOOK.cz
Nikdy se nehádej s blbcem, nezasvěcený by nemusel poznat, že je mezi vámi rozdíl.
Blog o mobilní technice -> [WWW]
Ano, presne tak, chteji. A pokud vim, chteji to uz sakra dlouho a porad kde nic tu nic. Proc asi, hm?
Ano Eagle, totalne revolucni. Nic jako 8+1 core NUMA system on chip pokud vim krome cellu skutecne neexistuje. Nechci se s tebou hadat, nevim jakou velikost maji registry GPUcek, ale 256kB na jednotku to asi nebude, ze? A pokud beres jako uzke hrdlo tu centralni sbernici, ktera ma propustnost 100GBps (GigaByte), tak souhlas, to je skutecne uzke hrdlo) to nema zadna L1 cache v zadnem procesoru, Eagle. Otakzka jakou ma latenci, ale predpokladam ze zadnou nebo velmi malou. a co se pristupu do centralni pameti tyka, jak jiste vis, je to super rychla XDR.
Tady jde o to, ze kazda SPE ma 256kB SRAM primo u sebeprefetch a ostatni veci bude resit kompilator resp vysledny kod ktery na tom pobezi stejne jako to ma transmeta pokud se nepletu.
Tak to delas neco blbe, eagle, dual core by skutecne nemelo byt pomalejsi nez single core. Navic se koukni na tomshardware, tak testovali 2-core 2 duo (4 jadra) a skoro ve vsem je rychlejsi nez pbyc core 2 duo.
Pokud sis vsiml meho minuleho prispevku, ja se tu ted bavim o superpocitacich a ne o beznem pouziti.
No tak si pis ze tady penize skutecne budou)
Podle toho, co jsem o tom cetl, to vypada, ze se alespon castecne mylis. A intel c++ je mozna nejlepsi v c++, ale co jsem pochytil z linuxove komunity, vsechny dulezite veci se pisi v samotnem C a v tom v hodne kodech exceluje GCC :P
Nechame se prekvapit, co rikas? Tyhle tvoje nazory, ze neco nejde, mi pripominaji takovej ten forek, ze nejakej programator nevedel, ze neco nejde a sel a udelal toA to se deje docela casto, Eagle, pozor na to.
Neni to nahodou spis tim, ze jste nejchytrejsi na svete, takze nikdo nemuze udelat nic lepsiho nez si vy myslite, ze jde udelat? Hm? Ja ti neberu, ze toho vis hodne, ale zkus byt nekdy trochu vice otevrenejsi.
Eagle, to je ale ubohe... patrne myslis vyvojare hry crysis a jejich pokracovani, ze. Tak kdybys to jejich prohlaseni cet pozorne, tak bys vedel, ze to neni kvuli vykonu (ten je u obou dostatecny), ale proto, ze to je psany pro DX10, ktere ani jedna nepodporuje.
Nejak nechapu, co to ma delat s tematem, ale budiz.
Naposledy upravil Petrik; 17.09.2006 v 23:49.
desktop: i5-2500K@3700MHz, MSI P67A-C43-B3, 2x4GB Kingston Value, Sapphire 5850 Xtreme 1GB 850/1100, 2xWD10EALX fake RAID-1, LG W2600HP-BF S-IPS,Razer DiamonBack, Seasonic SS-400ET-F3, Windows 7 x64 SP1 + ubuntu x64
notebook: IBM T41p, 1.7 Pentium M, 14" 1400x1050, 1.5GB RAM, 40GB 4200r, Ubuntu 9.04
ultraportable: IBM X41, 12" XGA 1.5GHz Dothan, 2GB RAM, 32GB CF Pretec 233x SSD, Ubuntu 9.10
repro: Teufel Concept E Magnum PE 5.1
Toto téma si právě prohlíží 5 uživatelů. (0 registrovaných a 5 anonymních)