Re: Intel Conroe - novy kral
Petrik:
Conroe ma zdielanu cache...
Re: Intel Conroe - novy kral
Jo, na tom neco bude :) nejak jsem spatne precetl jeden clanek: http://www.pctuning.cz/index.php?opt...k=view&id=6534
jinak ja bych AMD zas uplne nezahazoval, novy 0.65 procaky maj mit dvojnasobny pocet FPU a ALU, takze muzou byt ve finale klidne rychlejsi.
Citace:
Původně odeslal PiT
Petrik:
Conroe ma zdielanu cache...
Re: Intel Conroe - novy kral
Citace:
Původně odeslal Petrik
Stejne to je ale porad shunka proti Cellu, ktery bude v Playstation 3. Ve vektorovych vypoctech (SIMD) by mel byt cell klidne 10x vykonejsi nez A64 X2, to se spotrebou nekolika W, navic IBM chysta vyrobu serveru, kde budou tyhle drobecci rovnou 4. Idelani by bylo, kdyby se cell s linuxem rozsirili a cpali by ho vsude: do mobilu, do lednicek, do televizi a ve vice exemplarich do pocitacu. Myslim ze nadvlada korporace Wintel by uz mohla pomalu skoncit.
Nepiš o věcech, o kterých nic nevíš. 486ka s vektorovými jednotkami je v reálu nepoužitelná!
Re: Intel Conroe - novy kral
Citace:
Původně odeslal Eagle
Nepiš o věcech, o kterých nic nevíš. 486ka s vektorovými jednotkami je v reálu nepoužitelná!
So 486kou to nema nic spolocne. A "real" nie su len hry vo windoze.
Re: Intel Conroe - novy kral
Citace:
Původně odeslal Rainbow
So 486kou to nema nic spolocne. A "real" nie su len hry vo windoze.
Má s ní společného to, že ono hlavní jádro je dost poddimenzované. Ten čip je naprosto nevhodný pro jednovláknové aplikace, tj. je nevhodný pro 99 % programů.
Re: Intel Conroe - novy kral
Citace:
Původně odeslal Eagle
Má s ní společného to, že ono hlavní jádro je dost poddimenzované. Ten čip je naprosto nevhodný pro jednovláknové aplikace, tj. je nevhodný pro 99 % programů.
Svet nie je len Windows. Na serveroch bezia (bezia, nie len ze su spustene a nic nerobia) desiatky aj stovky procesov naraz.
Re: Intel Conroe - novy kral
Predpokladam, ze to byl vtip, jinak bych se ti musel hrozne vysmat, coz bych fakt nerad, protoze te beru jako autoritu. Je dost mozny ze o Cellu toho vim vic nez ty, precelt jsem o nem skoro vsechno, co je dostupne na webu, totez doporucuji i tobe, treba tu pak nebudes psat takovy nesmysly. Sorry, ale ja osobne jsem jeste nevidel 486ku, ktera ma interni sbernici 100GBps (skoro 1Tbps), 8 jader a vic GFlops nez IQ nas obou dohromady. Architektura to je naprosto revolucni, ale souhlasim, ze v jednovlaknovych vypoctech nebude nijak extra rychla. Pro takovy vypocty to take neni urcene, to hlavni jadro PPE ma pouze rozdelovat ukoly pro SPE, samo toho pocitat moc nema. Nejgenialnejsi je ale sprava pameti, kdy jsou uplne vypustene cache a misto toho jsou pouzity lokalni mega rychly pameti s DMA pristupem do hlavni, opet mega rychly pameti. Vysledkem jsou extra nizke latence, takze vypocetni jednotky nebudou cekat na data a pojedou stale naplno. Proc myslis, ze treba do tohodle conroa dali 4MB L2? Proc tam nedali misto toho vice FPU a ALU?Proc ma FPU jen jednu??? Protoze by vic neuzivili datama. Cell mit tento problem nebude. Cell je urcen na graficke a multimedialni vypocty, kde bude naprosto excelovat a krome speliazovanych signalnich procesoru nebude mit konkurenci, i conroe bude min 10x pomalejsi. Jesti te cell zajima, doporucuji precist si toto: http://arstechnica.com/articles/paedia/cpu/cell-1.ars
velmi poucne cteni. Mrzi me ze tu zase rozjizdim flame, ale rict o cellu ze to je 486ka, to je too much.
Citace:
Původně odeslal Eagle
Nepiš o věcech, o kterých nic nevíš. 486ka s vektorovými jednotkami je v reálu nepoužitelná!
Re: Intel Conroe - novy kral
Citace:
Původně odeslal Petrik
Predpokladam, ze to byl vtip
...
Mrzi me ze tu zase rozjizdim flame, ale rict o cellu ze to je 486ka, to je too much.
Citace z Anandtechu: "However, the PPE being in-order is more for space/complexity constraints than anything else. While the SPEs handle more specified tasks, the PPE’s role in Cell is to handle all of the general purpose tasks that are not best executed on the array of SPEs."
Je sice úžasné, že Cell má nějaké SIMD procesory, ale to je úplně k prdu, protože ty v běžném prostředí nemají příliš využití. Hlavní čip PPE je poměrně nevýkonný in-order. Nevím jak ty, ale já se do dob 486kového stylu in-order vracet nechci.
Citace:
Původně odeslal Petrik
Idelani by bylo, kdyby se cell s linuxem rozsirili a cpali by ho vsude: do mobilu, do lednicek, do televizi a ve vice exemplarich do pocitacu. Myslim ze nadvlada korporace Wintel by uz mohla pomalu skoncit.
Děkuji, nechci, zůstávám u out-of-order spekulativního vykonávání instrukcí.
Re: Intel Conroe - novy kral
To jsou teda ale u sony asi hodne hloupy, kdyz to chtej dat do Playstation 3 a jeste vetsi tupci jsou v IBM, ktery chtej delat quad-Cell blade servery. Je to proste banda hovad, cpat tam 486ku. divim se, ze jim to nejdes vysvetlit, urcite by te zamestnali. V ty ukazce, kde dekodovali na jednom Cellu 48 DVD streamu soucasne predpokladam podvadeli, protoze 486ka by to asi stezi utahla (navic jedna SPE se flakala): http://www.engadget.com/2005/04/25/p...cessor-demoed/
Jako je mozny, ze na nektere typy uloh to nebude uplne vhodny procesor, ale na to, na co je urcen, to bude primo super-computer-on-chip. Navic nezapomen ze ta PPE je vpodstate G5 (pokud se nepletu) a bezi na 3.2GHz, takze to zas takova shunka nebude ani v jednovlaknovych vypoctech v pevny desetiny carce. Proste je to neco mezi GPU a CPU, coz je vec, ktera tady rozhodne chybela. Mozna ze nastupce cellu uz bude mit lepsi nebo treba vetsi pocet PPE, ale rozhodne architektura jako takova to je podle me genialni. Treba v takovych fyzikalnich vypoctech ve hrach to bude podle me x-krat rychlejsi nez ta HW jendotka PPU, co ma brzy prijit na trh. To je mimojine duvod, proc to davaj do P3.
Citace:
Původně odeslal Eagle
Citace z Anandtechu: "However, the PPE being in-order is more for space/complexity constraints than anything else. While the SPEs handle more specified tasks, the PPE’s role in Cell is to handle all of the general purpose tasks that are not best executed on the array of SPEs."
Je sice úžasné, že Cell má nějaké SIMD procesory, ale to je úplně k prdu, protože ty v běžném prostředí nemají příliš využití. Hlavní čip PPE je poměrně nevýkonný in-order. Nevím jak ty, ale já se do dob 486kového stylu in-order vracet nechci.
Děkuji, nechci, zůstávám u out-of-order spekulativního vykonávání instrukcí.
Re: Intel Conroe - novy kral
No samozrejmne, ocividne jsi nepochopil, co jsem napsal. vsechny x86 procesory maji totiz dost zasadni problem zasobovat vypocetni jednotky datama (proto ma conroe neuveritelny 4MB L2), coz je problem, ktery cell diky jeho revolucni architekture mit rozhodne nebude. AMD to castecne vyresilo priblizenim pametoveho radice k CPU, ale stale to neni ono. Jsem dost zvedav, jaky zrcyhleni prinesou dvojnasobne pocty FPU a ALU u novych K8.
Citace:
Původně odeslal iPoK
Pertik nie tak ostro, pls. Intel ani nema dovod zvysovat pocet jednotiek, vyuzitelnost by iba klesla. Mozno by to malo dovod ak by Conroe mal podobny pamatovy system ako Cell, ako si tu pisal. Ktovie ako by dopadla vytazenost jednotiek potom.
BTW reci ze AMD ide zvysovat pocet jednotiek, su sice pekne, ale ako Eagle v diskusii na SvHw poznamenal, bolo by to iba pridanie zbytocneho kremiku, 3 mOPS / takt nepustia.
Na tomto (text dole) by malo AMD zapracovat, tu by som hladal tych 40% vo F.E.A.R. ;)
Re: Intel Conroe - novy kral
Ty zase prozmenu nechces pochopit, ze uloh pro ktery je vhodny CPU typu Cell je minimum. Drtiva vetsina uloh ktery bezej na PC potrebuje normalni CPU. Cell je dobrej treba pro komprimovani videa/audia ale ne treba pro databazi. Tudiz server na nem zalozenej je idealnim nastrojem pro strih videa trebas.
Je to zkratka velmi specializovanej proc a pouzivaj ho prave proto, ze se predpokalda vyuziti jako domaciho media centra = zaroven si pustit 2x video, , a trebas 3x audio.
Ono se totiz uvazuje i o tom, ze by nebylo marny Cell hodit na PCI/PCI-e kartu a dat ho do normalniho PC.
Jenzi viz neustale odkladani, neni vubec jednoduchy pro to programovat. Ono to neni snadny ani kdyz mas stejny jadra, ale tam to v nejhorsim dopadne tak, ze tvoje uloha proste pobezi an jednom jadre a nejaka dalsi uloha na dalsim jadre. To u Cellu nejde, tam mas jadro jediny a jen specializovany sub jadra, ktery proste musis pouzit, jinak ses s vykonem v ... .
Re: Intel Conroe - novy kral
Sorry za rozjeti OT tematu, ale myslim ze to je natolik zajimavy, ze to stoji za to. Ty SPE samozrejmne umeji pocitat i v celych cislech a jdou tak pouzit jako normalni jadro, samozrejmne s mensim vykonem. Ovsem specialne pro ty databaze by to mohlo bohate stacit a takovy blade server se ctyrmi celly = 4x8=32 sice pomalych, ale presto jader,plus 4 jadra G5 (z vetsi casti zamestnane rozdelovanim uloh pro SPE) podle me naseka zadek kdejakymu serveru. Podle me bude cell vykonny v jakekoli paralelizovatelne uloze, jediny poblem nastane u skutecne single-threaded ulohy, kterych je ale v realnem vyuziti pomerne malo. Pokud jsem to totiz pochopil dobre, tak konrocium kolem Cellu uz ma testovaci verzi kompileru, ktery automaticky paralelizuje aplikace puvodne napsane jako single-threaded, pokud to principialne jde.
Ideal by bylo spojeni CPU typu conroe s Cellem, mozna by stacilo vymenit to nic moc G5 PPE za jadro K8 nebo conroe a skutecny super CPU by byl na svete.
Re: Intel Conroe - novy kral
V cellu ani tak nejde o to, ze ma vice vektorovych jednotek (SPE) nez dnesni CPU, ale jde predevsim o to, jak pracuje s pameti. Cell je vpodstate NUMA (Non Uniform Memmory Architecture), ovsem ne na urcovni systemu, ale CPU. Jen dodam, ze NUMA je naprosta vetsina superpocitacu, vcetne viceprocesorovych systemu K8. Cell nema zadne cache (Jen PPE ma 512kB L2), ale misto toho ma kazda SPE svoji vlastni malou pamet (256kB), ktera je primo u nej a je mega rychla. Muze se zdat, ze to je totez jako cache, ovsem to je jen zdani. U klasicke cache musi byt pomerne slozita logika, ktera hlida konzistenci dat v cache s daty v RAM, v pripade vice jader to je jeste mnohem horsi a kdyz se ktomu pripoctou dalsi "vychytavky" dnesnich CPU, jako je predpoved vetveni kodu, register renaming,prefetch, speculation a podobny veci, zjistis, ze vetsi cast CPU zabira tato logika a na vypocetni cast zbyva stale mene a mene mista. Cell na to jde zcela jinak: SPE je vpodstate hodne hloupa, zato super nabusena vektrova jednotka s vysokym hrubym vykonem. Jeji 256kB SRAM ji nahrazuje L1 a nazyva se lokal store. Pristup do hlavni pameti rambus-XDR probiha pres DMA radic skrz sbernici o naprosto nemozne propustnosti 100GBps. Kazda SPE je tedy jakoby nezavisly maly pocitac. To je obrovsky rozdil oproti bezne FPU v dnesnich CPU, ktere museji cekat desitky cyklu (napr. P4) nez se dostanou k datum z L2 cahce, ktere potrebuji. Protoze SPE nema zadnou cache, je jeji pristup do jeji vlastni pameti obrovsky rychly. Jediny problem tedy nastava v tom, ze je potreba zajistit, aby tam mela potrebna data. O to se musi postarat SW, stejne jako v transmeta CPU.
Kdyz se tedy vratim k zacatku, cell je tedy vpodstate 9-ti procesorovy NUMA system s hlavnim ridicim general purpose 64-bit CPU a 8-vektorovymi procesory. O vetveni kodu, prefetch a podobny zalezitosti se stara ridici CPU PPE, ale na spinavou praci ma vykonne delniky v podobe SPE. Zdali je tento pristup stravny se ukaze myslim dost brzy, ale je mozne, ze to dopadne stejne jako se soubojem RISC vs. CISC architektur: vsechny dnesni superskalarni CPU, jako je i conroe, se zvenku tvari jako CISC, ale interne jedou jako RISC, proto musi obsahovat dekodery instrukci. Je tedy mozne, ze intel a AMD architekturu cell castecne zkopiruji a vysledkem bude jakysi hybrid.
Na to, ze procesorum moc nerozumim, jsem to nastinil docela slusne, ne? :D
A kdyby zas nekdo chtel tvrdit, ze takovy vykon v plovouci carce neni treba, tak at si predstavi napr. nejakou vysoce kvalitni interpolaci kazdeho snimku pri prehravani videa. Ty nejlepsi profi interpolacni algoritmy dokazi zvetsit rozliseni o 50% aniz by si toho lidske oko vsimlo. Problem je v tom ze pri rychlosti 25, 30 nebo nedej boze 50fps v HDTV rozliseni neexistuje CPU, ktery by to utahl. :)
Citace:
Původně odeslal THX
Ano, ved na to ta cache je, a budu v nej udaje aj data....
AD petrik&cache, spominas este na celerony A? napr. 300A? Tie ktore mali iba L1 cache? Aky mali vykon?
Ano sme v dobe kedy by ta cache mohla byt mensia, ale vyrobcovia nevedia pouzit tie tranzistory na nic uzitocnejsie, preto tu mame aj dualcore. Tak budme radi ze je aspon to, v inteli ani v AMD nie su nejaki amateri a dobre vedia co robia, ak sa cell uchyti a druha generacia by mala byt taka uspesna ze by sa mala dosat do pc, tak vtedy uz intel bude mat obdobny procak (cca pred rokom som videl plany, ktore sa ale nemusia naplnit), kde CPU bude mat 3 jadra a namiesto 4. jadra bude mat nejakych 16 specializovanych DSP, alebo proste nejake ine koprocesory. Ono sucasne CPU pre PC maju uz teraz vektorove jednotky, akurat ze nie tolko vela ako cell. S prichodom HD videa a ako uz bolo spominane fraktalovej kompresie, a nejakych dalsich "features" pozadovanych modernymi OS a uzivatelmi, samozrejma pride aj odpoved od vyrobcov CPU. A moze to byt celkom skoro, odhadom 2-3-4 roky, problem spravit to "narychlo" nie je, skor aby to tam bolo lepsie zakomponovane, ale do tych 3-4 rokov by to nemal byt problem.
Aby sa to ale splnilo, tak by sa taketo CPU museli vyvijat uz teraz, co sa ale asi tazko dozvieme.
Pockajme do 2010, potom to bude jasne co a ako.
Re: Intel Conroe - novy kral
Tak podme pekne poporiadku odzaciatku:
Citace:
Původně odeslal Petrik
V cellu ani tak nejde o to, ze ma vice vektorovych jednotek (SPE) nez dnesni CPU, ale jde predevsim o to, jak pracuje s pameti. Cell je vpodstate NUMA (Non Uniform Memmory Architecture), ovsem ne na urcovni systemu, ale CPU. Jen dodam, ze NUMA je naprosta vetsina superpocitacu, vcetne viceprocesorovych systemu K8.
Ano to je pravda a u superpocitacov je to jaksi nevyhnutnost. Nevydohou NUMA je, ze programy musia byt pisane s tym, ze su si toho vedome a teda to vedia vyuzivat (ina vec je ked na pracu s pamatou pouziju funkcie OS, ktory moze vyhody NUMA vyuzivat, ale skutocny program pre superpocitac, aby bol dostatocne vykonny, musi byt sam pre NUMA pisany)
Citace:
Původně odeslal Petrik
Cell nema zadne cache (Jen PPE ma 512kB L2), ale misto toho ma kazda SPE svoji vlastni malou pamet (256kB), ktera je primo u nej a je mega rychla. Muze se zdat, ze to je totez jako cache, ovsem to je jen zdani. U klasicke cache musi byt pomerne slozita logika, ktera hlida konzistenci dat v cache s daty v RAM, v pripade vice jader to je jeste mnohem horsi a kdyz se ktomu pripoctou dalsi "vychytavky" dnesnich CPU, jako je predpoved vetveni kodu, register renaming,prefetch, speculation a podobny veci, zjistis, ze vetsi cast CPU zabira tato logika a na vypocetni cast zbyva stale mene a mene mista.
Ano je to tak, na itaniu je samotne vypocetne jadro velmi male, dokonca sa objavili plany ze v pripade intelu, by tymto DSP koprocesorom mohlo byt prave itaniove "jadierko" bez logiky, ktore by malo vyuzitie iba ako koprocesor (na streamove spracovanie).
Logika konzistentnosti cache je sucastou cpu, co je problem, ze zoziera prenosove pasmo, napr. u 8cpu AMD opteronov som pocul ze to dokaze zozrat cele jedno hypertransport rozhranie. U intela je to o to horsie, ze po rovnakej zbernici prenasa data z pamate. Riesenie intelu su (aj) velke cache (ale to hlavne koli tomu, ze nemoze rychlo citat z ram koli zahlteniu zbernice).
Toto je ale zasadna vec, ktora nesuvisi s cache a necache ale s tym ze udaje nie su na jednom mieste v pamati, ale na roznych procesoroch uz bud v cache, alebo v ich lokalnych pamatiach a musi sa to riesit tak ci tak. Takze u cellu v MP systemoch to bude tak ci tak, lebo bez toho to skratka nefunguje, mozno ze ta logika nebude implementovana HW do cpu ale bude softwareova (aj ked toto sa mi trocha nezda, skor by som tipol ze na tom cpu fakt bude).
Ad x86 - x86 tazi z toho, ze je kompatibilne, teda na novom procaku pustis programy starsich procesorov. Preto u x86 sa v podstate robi "procesor pre programy" ktory sa snazi, aby uz existujuce a skompilovane programy isli co najrychlejsie, preto obsahuje tu svoju logiku (superskalarnost, out of order, spekulativne predvidanie atd.), ktora mu pridava velmi znacnu cast vykonu. U cellu to funguje tak, ze sa program kompiluje priamo pre dany procesor, takze tato logika, predpokladanie vetvenia atd. je v podstate prenesena do kompilatora a do zlozitosti programovania pre dany procesor. U x86 kde ti s programom vyrobca doda iba exe subor to nie je mozne. Pod linuxom mozes ziskat vyhodu ak si napr. vsetko prekompilujes na 64bit dualcore. Pod win (co je velka vacsina x86 pocitacov) to tak proste nie je.
Co je dolezite, je to ze tato logika navyse ti pomaha vyuzit vypocetne schopnosti procesora (ktore aj tak nie su vyuzite naplno).
Citace:
Původně odeslal Petrik
Cell na to jde zcela jinak: SPE je vpodstate hodne hloupa, zato super nabusena vektrova jednotka s vysokym hrubym vykonem. Jeji 256kB SRAM ji nahrazuje L1 a nazyva se lokal store. Pristup do hlavni pameti rambus-XDR probiha pres DMA radic skrz sbernici o naprosto nemozne propustnosti 100GBps. Kazda SPE je tedy jakoby nezavisly maly pocitac. To je obrovsky rozdil oproti bezne FPU v dnesnich CPU, ktere museji cekat desitky cyklu (napr. P4) nez se dostanou k datum z L2 cahce, ktere potrebuji.
Rambus moze byt rychly, ale mat vysoku latenciu, nejde o to, tieto problemy ma prekonat u P4 spekulativne nacitavanie dat z pamate a u cellu vopred naprogramovane citanie. U dothana, K8 atd. je L2 latency tusim okolo 10 taktov cpu. Takze nie desiatky cylkov, ale okolo 10 cyklov. Data sa bezne citaju z L1 cache ktora ma latency niekolko (jednotiek) taktov (2-3).
Do L1 sa udaje mozu dostavat z L2 roznymi spekulativnymi predpokladmi.
Citace:
Původně odeslal Petrik
Protoze SPE nema zadnou cache, je jeji pristup do jeji vlastni pameti obrovsky rychly. Jediny problem tedy nastava v tom, ze je potreba zajistit, aby tam mela potrebna data. O to se musi postarat SW, stejne jako v transmeta CPU.
L1 a L2 cache su tiez velmi rychle, a tym myslim fakt rychle. Zaujimavy koncept procesoru bol HP PA risc, ktory nemal L2 cache, ale iba obrovsku (ale trocha pomalsiu) L1 cache. Pokracovania sa uz ale nedozil.
Citace:
Původně odeslal Petrik
Kdyz se tedy vratim k zacatku, cell je tedy vpodstate 9-ti procesorovy NUMA system s hlavnim ridicim general purpose 64-bit CPU a 8-vektorovymi procesory.
Iba 7 SPE koli vytaznosti.
Citace:
Původně odeslal Petrik
O vetveni kodu, prefetch a podobny zalezitosti se stara ridici CPU PPE,
Nie, ty pises ze sa o to stara kompilator, cpu iba tupo vykonava co mu pride.
Citace:
Původně odeslal Petrik
ale na spinavou praci ma vykonne delniky v podobe SPE.
SPE sa hodia iba na urcity druh vypoctov, da sa na nich pozerat ako napr. na SSE jednotky u pentia.
Citace:
Původně odeslal Petrik
Zdali je tento pristup stravny se ukaze myslim dost brzy, ale je mozne, ze to dopadne stejne jako se soubojem RISC vs. CISC architektur: vsechny dnesni superskalarni CPU, jako je i conroe, se zvenku tvari jako CISC, ale interne jedou jako RISC, proto musi obsahovat dekodery instrukci. Je tedy mozne, ze intel a AMD architekturu cell castecne zkopiruji a vysledkem bude jakysi hybrid.
Uz som pisal, ze intel toto normalne uvazuje, otazne je ci sa k tomu naozaj dostane.
Citace:
Původně odeslal Petrik
Na to, ze procesorum moc nerozumim, jsem to nastinil docela slusne, ne? :D
A kdyby zas nekdo chtel tvrdit, ze takovy vykon v plovouci carce neni treba, tak at si predstavi napr. nejakou vysoce kvalitni interpolaci kazdeho snimku pri prehravani videa. Ty nejlepsi profi interpolacni algoritmy dokazi zvetsit rozliseni o 50% aniz by si toho lidske oko vsimlo. Problem je v tom ze pri rychlosti 25, 30 nebo nedej boze 50fps v HDTV rozliseni neexistuje CPU, ktery by to utahl. :)
A preco by to mal tahat CPU? Co takto graficka karta? Pride DX10 a pride Vista driver model v ktorom napr. ma OS pristup do graficke ram a moze ju pouzit napr. ako cache filmu atd.
Nakoniec sa to mozno vyvinie tak, ze nebudu ziadne SPE koprocesory namiesto 4. jadra, mozno tam bude L3 cache alebo kto vie co, a vsetky taketo veci ohladom videa, spracovania obrazu atd. bude robit grafika, na ktorej bude mozno pripadne nejaky PPU atd.
Cell, ppu, dx10, vista driver model atd. su vsetko nove veci, ktore este len pridu na trh. Az tam sa ukaze aka bude ich realna uspesnost a podla toho sa budu dalej vyvijat veci...
btw. zalozil som thread v ostatnych procakoch, takze ak sa nejaky admin posnazi, moze to presunut tam