Cell

**THX** · 06.03.2008, 11:30

Původně odeslal Fox!MURDER

kompiler taky neni vsemocnej. imo by nejlepsi reseni byla kombinace obou pristupu - reordering/cache ala x86 a zaroven SRAM/compiler based optimizace ala cell ... jenze to je az moc narocny na vyvoj ...

tak mi napis v com je lepsi reordering v cpu oproti reorderingu v compileri a
v com je lepsia cache oproti onchip SRAM

kompiler sice nie je vsemocny, ale v tychto dvoch veciach (reordering, prefetching) ma v case kompilacie k dispozicii omnoho viac zdrojov (casu) a tak moze urobit omnoho viac...

A aj ked sa kod vetvi atd., proste prinajhorsom to bude fungovat ako cache - kompiler si napr. moze dovolit omnoho zlozitejsie vypocty predpokladov vetvenia ako by mohol robit CPU real-time. Navyse kompiler na rozdiel od CPU vidi aj samotny zdrojovy kod a z neho vycita kopec dalsich informacii...

**Fox!MURDER** · 06.03.2008, 13:03

Původně odeslal THX

tak mi napis v com je lepsi reordering v cpu oproti reorderingu v compileri a
v com je lepsia cache oproti onchip SRAM

kompiler sice nie je vsemocny, ale v tychto dvoch veciach (reordering, prefetching) ma v case kompilacie k dispozicii omnoho viac zdrojov (casu) a tak moze urobit omnoho viac...

A aj ked sa kod vetvi atd., proste prinajhorsom to bude fungovat ako cache - kompiler si napr. moze dovolit omnoho zlozitejsie vypocty predpokladov vetvenia ako by mohol robit CPU real-time. Navyse kompiler na rozdiel od CPU vidi aj samotny zdrojovy kod a z neho vycita kopec dalsich informacii...

treba v tom, ze nektery vetveni se daj predvidat az kdyz to bezi a ty vis, ktery data a odkud tahas, popripade podle toho jak dopadlo predchozi vetveni ...

**TomasD** · 08.03.2008, 09:22

Původně odeslal Petrik

Promin, ale jestli ten tvuj kamarad rika, ze SPE chybi cache, tak IMHO patrne vubec nepochopil, jak Cell funguje a co to je SPE. V IBM mu to zrejme vysvetli. Jak to chapu ja, tak SPE je jakovy maly samostatny procesor, ktery ma misto bezne pomale DRAM operacni pamet typu SRAM 256kB, takze zadnou cache nepotrebuje, protoze neni co cachovat.

Byl sem Keyem varovan, ze kdyz jako svuj prvni post se pustim do flamovani, tak budu za kokota. Alespon bude mit cemu se smat.

Zkusim k tomu neco rict, aniz bych porusil NDA.
Budu mluvit vylucne o CELLu, nikoliv o PS3 (tj. CELL + grafika) a to hlavne proto, ze delame prevazne na bladech kde jsou pouzitelny presny performance countery. Plus nemame to game developer SDKcko.

V cem je CELL fakt dobrej (a na to je ostatne stavenej) jsou streamovy operace.
Uplne idealni modus operandi je, ze prace na datech je rovnomerne rozdelena mezi vsech 8 SPE. PPE taha do pameti,prvni to taha z hlavni pameti, neco udela, soupne do local store souseda. Ten neco udela, soupne do local store souseda.
Pripadne si to druhy sahne pro data tomu prvnimu. Takze ringbus je vytizenej vicemene naplno jednim smerem a datove cesty se krizi bud vubec, nebo minimalne. PPE akorat (pres message) resi, kdyz nekomu dojde prace a predchozi stage jeste nic nema.
Tohle je idealni stav. Rekneme ze si z local store (pro jednoduchost) odloupnes 128kB na kod, takze na data zbyde 128kB. Ty si rozdelis na 4x 32kB, 2 vstupni a 2 vystupni buffery. Kdyz zpracujes jeden vstupni buffer do vystupniho, tak das echo ze jsou data pripraveny a zacnes, zpracovavat druhej vstupni buffer a pres DMA si natahnes novy data do prvniho.
Zaroven si nasledujici SPEcko veme tvuj vystupni buffer, vsichni jsou happy, zmeri se GFLOPSy a predhodi se verejnosti.

Co tohle ale predpoklada je, ze se pracuje na velkejch souvislejch blocich dat. Treba MPEG, nebo nejaky ZIPy nebo neco v tom stylu.

Prusvih nastane, kdyz mas random memory access pattern, tj. nevis moc dopredu co vlastne budes chtit a jeste hur, nechces najednou kibyty ale spis jen treba 8 floatu. A pak jinejch 8 odjinud.
Tenhle memory pattern ma treba raytracer, kde mas silnou casovou i prostorovou koherenci, ale ty data jsou vesmes maly (kolem 128b co potrebujes najednou) a ne uplne idealne rozlozeny.
Tam je problem jednak v trojuhelnikach (ty sou buh vi kde v pameti a ty co spolu fyzicky souvisej nemusej vubec bejt vedle sebe), ale hlavne v desnym mnozstvi neprimy adresace.
Hlavni pointa je akceleracni struktura (strom), kde mas node. Ten nactes, udelas s nim nejaky dve operace a podle toho jdes do leveho nebo praveho potomka (nebo obou). Vemes teda pointery v tom nodu a nactes dalsi node. Prusvih je, ze od momentu kdy nactes ten prvni do momentu kdy vis kam jit uplyne opravdu malo cyklu, ne dost na to abys prefetchnul do pameti ty potomky. Pokud bys chtel kontrolovat jestli uz je nemas od minula, tak to je prave cache

Trochu odbocim, kdyz se dela raytracing na normalnim CPU, tak rozdil mezi cache-aware a ne-cache-aware akceleracni strukturou je cca 5-10%.

Kazdopadne v momente kdy je pristup do pameti spatne predikovatelnej (hlavne jde o spoustu pointeru, ze se neco natahne, precte z toho pointer toho co se ma natahnout dal) tak jde CELL bez cache do kytek.
K tomuhle ucelu je v SDK primo SW cache, ktera se da bud pouzit rovnou (hit info tusim kolem 7-10 taktu, ziskani dat kolem 60-70 taktu, cache miss ve stovkach) nebo ofinetunit kdyz clovek vi co presne potrebuje. Tim se to da srazit rekneme na 7 a 40.
Dalsi problem CELLu, kdyz je SIMD je, ze pokud mas v SIMD 4 adresy, tak nemuzes udelat zadnej vector load ala G80. Proste se musi SIMD rozebrat a vybrat po jednom. A to i kdyz treba zrovna jsou vsechny ty adresy stejny a realne by stacil jeden load (G80 ma na tohle broadcast).
SRAMka ma jen jeden quadword read a jeden quadword write port a nic vic k tomu, takze se proste nacita po jednom. To docela kazi pouziti 4-way SIMD na jakoby 4 vypocetni vlakna, protoze proste ty pristupy do pameti jsou pak hrozny brzdy.

Dalsi problem je, ze DMAcko ma relativne nesikovny ovladani, kdyz potrebujes nacist najednou treba 10 quadwords z 10ti ruznejch adres (je tam k tomu nejaka struktura, kterou vybudujes a predhodis jeji adresu DMAcku, ale neumi treba rict "a ted nacti 8 quadwordu pocinaje adresou HP 0x1234567 na adresu LS 0x1000".

V momente kdy teda clovek uz potrebuje cache a dojde k tomu ulradrahymu cache missu, tak se typicky prepne vlakno. SPEcko nema hw podporu vlaken, takze se bud clovek hodne snazi to preklenout nejak softwarove, nebo se to SPEcko nekolik set taktu dost nudi.

Jeste dve veci co si malokdo uvedomuje. V ty SRAMce nejsou jen data. Je tam i program a stack.
Stack docela omezuje hloubku rekurzivniho algoritmu.
Pamet programu zase omezuje to jak slouzitou vec tam clovek muze mit. Hlavne hodne templatovany kody jsou problem, kterej na PCcku clovek vubec nevidi. Proste to je spousta kodu, kterej muze zrat i docela dost hodne z tech 256kB. Je tusim ve vyvoji (mozna uz je nejaka verze venku) tool/SDKcko/kernel patch, kterej by umoznoval dotahovat kod z hlavni pameti jak je treba, ale v soucasny dobe je typickej modus operandi to, ze se celej kod narve do SPE.

Shrnuto podtrzeno, CELL je super na streamovy aplikace, na praci na velkejch blocich souvisly pameti. Jakmile tam je hodne random access, velky prepinani vlaken atd, tak to zacne trpet na tom, ze nema cache a ze hlavni pamet je fakt dost daleko.

Co mi vysvetlili v IBM tu psat nebudu. Ale to jak funguje SPE a ze mam uplne spatnej algoritmus, mam ho zahodit a napsat misto toho neco peknyho streamovyho, tak to to fakt nebylo.

**Petrik** · 08.03.2008, 11:35

Ehm, mozna bych mel napsat, ze vsechny cache jsou IMHO vzdy realizovane prave pomoci SRAM, protoze ta ma radove rychlejsi pristup nez bezne pouzivane DRAM. Takze aby to bylo jasne: ty SPE maji vlastni RAM, ktera je HW totozna s napr. L1-cache u beznych CPU (=SRAM), ale vyhoda je prave v tom, ze ji nepouzivaji jako cache, ale jako RAM.

Původně odeslal Ryuu

No, tvrzeni "chybi mu cache" a "nema cache, protoze na typicke ulohy ji nepotrebuje" mi prijdou ekvivalentni. Obcas by na tom clovek proste rad provozoval veci, na ktere by se cache hodila.

SRAM neni o nic mene bezna nez DRAM. A jinak ta rychlost neni tim, ze je to SRAM, jako spis tim, ze je ta pamet tak mala. DRAM o stejne velikosti by mela +/- stejnou rychlost. SRAM ma hlavne tu vyhodu, ze neni potreba ji neustale refreshovat, takze se ti nemuze stat, ze se do ni zrovna chvilku nedostanes, protoze se ji kus obnovuje.

**Petrik** · 08.03.2008, 11:50

2TomasD: Zaprve tu vsichni dekujeme za nazorne a relativne srozumitelne vysvetleni problemu

Je videt ze o cellu asi preci jen neco vis, takze se ti timto omlouvam

Ja jsem to proste predtim chapal tak, ze cache je potreba pouze pokud mam pomalou RAM, coz u SPE neni. Ze je hlavni pamet pomala je asi jasne, zrejme jsem automaticky predpokladal, ze neco ala SW cache se v cellu pouziva, prijde mi to docela logicke, ale asi to neni nic jednoducheho. Jednim z duvodu asi bude dost mala velikost 256kB localstoru. Kam bys tedy ty tu cache nejradeji umistil? Jednu velkou prad hlavni pamet, nebo vice malych ke kazde SPE? Nemuselo by se pak slozite resit synchronizace dat kese/kesi mezi SPE jako tomu je v pripade SMP? Mimochodem, vazne ma ten ringbus prenosovnku 100GBps? to si nejak porad neumim poradne predstavit...
Dalsi dotaz: co si myslis ze v budoucnu vyhraje? GPU + obyc CPU nebo neco ala cell?

**TomasD** · 08.03.2008, 18:47

Původně odeslal Petrik

Ja jsem to proste predtim chapal tak, ze cache je potreba pouze pokud mam pomalou RAM, coz u SPE neni.

Ona je spis spravnejsi predstava takova, ze tam je pomala RAM a cache bez HW cache logiky. Coz v pripade hodne snadno predikovatelnyho pristupu do pameti umozni lepsi pristup (nejsi fyzicky omezenej velikosti cache line, kdyz vis prostorovat lokalita je jina atd), v pripade random access to je naopak o dost horsi.

Původně odeslal Petrik

Ze je hlavni pamet pomala je asi jasne, zrejme jsem automaticky predpokladal, ze neco ala SW cache se v cellu pouziva, prijde mi to docela logicke, ale asi to neni nic jednoducheho.

Slozity to neni, je na to prefabrikovana knihovna. Problem je, ze to je radove pomalejsi nez cache u normalnich CPU.

Původně odeslal Petrik

Jednim z duvodu asi bude dost mala velikost 256kB localstoru. Kam bys tedy ty tu cache nejradeji umistil? Jednu velkou prad hlavni pamet, nebo vice malych ke kazde SPE? Nemuselo by se pak slozite resit synchronizace dat kese/kesi mezi SPE jako tomu je v pripade SMP?

Tady bohuzel jen krypticky. Tech 256kB zabira neco jako 1/3 plochy SPE takze ano, je problem s mistem kam to umistit.
Velka cache pred hlavni pameti je (512KB). PPE jde do hlavni pameti pres cache a DMAcko kontroler co visi na ringbusu jde tudiz taky pres cache.
Slozite by se to resit muselo, dokonce mnohem slozitejc nez na normalni sbernici. Tam vicemene vsichni vidi veskerou komunikaci a muzou podle adresy co bezi po sbernici reagovat (viz MESI protokol). Tady je realna sance, ze data pujdou druhou stranou ringbusu a nebude na to videt.
Kam bych ji umistil ja, jak bych to resil synchronizaci atd. ti nereknu, sorry.

Původně odeslal Petrik

Mimochodem, vazne ma ten ringbus prenosovnku 100GBps? to si nejak porad neumim poradne predstavit...

100GBps je tak trochu podvod s cislama. Respektive, ono se uvadi i 300GBps, tak to je pak trochu vetsi podvod s cislama.
Jedno "zarizeni" (SPE, ale i jiny) ma teoretickou pristupovou rychlost 25GBps pri 3.2GHz procaku a ringbusu, kterej bezi na pulce. Kazdej ringbus cyklus se da vylozit/nalozit 16B. Takze kdyz si to vemes uplne teoreticky, ze ty SPEcka posilaj data do kruhu a vzdycky jen tomu hned vpravo, tak ta maximalni rychlost v jednom smeru je 25*pocet SPE GBps.
Pochopitelne tohle se zacne prudce kazit v momente kdy toho beha moc najednou (SPE potrebuje natlacit data do toho "vlacku" ale tam uz "jedou" jiny data z jinejch SPE), tak nekde u tech 100GBps pres celej ringbus v obou smerech to peakuje a pak uz to jde cely do haje.
Takze nepredstavovat jako klasickou sbernici, ale spis takovej jako system subsbernic mezi kdecim, kde muze najednou pobihat nekolik naprosto nezavislych transferu.
Maximalni co protlacis mezi konkretnim SPE a necim jinym je 25GBps a to mas jeste docela stesti. (mnohem peknejc a srozumitelnejc to je vysvetleny na anglicky wiki a je to spravne)

Původně odeslal Petrik

Dalsi dotaz: co si myslis ze v budoucnu vyhraje? GPU + obyc CPU nebo neco ala cell?

Pozor, CELL nenahrazuje GPU. V PS3 je k CELLu taky nejaka grafika, udajne zhruba na urovni 7950. Proste uz shader model 3, ale jeste ne unifikovany jako maj osmitisicovky (alespon ty co stoji za zminku, tj. 8800

).
Moje sazka je na zpetnou kompatibilitu (to proste prodava), takze x86 multijadra multiprocesory a k tomu dedikovany chytry procaky (GPU, Larabee, CELL, neco takovyho)

**Petrik** · 09.03.2008, 15:43

1)aha, ja myslel ze SPE je jakoby maly nezavisly procesor s vlastni RAM (=localstore) a ze hlavni RAM je pro nej neco jako datove uloziste kam si pres DMA saha pro data. On tedy muze pouzivat tu hlavni RAM skutecne jako RAM i presto ze je pripojena pres DMA radic? To zni dost komplikovane...

2)zrejme jsem poradne nepochopil tu SW cache, ja myslel ze to funguje tak, ze ty data, u kterych vi, ze je bude potrebovat, necha proste v local storu nebo ze je prefechne tak, aby az je bude potrebovat, tak je bude mit. ale to je jedno, neresme to.

3) ja myslel ze ta 512kB je jen pro PPU, pokud cachuje vsechno, musi byt dost narocne to managovat, nebo ne?

4) to uz zni realneji, ale i tech 25GB per SPE mi pripada jako docela slusny udaj, to nema ani lecktera L2 cache

5)to mi je jasne, ja mel na mysli pouziti pro jine nez graficke vypocty. Na jedne strane tu je snaha zacit pouzivat grafiky pro jine nez graficke vypocty, na druhe tu je snaha intelu a IBM vyvinout resp. protlacit do prodeje hybridni CPU ala Cell. Bude myslim dost zajimave jak tento ousboj dopadne u superpocitacu, chystany roadrunner ma byt hybridni opteron/cell, nejaky jiny ma naopak pouzivat nejake GPU.

**TomasD** · 09.03.2008, 19:41

Errr.. hele, ale tohle sou bezny verejny informace, furt nic co by museli vysvetlovat v IBM.

ad 1) Ono zavisi jak si to predstavujes. Pokud mas program co ma vsechny data i program ve 256kB, tak to je nezavislej procesor. Coz vetsinou nema, takze musi komunikovat se zbytkem sveta. Ten pak ma namapovanej do normalniho adresniho prostoru a poruznu hrabe.

ad 2) SW cache funguje tak, ze si normalne v kusu local storu naemulujes normalni X-cestnou cache. Vcetne tagu, validity bitu, nejakejch dylek cache line atd.
Takze kdyz chces neco pres cache, tak najdes tag a validity bit, pres ne zjistit jestli to tam mas. Kdyz jo tak to natahnes z localstoru, kdyz ne tak zahajis DMA transfer a spokojene cekas az se to natahne.

ad 3) Jako ze by PPU slo do hlavni pameti pres cache, kdezto DMA primo? To by bylo dost husty tohle synchronizovat, aby v hlavni pameti byly vzdycky updatovany zaznamy. Tj. nejaka WTWNA by tam musela bejt.
Ne, normalne proste cache ma dva porty (nebo jeden prepinaci, to nevim) a DMA i PPU pristupujou do hlavni pameti skrz tu cache. Je to vyrazne jednodussi nez kdyby tam jeden sel primo a jeden pres cache

ad 4) Jo, slusny to je.
ad 5) Neni superpocitac jako superpocitac, zavisi na tom co presne chces superpocitat.

**Ryuu** · 17.03.2008, 00:58

Původně odeslal Petrik

Ehm, mozna bych mel napsat, ze vsechny cache jsou IMHO vzdy realizovane prave pomoci SRAM,

Diky za upozorneni, ale tak nejak mam trochu tuseni o tom, jak se cache realizuje.

Původně odeslal Petrik

protoze ta ma radove rychlejsi pristup nez bezne pouzivane DRAM.

Mam za to, ze jsem tu uz psal, ze mezi DRAM a SRAM o stejne velikosti neni v zasade zadny vetsi rozdil v rychlosti. DRAM muze oproti SRAM ztracet cas tim, ze je nutne zapojit jeste dodatecne zesilovace, oproti tomu ale zase je ta pamet celkove mensi (myslena plocha cipu), takze jsou kratsi datove cesty. Tady bude dost mozna asi zalezet na pouzite vyrobni technologii, takze v jedne bude rychlejsi DRAM, ve druhe SRAM. Ale i kdyz bude SRAM rychlejsi, rozhodne to nebude ani o rad.

Vyhoda SRAM je predevsim v tom, ze neni nutne periodicky obnovovat obsah jejich pametovych bunek. Ono pak docela zamrzi, kdyz si clovek chce sahnout do pameti a ona ho posle nekam s tim, ze ted ma zrovna svoji periodu...

Původně odeslal Petrik

Takze aby to bylo jasne: ty SPE maji vlastni RAM, ktera je HW totozna s napr. L1-cache u beznych CPU (=SRAM), ale vyhoda je prave v tom, ze ji nepouzivaji jako cache, ale jako RAM.

Ze to oboji ma SRAM pametove bunky bych sice nepovazoval za HW totoznost, ale budiz. Nicmene si nevsimam, ze bych tu tohle nejak zpochybnoval. Ale kdyz uz jsi s tim zacal, tak RAM misto standardni cache neni nutne vyhoda. Pro urcite ulohy se hodi vic to, pro jine zase ono. Vsecko je vzdycky nutne posuzovat vzhledem k tomu, na co chce clovek danou vec pouzivat. Nicmene je fakt, ze v tomhle pripade bych asi nechtel resit synchronizaci tech cachi.

Původně odeslal TomasD

K tomuhle ucelu je v SDK primo SW cache

Jen ciste ze zvedavosti. Ta SW cache asi nijak neresi koherenci, takze kdyz jeden SPE zapisuje nekam, co druhy cte, tak ma asi smulu a zmena se k nemu nedostane, spravne?

Původně odeslal TomasD

Velka cache pred hlavni pameti je (512KB). PPE jde do hlavni pameti pres cache a DMAcko kontroler co visi na ringbusu jde tudiz taky pres cache.

Jsou nejaky verejny informace o tom, jak to DMA chodi pres cache? Tam bych docela tipoval neco jako ze kdyz se to v cache najde, pracuje se s ni, a kdyz ne, nacte se to stranou a do cache to nejde. Preci jen, kdyby to slo vsecko pres cache, SPEcka by se s PPEckem o tu cache dost praly, pricemz streamovy data vetsinou cachovat nepotrebujes, protoze to proste jednou nactes, prechroustas a pak zase vyplivnes.

Původně odeslal TomasD

Slozite by se to resit muselo, dokonce mnohem slozitejc nez na normalni sbernici. Tam vicemene vsichni vidi veskerou komunikaci a muzou podle adresy co bezi po sbernici reagovat (viz MESI protokol).

<rejp>Na to pozor. MESI nevyzaduje sdilenou sbernici, da se implementovat prakticky na cemkoliv. Kdyz uz pouzivat nejakej protokol na ukazku bus snoopingu, je lepsi ten WT-WNA

</rejp>

**JonnZ** · 16.05.2008, 17:52

IBM predstavila 5-krát výkonnejšieho nasledovníka Cellu
http://www.dsl.sk/article.php?article=5732

**Petrik** · 10.06.2008, 10:04

IBM Roadrunner zkusebne spusten:
http://www.zive.cz/Bleskovky/IBM-Roa...5/default.aspx

**THX** · 10.06.2008, 14:19

Tiez nova spurs engine karta: 4 SPE 1,5ghz cell prekona v spracovani videa Quad Core2 3ghz.
http://www.tomshardware.com/news/son...-cpu,5617.html

**Fox!MURDER** · 10.06.2008, 14:25

Původně odeslal THX

Tiez nova spurs engine karta: 4 SPE 1,5ghz cell prekona v spracovani videa Quad Core2 3ghz.
http://www.tomshardware.com/news/son...-cpu,5617.html

pokud pro to vymyslej (a realizujou) jeste jiny vyuziti, byl by to fajn doplnek do highend PC ...

**NeMeM9aA** · 11.06.2008, 11:03

cell by mel byt pouzit k upscalingu videa. viz cdr

**Petrik** · 11.06.2008, 13:15

IMHO to je spise prace pro GPU, ale to je jedno. Ono plati obecne, ze kdyby se v beznych aplikacich zacali pouzivat vedecke postupy pro odsumovani, interpolaci a pod, tak bychom se asi dost divili, co vsechno je mozne, problem je v tom, ze na to je potreba hafo vypocetniho vykonu a spickovych programatoru co to napisi. Napr. takova metoda konstatni sumace (mozna ze prvni slovo je jine), ktera slouzi pro odsumovani signalu z druzic a podobych vesmirnych signalu, dokaze vytahnout signal s velmi vysokou ucinnosti ktery je az o nekolik radu slabsi nez sum (to nam ukazovali na MFF UK)...stejne tak interpolace v profi softech pro specializovane ucely dokaze az zdvojnasobit rozliseni bez viditelneho rozdilu.

**Fox!MURDER** · 11.06.2008, 13:59

Původně odeslal Petrik

spickovych programatoru

tohle je imo ten nejvetsi problem (imo problem i Cellu samotnyho) ... takovejch lidi beha po svete par tisic ... zbytek jsou code monkeys, kteri ale bohuzel tvori vetsinu soucasnyho software ...

**Kaltas** · 12.06.2008, 13:45

Původně odeslal Fox!MURDER

tohle je imo ten nejvetsi problem (imo problem i Cellu samotnyho) ... takovejch lidi beha po svete par tisic ... zbytek jsou code monkeys, kteri ale bohuzel tvori vetsinu soucasnyho software ...

Nu tak Code Monkeys se bez problému hodí na .NETí kancelářskou aplikaci, nebo skriptování v PHP, takže užití samozřejmě mají. Jakmile ale přijde řada na výpočetně náročné aplikace, je to něco jiného.

**Petrik** · 20.07.2008, 11:25

Cell bude jako pomocny procesor v notebooku Toshiba:
http://www.svethardware.cz/art_doc-4...A00368615.html

**LISP** · 29.10.2008, 15:00

Původně odeslal Petrik

Cell bude jako pomocny procesor v notebooku Toshiba:
http://www.svethardware.cz/art_doc-4...A00368615.html

Jenom bych upřesnil. Cell tam nebude. To co tam bude, je derivát chipu od Toshiby, který obsahuje 4SPU jednotky. PPC jádro by tam bylo k ničemu, bylo by to plýtvání křemíkem. I tak je to super.

**Petrik** · 27.03.2009, 12:15

LCD TV s Cellem: http://www.hdtvblog.cz/novinky/toshi...i-s-cipem-cell

Q · 25.06.2009, 15:09

zeptam se na takovou zajimavost... na diskuzich forech sem cetl, ze pry se Cell v PS3 u nekterych her pouziva take pro graficke vypocty jako napr pixel shading apod. a takto ve spolupraci s PS3 GPU RSX renderuje vysledny obraz...budu napriklad citovat:
"CELL procesor dokáže počítat Vertex, Pixel a Geometry Shadery a k tomu zvládne počítat fyziku, streaming audia atd. najednou...o další grafické operace se pak postará grafický čip, proto hra vypadá ve výsledku tak skvěle..."
pripada mi to jako nejaky nesmysl proto nekoho prosim o objasneni, diky

**Petrik** · 26.06.2009, 02:07

Nejsem odbornik na cell ani na GPU, ale myslim ze nesmysl to neni. Obecne plati ze libovolny vypocet, co dokaze udelat GPU, muze pocitat i CPU. Obvykle se to neprovadi, protoze x86 CPU je vetsinou v grafickych operacich zalostne pomaly ve srovnani s GPU, ale toto u cellu nemusi platit a je dokonce mozne ze pro urcite operace je cell mozna vhodnejsi nez GPU a minimalne tim muze odlehcit zatez GPU. cell by mel byt obecne velmi vykonny ve streaming aplikacich nebo kdyz se provadi mnoho narocnych vypoctu s malym mnozstvim dat, protoze vypocetni "jadra" cellu maji sice malou (256kB), zato extreme rychlou "RAM" neboli local store. Je vsak dost pravdepodobne ze moderni GPU jej dokazi prekonat v naproste vetsine, mozna ve vsech vypocetnich operacich, protoze cell uz preci jen neni nejnovejsi kus kremiku a vyvoj jde na poli GPU opravdu milovymi kroky.

**DOC_ZENITH** · 26.06.2009, 23:32

Cell bere od GPU v PS3 opravdu hodně. Třeba komplet celou geometrii. Ono totiž GPU, když nemusí počítat geometrii, je na tom ihned lépe. Cell má na využití jádra pro který je problém psát programy, a tak se zapřahují cím jen se dá a snaží se tam tak ulehčit té dýchyvičné osekané G70.

Ale můžeš najít důkazy i na PC. Obdobnou věc, ala přehození některých GPU operací na CPU dělá třeba dualcore patch na quake 4. Doom 3 engine, kterej po CPU stránce nelimituje ani Pentium 3, je čistě GPU limited a i se slabym GPU došlo při aplikování tohoto patche k dratickému nárůstu FPS. Je tedy evidentní, že druhé jádro bylo využito k některým operacím, co doteď dělalo GPU.

Myslim, teď určitě nepovim kde to bylo, ale viděl jsem video z vývoje Killzone 2, technická část. Měli tam normálně real-time scénů, pak to prostě pauznuli, mohli tam hejbat kamerou, pak tam spustili přes celou obrazovku takový system load info, který jim říkalo kolik je na scéně polygonů, kde a co je zpracovává, na kolik % jedou jednotlivý jádra cellu, jak jsou na tom s RAM/ Vram, atd.

Tato přímá optimalizace se ale dá prakticky vyloučit u jakýchkoliv multiplatformních her.

Q · 07.07.2009, 21:24

jako verim tomu ze jako kazdej jinej procesor se stara o vertexy pro GPU, pocita fyziku, AI atd... ale tomu kooperacnimu renderingu moc neverim nebo si alespon nedokazu predstavit jak by takova spoluprace vypada...Cell by mohl grafiku pocitat jedine softwarove takze nejaka kombinace hw a sw renderingu mi pripada dost nepravdepodobna stejne jako aby prebiral nejaky operace co se normalne provadi na urovni GPU a nasledne mu je zdlouhave posilal po sbernici pro dalsi zpracovani...
tady je ukazka renderingu jen pomoci Cellu http://www.youtube.com/watch?v=ehwFOM4CBKA
zadnej zazrak to neni, takze i kdyby to nejak slo moc by RSX nepomohl... ale jako zadnej odbornik nejsem a klidne se pletu takze jestli je tady nekdo v tomhle smeru znalej, rad se priucim

**JonnZ** · 28.11.2009, 21:24

Americké letectvo kupuje 2200 PS3, na superpočítač

http://www.dsl.sk/article.php?article=8379

Téma: Cell

Nástroje témat

Zobrazení

Re: Cell

Re: Cell

Re: Cell

Re: Cell

Re: Cell

Re: Cell

Re: Cell

Re: Cell

Re: Cell

Re: Cell

Re: Cell

Re: Cell

Re: Cell

Re: Cell

Re: Cell

Re: Cell

Re: Cell

Re: Cell

Re: Cell

Re: Cell

Re: Cell

Re: Cell

Re: Cell

Re: Cell

Re: Cell

Informace o tématu

Users Browsing this Thread

Podobná témata

Procesory Cell - PS3

Nvidia podvádí i v Beyond3d's Splinter Cell benchmark?

Pravidla přispívání