Phenom či Athlon, alebo ako veľmi záleží na L3 cache?

AMD má s novými 45nm procesormi vynikajúcu ponuku, ktorá pokrýva priestor od 30€ až po 170€. Množstvo modelov je nahustených cenovo tesne vedľa seba, často je problém aj pre technicky zdatnejších vyznať sa ktorý procesor je na daný účel najvhodnejší. V dnešnom krátkom článku porovnáme v mnohých známych testoch dva rovnaké, trojjadrové procesory, ktoré sa líšia iba prítomnosťou, resp. absenciou L3 cache. Je taká dôležitá, aby bolo treba za ňu priplácať?

Úvod

Čo je, a na čo vlastne slúži cache u procesorov?

Pamäťová hierarchia u desktopových počítačov by sa dala opísať nasledovne – od najlacnejších a najpomalších pevných diskov/SSD s kapacitami v stovkách GB, pokračujúc drahšími a rýchlejšími RAM pamäťami v kapacitách po GiB a končiac najrýchlejšími ale aj na výrobu najdrahšími cache pamäťami s kapacitami od niekoľkých kiB po niekoľko MiB. V skratke by sa dalo povedať, že cache u procesorv slúži na to, aby jadrá spracúvavajúce inštrukcie nad určitými dátami nemuseli siahať do pomalých a vzdialených pamätí (RAM). Namiesto toho sú potrebné dáta kopírované do cache niekoľkých úrovní, ktoré sú priamo na jednom kuse kremíka spolu s exekučnými jednotkami procesora.

Moderné procesory majú dnes trojúrovňovú cache, teda pamäť procesora je rozdelená do troch „levelov“, alebo L1, L2 a L3 ako ich bežne poznáme. 45nm AMD procesory majú dva krát po 64kiB L1 cache, pre dáta a inštrukcie. Druhá úroveň cache je o veľkosti 512kiB, opäť pre každé jedno z jadier. Tieto cache pracujú na frekvencii procesora. Posledná úroveň je spoločná pre všetky jadrá, je najväčšia a tiež zaberá podstatnú časť plochy jadra. AMD Phenom procesory majú 6MiB L3 cache, ktorá je v osobitne taktovanej časti nazývanej aj UnCore, či CPU-NorthBridge.



Existujú dva princípy funkcie cache – exkluzívna a inkluzívna. AMD využíva u svojich procesorov exkluzívnu cache, čo znamená že nižšia vrstva pamäte neobsahuje dáta vyššej vrstvy. Zrejmá je výhoda lepšieho využitia kapacity, nevýhoda sa však skrýva pri tom, keď jedno jadro kontroluje, či sa rovnaké dáta nenachádzajú v cache iných jadier – u exkluzívnom prístupe sa vo veľkej L3 cache nenachádzajú kópie dát z L1 a L2 ostatných jadier, jedno jadro sa teda musí „pozrieť“ postupne ku všetkým ostatným jadrám, až potom môže vykonať ďalšiu operáciu (spracovať dáta, vyžiadať dáta z RAM, ...). Intel využíva inkluzívnu cache, teda existujú kópie dát z L1 v L2, a opäť z L2 vo veľkej L3 cache. Ak sa teda určité dáta nenachádzajú v L3 cache, je istota že sa nebudú nachádzať ani u ostatných jadier, teda sa vyhľadávanie v ich cache preskočí.

Ako je architektúra cache efektívna sa dá vyjadriť pojmami cache hit a chache miss. Požiadavky na dáta, ktoré môže obslúžiť daná cache priamo sa nazýva cache hit, ak daná cache tieto dáta neobsahuje a musí ich vyžiadať z pamäťových prostriedkov nižších úrovní sa nazýva cache miss. Je zrejmé, že cache miss bude zavádzať oneskorenie a teda aj zníženie výkonu.
S akou efektivitou pracujú jednotlivé cache procesora je možné zistiť nástrojom PerfMonitor od tvorcov známeho programu CPU-Z.



Ďalším dôležitým pojmom súvisiacim s cache pamäťou, je jej asociativita (associativity). Zjednodušene povedané, asociativita udáva, na koľko miest v cache môžu byť kopírované dáta z hlavnej pamäte. Pokiaľ procesor môže vybrať akúkoľvek pozíciu pre dáta do cache, je táto nazývaná ako plne asociatívna (fully associative). Existuje aj extrém z druhého konca, keď dáta z pamäte môžu byť kopírované iba na jedno miesto v cache – vtedy sa jedná o direct mapped cache. V desktopových procesoroch sa využívajú cache opisované ako n-asociatívne, teda existuje konkrétny počet miest v cache, kde môžu byť dáta kopírované. 2-way associative je napríklad L1 cache u dnešných AMD procesorov, čo znamená že akákoľvek pozícia v hlavnej operačnej pamäti môže byť kopírovaná na 2 pozície v tejto cache. Vynikajúco to ilustruje obrázok z on-line encyklopédie Wikipedia:



Čím je číslo asociativity vyššie, tým lepšie sú aj hodnoty cache hit, no na druhej strane sa zas predlžuje čas, kedy sa tento väčší počet miest v cache kontroluje. Viac asociatívna cache nám teda zlepšuje cache hit, ale zas aj zvyšuje latenciu.

AMD využíva 2-way associative L1 dátovú aj inštrukčnú cache, čo zabezpečuje nízku latenciu. Pre kompenzáciu horších hodnôt cache hit je zvýšená kapacita (oproti Intelovskej L1 cache) na 64kiB pre dátovú aj inštrukčnú cache.



Súčasná ponuka procesorov od AMD zahŕňa modely s jedným až štyrmi jadrami, resp. s L3 cache a bez nej. Pri uvádzaní 45nm Phenom-ov boli chvíľu na trhu aj čipy s 4MiB L3 cache namiesto 6MiB (Phenom II X4 8xx), no tie sa s postupne zlepšujúcou sa výrobou dnes už u Globalfoundries celkom vytratili z trhu. Máme tu teda modelový rad Phenom II (X2, X3 a X4) s 6MiB L3 cache, Athlon-y II (X3 a X4) s rovnakou štruktúrou L1 a L2 cache ale bez L3 cache a nakoniec Athlon-y II X2 a jeden Sempron, ktoré majú rovnakú L1 cache, dvojnásobnú L2 cache (2x1MiB) a žiadnu L3 cache.

Veľkosť jadra procesorov Phenom II je príliš vysoká na to, aby bolo možné tieto predávať ako konkurenciu pre Intelovské Pentium DualCore a Core2Duo, preto sa firma rozhodla vytvoriť tieto jadrá „osekané“ o veľkú L3 cache. Je jasné, že takýto krok podstatne zlacní výrobu ale na druhej strane môže mať aj veľký a citeľný dopad na výkon v určitých aplikáciách. AMD z časti kompenzuje tento fakt už tradične vynikajúcou cenou za veľký počet jadier (štvorjadro už za 90€, kto by to bol kedy tušil!).





Aký konkrétny vplyv na výkon v moderných testoch, aplikáciách a hrách má absencia L3 cache sa pokúsim zodpovedať v dnešnom článku. Ďalšiu stranu prosím...

Test

V dnešnom teste sa zameriam na porovnanie dvoch totožných procesorov, ktoré sa líšia iba prítomnosťou L3 cache – model bez nej zastúpi Athlon II X3 435 na 2,9GHz s TDP 95W a v revízii C2, čip s 6MiB L3 cache bude Phenom II X3 720 s miernym pretaktovaním pomocou násobiča z 2,8GHz na 2,9GHz, taktiež s TDP 95W a v C2 revízii. Na takto vyrovnaných procesoroch sa najlepšie ukáže vplyv L3 cache.

Ďalší použitý hardvér pozostáva z nasledovných komponentov:

MSI 785GM-E65 – s.AM3, AMD 785G + SB710
4x1GiB DDR3 – Kingston HyperX @ 1333MHz, CL6
Gigabyte Radeon HD4850 OC 1GiB
be quiet! Dark Power Pro 550W
Seagate Barracuda 7200.10, 160GB

Softvérová výbava zahŕňa 64bit verzia operačného systému Windows 7, základné AHCI ovládače od Microsoftu, ovládače grafickej karty Catalyst 10.1 a v čase písania testu aktuálne ovládače čipsetu. Zloženie testov zastrešuje oblasti ako je 3D rendering, ray-tracing, kompresia videa do rôznych formátov a rôznymi populárnymi nástrojmi, náročné FPS 3D hry, spracovanie fotografií, kompresiu súborov, matematické a vedecké výpočty. Komplexný obraz o výkone celého systému podáva PCMark Vantage.
Niektoré benchmarky už boli spúšťané v 64-bit režime, konkrétne Cinebench R10, Pov Ray, Windows Media Encoder a komplexný PCMark Vantage. Ostatné bežali v 32bit režime.

3D rendering, raytracing



V testoch profesionálnych grafických aplikácií sa rozdiel medzi procesorom s L3 cache a bez nej prejavil iba v Cinebench R10, kde rovnako taktovaný Athlon zaostáva o cca 11% (využitie všetkých jadier) resp. o 6,8% (jedno jadro). V PovRay a Blenderi sú rozdiely zanedbateľné, je zrejmé že L3 cache sa využíva minimálne.

Video encoding



Pri kompresii videa pomocou rôznych kodérov sa prítomnosť L3 cache prejavila pozitívne hlavne u DivX 6 (Athlon pomalší približne o 8%), trocha menej výrazne u Windows Media Encoder 9 (Athlon zaostáva o cca 2,5%). X.264 kodek si potrpí hlavne na frekvenciu.

Excel, kompresia dát a zvuku, Web



Výpočet zložitých a rozsiahlych tabuliek v MS Office Excel je na L3 cache dosť citlivý, procesor bez nej zaostáva v priemere o 25%, čo už je citeľný pokles. Podobne je na tom kompresia súborov v programe WinRAR, Athlon II X3 435 skončil úlohu o 13 sekúnd neskôr ako Phenom, čo je vyše 15%. Test web prehliadača Firefox 3.6 v benchmarku Futuremark Peacekeeper ukázal minimálne odchýlky, výkon web aplikácií teda kúpou Athlon-a neutrpí, rovnako ako pri kompresii zvukového súboru do formátu mp3.

Spracovanie bitmapovej grafiky



Benchmark od retouchartists.com pre Adobe Photoshop aj test v freeware programe Paint.net ukazuje, že v tomto prípade na L3 cache nezáleží. Dôležitá je skôr frekvencia a hlavne počet jadier ktoré sa do výpočtov zapoja.

Matematické výpočty



Výpočet jedného milióna čísel za desatinnou čiarkou čísla pí dokáže celkom slušne ťažiť z L3 cache, cca 12% je pekný skok, aj napriek tomu že o reálnom výkone tento benchmark veľa nenapovie. Komplexný ScienceMark 2.0 na L3 cache moc nehľadí, dôležitejší tu je skôr hrubý výkon z vysokej frekvencie. V prostredí vynikajúceho nástroja Mathematica vo verzii 7 sa L3 cache takisto dokáže uplatniť – integrovaný benchmark ukázal, že Athlon zaostáva za Phenom-om o cca 11,5%.

PCMark Vantage



PCMark Vantage od firmy Futuremark preveruje výkon počítača komplexne, je tu zahrnutý výkon pri spracovaní obrázkov, konverzii videa a audia, prehrávania HD videa, kompresii a dekompresii vrátane kryptovania, renderovaní web stránok či práca s niektorými aplikáciami (Windows Media Center, Windows Media Player, Windows Mail, vyhľadávanie, Windows Defender, ...). Takto celistvo ocenil výkon počítačov s procesormi bez a s L3 cache na rovnakú úroveň – v konečnom dôsledku by tak užívateľ nemal nijak citeľne rozoznať, že systém poháňa „okresaný“ Athlon.

Hry



Pri graficky náročných First Person Shooter hrách je situácia, dá sa povedať, všade rovnaká – vo vysokom rozlíšení 1680x1050 je výkon obmedzený predovšetkým grafickou kartou, rozdiel medzi Phenom a Athlon je zanedbateľný. Aby sa prípadné rozdiely prejavili, je nutné znížiť detaily a rozlíšenie – môže to byť prípad, keď skúšate hrať hry na integrovanej grafickej karte. Tu sa 6MiB L3 cache už prejavuje. Nie je to však natoľko dôležité – v 1024x768 dnes hrá myslím málokto.

Multitasking



Test práce viacerých aplikácií zároveň, tzv. Multitasking, spočíva v spustení konverzie videa pomocou Windows Media Encoder 9 (x64), súčasne s otvoreným prehliadačom Firefox 3.6 a spusteným 1080HD trailerom na YouTube.com plus niekoľko otvorených kariet a teste spracovania fotografie vo vysokom rozlíšení v Adobe Photoshop CS4. Meraný je čas, za aký sa dokončí aplikovanie efektov a filtrov na obrázok vo Photoshop-e, čím menší čas, tým lepšie.
Pri takejto záťaži dokázal trojjadrový procesor s 6MiB L3 cache skončiť úlohu o 4 sekundy skôr, čo je približne o 10% rýchlejšie ako rovnaký čip bez L3 cache. Osobitne som otestoval štvorjadrový Athlon II X4 635, ktorý dokázal skončiť za 30 sekúnd, teda ani veľká L3 cache nenahradí jedno jadro navyše.

Spotreba

Meranie spotreby dnešných AMD procesorov je vcelku zložitý proces. Veľa totiž závisí od pracovného napätia, ktoré ale základné dosky často nastavujú inak pre rovnaké čipy, prípadne nastavia automaticky zbytočne vysoké napätie (tu prichádza vhod ručné znižovanie v BIOS-e). Podobne to bolo aj pri tomto teste – pre Phenom II X3 720 doska MSI 785GM-E65 nastavila pod záťažou podstatne nižšie napätie (1,325V) ako pre Athlon II X3 435 (1,425V), čo sa prejavilo vo vyššej spotrebe Athlon-a, ktorý má ale podstatne menej tranzistorov ako Phenom. V stave bez záťaže ale bolo napätie totožné, preto je vidno rozdiel, ktorý pridáva 6MiB L3 cache na Phenom-e – je to približne 8W.



Záver

Ak by som mal zodpovedať otázku z nadpisu dnešného testu, musel by som povedať – ako kedy, ako kde. Kúpiť procesor s 6MiB L3 cache, teda plnohodnotný Phenom II, sa oplatí snáď iba ak spracúvavate zložité a extrémne rozsiahle tabuľky v MS Excel, komprimujete väčšinu času dáta a v prípade že využívate veľa náročných aplikácií zároveň (multitasking). O niečo menej prilepší L3 cache pri enkódingu videa. Zoznam prípadov, kde je jedno či kúpite procesor Athlon II bez L3 cache alebo Phenom II s L3 cache je už rozsiahlejší – 3D hry, spracovanie bitmapovej grafiky (Photoshop, Paint.net), 3D rendering, kompresia audia do mp3 či všeobecný výkon systému (Firefox Futuremark Peacekeepr, PCMark Vantage).

Pri hľadaní dôvodu, prečo je tak často minimálny rozdiel medzi procesormi s L3 cache a bez nej, by sme možno narazili na časť odpovede v podobe integrovaného pamäťového radiča. Test cache a pamäte programu Everest ukazuje, že hodnoty priepustnosti pri prístupe k RAM pamäti a k L3 cache sú si veľmi podobné, určite s podstatne menšími rozdielmi ako pri L2 a L1 cache. Rozdiely vo výkone vznikajú zrejme vtedy, keď je aplikácia citlivá na časovú odozvu pri prístupe k dátam – latencia. Tú má samozrejme RAM pamäť niekoľkonásobne vyššiu.



Akokoľvek môže záver z týchto pár vybraných benchmarkov vyzerať zmiešane, ja osobne môžem povedať – pre tradičný, domáci, multimediálny počítač si kúpte Athlon II s troma či štyrmi jadrami a ušetrené peniaze z kúpy Phenom-a investujte napríklad do väčšej RAM pamäte, modernejšieho a rýchlejšieho disku prípadne výkonnejšej grafickej karty. Celkový dojem z výkonu vašej PC zostavy bude v takom prípade lepší, ako keby ste siahli po drahšom Phenom-e a šetrili inde.

Istý náznak toho, že aj v AMD si uvedomujú situáciu, keď len v málo prípadoch u reálnych aplikácií záleží, či má procesor L3 cache, sa dá vidieť aj v stavbe ponuky – pokiaľ si pozornejšie prezriete tabuľku procesorov na prvej strane, zistíte, že (s výnimkou úsporných edícií CPU) sú všetky Phenom-y II taktované od 3GHz vyššie, zatiaľ čo Athlon-y II končia taktom práve na hranici 3GHz. Možno práve takto chce AMD oddeliť výkonovo lacnejšie modely od (aj na výrobu) drahších Phenom-ov, pri rovnakej frekvencii sú si totiž tieto procesory v mnohých prípadoch nebezpečne blízko.

Z procesorov AMD Phenom sa zrejme oplatí najviac model X4 955 vo verzii Black Edition – za veľmi dobrú cenu okolo 150€ ponúkne otvorený násobič, podobne ako drahší topmodel X4 965 BE. Ak už vychytíte novú revíziu C3, dostanete aj bonus v podobe nižšej spotreby energie, lepšej pretaktovateľnosti či lepšej kompatibilite pamätí. Úsporné verzie si dokážete spraviť aj vlastnoručne – jednoduchým znížením napätia pre jadro CPU v BIOS-e základnej dosky. Obľúbený trojjadrový Phenom II X3 720 BE už z ponuky zmizol, ostatné dvojjadrá by som osobne radšej menil za Athlon-y s jedným alebo dvoma jadrami navyše.

Z rodiny Athlon II procesorov by sa dali vzhľadom na svoju cenu odporučiť nasledovné modely: Athlon II X2 250 (3GHz, 2MiB L2 cache), Athlon II X3 435 (2,9GHz, tri jadrá, vysoká šanca na odomknutie štvrtého jadra) a Athlon II X4 630 (2,8GHz, štyri jadrá). Úsporné edície si opäť ako u Phenom-ov môžete vytvoriť aj sami, znížením napájacieho napätia jadra.



Za poskytnutie DDR3 pamätí ďakujem spoločnosti Kingston.

Komentáre (18)
AmOK
Strucne a jasne. Uvod trosku tazky, ale to je ok. Aspon som potrapil zavity. Nemam rad recenzie, testy na 20 stran s 100 tabulkami... Btw, len sa potvrdilo, co som si o L3 cashi Phenoma II myslel. Na bezne pouzivanie zbytocnost. Skoda, ze si nezmeral spotrebu pri rovnakej voltazi a pri plnej zatazi v teste, kde je L3 dobre vytazena. Asi by to spravilo relativne vela wattov oproti malemu rozdielu v idle.
Broslowski
..Super citanie, clanok na urovni, myslim ze vela ludom pomoze pri vybere cpu, ta l3 cache fakt nic moc cakal som ze to spravi viac:)
hvk
super clanok,potvrdil presne to,co som si myslel,ze athlon II si so svojou "len" L2 cache uplne vystaci oproti rovnako taktovanemu phenomu II a za podstatne nizsiu cenu....
frcko73
Super clanok....mnohym pomoze a otvori oci....Dakujem.
adun
este by som uvital spravit aj test phenom/athlon/core i3/core i5, ale to chcem asi vela co :D
roob
v desktope mam AII x4 620 2,6GHz (13x200). Je to vyborny procesor, do domacej zostavy uplne postacujuci. Pretaktoval som ho zatial na 15,5x200=3100MHz, ale pouzitam ho momentalne na def. frekvencii, lebo je ot uplne zbytocne. Ak pridu aplikacie, ktore uz na def. nebudu stihat, tak ho taktnem. V clanku autor dobre pise, usetrit na cpu, dat do vga. Do pracovneho pc by som ale volil PhII x4 945 3GHz.
roob
aha, tak opravujem, kukam ceny, a 955 je len o 9€ drahsi. Neoplati sa teda 945.
matelkoxxl
fakt dobre citanie a poucne...nie rozsiahle, ale tak akurat.palec hore za to :-)
PatrikL
pekné aspoň máme čo linkovať keď budeme presviedčať ľudí že x3 425/435 je dobrý cpu a že sa viac-menej oplatí viac ako nejaké 2-jadro :)
flanker
škoda té spotřeby, šlo by dodatečně naměřit spotřebu s rovnocenným napětím (např 1.325V) ? Ona totiž byla dána volná ruka tvůrců BIOSů a tak často s enapětí liší kus od kusu a také někdy dle verze BIOSu.
amd64
dobry clanok, aspon vidno aky je v reali rozdiel. mohli by tu byt viacero takychto clankov :)
adun
este by som uvital spravit aj test phenom/athlon/core i3/core i5, ale to chcem asi vela co :D
AmOK
Toto je test ciste len o fungovani, vyzname L3 cashe a vhodnom vybere AMD procaku, ked ma niekto dilemu. Aj sa tak ten clanok vola. Ak potrebujes porovnat vykon roznych procesorov v roznych aplikaciach, tak staci pozriet AnandTech a budes mat jasno. http://www.anandtech.com/bench/default.aspx?b=2&c=1
lkuzman
Peťo vďaka, zistil som že procák čo som dávnejšie kúpil mi vlastne netreba, keďže som bežný user, podpriemerný gejmer a bývalý oc-er.
AmOK
Lubo (dufam, ze navadi), to mas este dobre, oproti ludom co si kupia kombicko auto a potom zistia, ze vozit niet co a v meste sa parkuje lepsie s nejakym krpcom... :D (joke)
Nickk
"toto naša vláda chcela!" :) niečo také som hľadal THX
Ján Kurej
Pekne spracovana recenzia. cg
maladaptiv
Veľmi pekný článok.
Pridať nový komentár
TOPlist