Snapdragon S4 Pro: Krait ja Adreno 320 testissä

Artikkelin kirjoittaja: Teemu Laitila

Suorituskyvyn yksityiskohdat: Prosessoriytimien suorituskyky kellojaksoa kohti


Suorituskyky kellojaksoa kohti



Tähän mennessä olemme vertailleet lähinnä eri järjestelmäpiirien suorituskykyä eri laitteissa. Silti Qualcomminkin tekniset tiedot kertovat, että APQ8064:n Krait-ytimet voidaan asettaa toimimaan 1,5 tai enimmillään 1,7 GHz:n taajuudella. Tegra 3:n kellotaajuus vaihtelee 1,2 aina 1,6 GHz:n.

Siksi testien tulosten perusteella ei voida suoraan tehdä johtopäätöksiä muissa laitteissa käytettyjen järjestelmäpiirien osalta, erityisesti jos ne toimivat eri kellotaajuuksilla. Tästä syystä Sandran ytimen suorituskykyä kellojaksolla mittava lukema on äärimmäisen hyödyllinen: sen avulla päästään näkemään pelkän ytimen suorituskyvyn lisäksi ytimen suorituskyky kellotaajuuteen suhteutettuna.

Ytimien suorituskyky tietyllä kellotaajuudella

OMAP 4430
Tegra 3 (T30L) S3 (APQ8060)
S4 Plus (MSM8960)
S4 Pro (APQ8064)
CPU
Kaksi Cortex-A9 -ydintä @ 1 GHz Neljä Cortex-A9 -ydintä @ 1.3 GHz Kaksi Scorpion -ydintä @ 1.2 GHz Kaksi Krait -ydintä @ 1.5 GHz
Neljä Krait -ydintä @ 1.5 GHz
Native Arithmetic
(MOPS/MHz)
0.23 0.21
0.15
0.20
0.20
Native Multi-media
(kPix/s/MHz)
1.15 1.14
1.37
1.69
1.60
Java Arithmetic
(MOPS/MHz)
0.045
0.043
0.035
0.057
0.051
Muisti
(MB/s/MHz)
.301
0.19
0.53
1.10
0.75


Qualcommin Krait-arkkitehtuuri pärjää hyvin, mutta sen hyvien tulosten taustalla on sen 1,5 GHz:n kellotaajuus (ainakin testeissä käytetyn kehitysalustan tapauksessa), jonka avulla Krait ohittaa TI:n OMAP 4430 -piirin. Kellojaksoa kohti TI:n järjestelmäpiiri on itse asiassa nopeampi.

Se ei kuitenkaan vähennä Qualcommin APQ8064-piirissä saavuttaman suorituskyvyn merkitystä. Piiri on suunniteltu toimimaan vähintään 1,5 GHz:n taajuudella. TI:n piiri toimii 1 – 1,2 GHz:n taajuudella. Eli vaikka TI ohittaa Krait-ytimet suorituskyvyssä kellojaksoa kohti, näissä nimenomaisissa toteutuksissa se ei kuitenkaan pärjää modernimmalla Krait-pohjaiselle järjestelmäpiirille.

Ytimien suorituskyky tietyllä kellotaajuudella: laskenta

OMAP 4430 Tegra 3 (T30L) S3 (APQ8060) S4 Plus (MSM8960)
S4 Pro (APQ8064)
CPU
Kaksi Cortex-A9 -ydintä @ 1 GHz Neljä Cortex-A9 -ydintä @ 1.3 GHz Kaksi Scorpion -ydintä @ 1.2 GHz Kaksi Krait -ydintä @ 1.5 GHz Neljä Krait -ydintä @ 1.5 GHz
Dhrystone (MIPS/MHz)
2.34
2.21 1.92
2.55
2.64
Whetstone Double
(FLOPS/MHz)
0.023 0.021
0.012
0.15
0.015
Whetstone Float
(FLOPS/MHz)
0.031 0.029
0.016
0.16
0.022
Whetstone Float/Double
(FLOPS/MHz)
0.026
0.025 0.011
0.15
0.018


Kun tarkastelleen laskentatestin eri osioita tarkemmin, nähdään mikä nostaa TI:n OMAP 4430:n nopeimmaksi. Vaikka Qualcommin APQ8064 on nopeampi kokonaislukulaskuissa kellojaksoa kohti, se ei pärjää TI:n ytimelle liukulukulaskentaa testaavassa Wheatstone-testissä.

Silti pitää edelleen ottaa huomioon, että nämä tulokset ovat täysin synteettisistä testeistä. OMAP 4430 ja APQ8064 eivät ikinä tule kilpailemaan keskenään samalla kellotaajuudella. Testien tarkoituksena on lähinnä selvittää, millä osa-alueilla mikäkin arkkitehtuuri on vahvimmillaan.

Ytimien suorituskyky tietyllä kellotaajuudella: multimedia

OMAP 4430 Tegra 3 (T30L) S3 (APQ8060) S4 Plus (MSM8960)
S4 Pro (APQ8064)
CPU
Kaksi Cortex-A9 -ydintä @ 1 GHz Neljä Cortex-A9 -ydintä @ 1.3 GHz Kaksi Scorpion -ydintä @ 1.2 GHz Kaksi Krait -ydintä @ 1.5 GHz Neljä Krait -ydintä @ 1.5 GHz
Multi-media Integer [NEON]
(kPix/s/MHz)
1.15
1.14 1.23 1.34
1.38
Multi-media Float [NEON]
(kPix/s/MHz)
1.16 1.09
1.53
2.13
1.81
Multi-media Double [FPU]
(kPix/s/MHz)
0.56 0.54
0.40
0.33
0.42
Multi-media Float/Double
(kPix/s/MHz)
0.80
0.77 0.77
0.83
0.87


Kun tarkastellaan suorituskykyä Sandran multimediatestin avulla, nähdään selvästi millä avuilla Krait ohittaa sekä Scorpionin että OMAP:n Cortex-A9-ytimen.

Krait loistaa erityisesti niissä tehtävissä, joissa se pääsee hyödyntämäään ARM:n NEON64- ja 128-bittistä käskykantaa. Qualcommin uusin tuotos luovuttaa johtoasemansa vain, kun mitataan suorituskykyä Vector Floating Point -tilassa. Siitä ei kuitenkaan kannata olla huolissaan, NEON on huomattavasti tehokkaampi tekniikka ja se on todennäköisimmin käytössä tosimaailman sovelluksisa.

Usemman ytimen suorituskyky



Jo useita vuosia takaperin Intel ja AMD siirtyivät suunnittelemaan useamman ytimen prosessoreita yksittäisten ydinten suorituskyvyn kasvattamisen sijaan. Sovelluskehittäjien oli opeteltava hyödyntämään prosessoreiden monistettuja resursseja saadakseen nopeushyötyjä uusimmilla alustoilla.

Sama muutos on tapahtumassa mobiilimaailmassa kun useamman ytimen järjestelmäpiirit kasvattavat rinnakkaissuorituskykyä virtapiheissä arkkitehtuureissa. Kuten työpöydillä on havaittu, kaksi- tai neliydinprosessoreiden suorituskyky ei skaalaudu lineaarisesti. Synteettisillä testeillä saadaan tuloksia, jotka heijastelevat parasta mahdollista tilannetta, mutta tosimaailman suorituskyky vaihtelee huomattavasti enemmän.

Eroavaisuudet johtuvat ainakin osittain siitä miten ytimet työskentelevät keskenään. Säikeistettyjen ohjelmien ajaminen edellyttää datan jakamista fyysisten ytimien välillä. Jos jakaminen ei ole toteutettu tehokkaasti, suorituskyky putoaa. Tarpeeksi suuri kaistanleveys ja pienet latenssit ovat erittäin tärkeitä. TI:n OMAP 4430 kykenee siirtämään eniten dataa ytimiensä välillä ja Nvidian Tegra 3 seuraa perässä, missä auttaa sen erittäin pieni latenssi.

Kommentoi artikkelia