Sandy Bridge esittelyssä: toisen sukupolven Core-prosessorit

Artikkelin kirjoittaja: Manu Pitkänen | 0 kommenttia

Sandy Bridge sisältä käsin: Ytimet ja välimuisti


Edellisellä sivulla oli kuva Sandy Bridge -sirusta. Se näytti sinustakin varmasti täysin erilaiselta verrattuna edeltäjiin. Clarkdale-prosessorithan rakentuivat kahdesta sirusta, joista toisessa oli 32 nanometrin prosessilla varustettu kaksiytiminen prosessori ja toisella 45 nanometrin tekniikalla valotetut näytön- ja muistinohjaimet. Nyt edessämme on yhdestä osasta koostuva 32 nanometrin prosessilla valotettu siru. Tarkempi tarkastelu kuitenkin paljastaa paljon samankaltaisuuksia eri sukupolvien välillä, joten ne ovat siis läheisesti yhteydessä toisiinsa.



Aina kun kuulet jotakin Sandy Bridgestä, niin sinun tulee muistaa yksi asia: integraatio.

Tällä hetkellä Sandy Bridge -siruja on itse asiassa kolmekin eri versiota. Neliytiminen, jossa 995 miljoonaa transistoria on ahdettu 216 neliömillimetrin alalle. Lisäksi on kaksiytiminen siru, johon kuuluu 12 grafiikkamoottorin yksikköä. Transistoreita tässä versiossa on 624 miljoonaa ja kokoa on 149 neliömillimetriä. Kaikkein vaatimattomin on 504 miljoonasta transistorista koostuva versio, jossa on kaksi ydintä ja kuusi grafiikkamoottorin suoritusyksikköä. Sirun koko on 131 neliömillimetriä.

Sirun koko (mm2)

Transistorit (miljoonaa)

Sandy Bridge (4C)

216

995

Sandy Bridge (2C, HD Graphics 3000)

149

624

Sandy Bridge (2C, HD Graphics 2000)

131

504

Bloomfield (4C)

263

731

Lynnfield (4C)

296

774

Westmere (2C)

81

383

Gulftown (6C)

248

1168



Ytimet



Tällä hetkellä Sandy Bridge -prosessoreita on saatavilla ainoastaan neliytimisinä versioina (ei Hyper-Threading-tukea) ja kaksiytimisinä (joissa kaikissa HT-tuki). Kuten jatkossa tulet näkemään, niin uudet ytimet ovat paljon suorituskykyisempiä kuin samalla taajuudella toimivat Nehalem-ytimet.



Sirulta löytyy 32 kilotavun L1-käskyvälimuisti ja -datamuisti (jokaiselle ytimelle löytyy myös 256 kilotavun edestä L2-muisti). Sandy Bridge -prosessoreista löytyy uutena ominaisuutena niin sanottu L0-käskyvälimuisti, johon voidaan varastoida 1500 dekoodattua mikro-operaatiota. Ominaisuus vähentää virrankulutusta ja nopeuttaa käskyjen suorittamista, koska se mahdollistaa tarpeettomien dekoodereiden sammuttamisen. Intel on onnistunut lisäksi tarkentamaan BPU:ta.





Ajoin yllä esitetyt ohjelmat (yksisäikeisiä) läpi Nehalem- ja Sandy Bridge -prosessoreilla. Prosessoreiden kellotaajuudet ovat samat, joten tuloksista näkyy Intelin tekemien teknologisten parannusten käytännön vaikutus.

Sandy Bridge -prosessorit tukevat ensimmäisinä 256-bittistä AVX-käskykantalaajennusta. AMD:n prosessorit tukevat samaa laajennusta Bulldozer-arkkitehtuurin myötä. AVX-käskykantalaajennuksesta on hyötyä raskaissa liukulukuoperaatioissa. Ohjelmat eivät toistaiseksi tue AVX:ää kovin laajasti, mutta Intel odottaa ohjelmistokehittäjien ottavan hyödyn siitä irti tulevaisuudessa (etenkin audio- ja video-ohjelmissa). Tällä hetkellä emme voi mitenkään testata AVX-suorituskykyä.

AVX-tukea varten Intel on muuttanut rekisteritekniikkaansa. Retirement-tyyppisen rekisterin sijasta prosessoreissa on fyysinen rekisteri. Rekisterinmuutoksella saadaan aikaan se, että operandit voidaan säilöä rekisteritiedostoon, eikä niitä tarvitse kuljettaa mikro-operaatioiden mukana out-of-order-osion läpi (katso alempi kuva). Fyysisen rekisterin tuomat säästöt virrankulutuksessa ja sirun pinta-alassa antoivat Intelille mahdollisuuden kasvattaa buffereiden kokoa liukulukulaskennan jouduttamiseksi.



Välimuisti



Ominaisuuksien integroinnin vuoksi Intel joutui pähkäilemään uudelleen kuinka eri komponentit pääsevät käsiksi viimeisen tason välimuistiin (L3).

Bloomfield-, Lynnfield- ja Clarkdale-prosessoreissa oli neljä (Westmeressä jopa kuusi) ydintä, joista jokaisella oli suora pääsy alimman tason välimuistille. Xeon 7500-sarjan prosessoreissa on käytössä jo kahdeksankin ydintä, kiitos paremman välimuistiratkaisun. Jos Xeoneissa olisi käytetty samanlaista ratkaisua kuin edellisissä prosessoreissa, niin lopputuloksena olisi ollut kohtuuttoman suuri määrä yhteyksiä ytimien ja alimman tason välimuistin kanssa. Intel on ratkaissut ongelman käyttämällä niin sanottua rengasväylää (ring bus).



Aiemmin tänä vuonna minulla oli mahdollisuus keskustella Sailesh Kottapallin kanssa, joka Intelin vanhempi insinööri. Hän kertoi minulle, että havainneensa rengasväylän mahdollistavan Xeon 7500 -sarjan prosessoreissa 300 GB/s:n jatkuvan tiedonsiirtonopeuden välimuistin ja ytimien välillä. Myöhemmin IDF:ssä Intel kertoi ryhtyvänsä käyttämään rengasväylää jokaisessa tuotteessaan. Komponenttien integroiminen prosessorille ja ytimien lukumäärän kasvu jatkuvat tämän perusteella tulevaisuudessakin lähes varmasti.

Valtavirtaluokan Sandy Bridge -prosessoreissa Inteliä ei huolettanut ytimien lukumäärä, joten rengasväylän käyttö ei johdu siitä. Samalle sirulle rakennettu grafiikkaydin sen sijaan pakotti Intelin siirtymään Sandy Bridge -prosessoreissa uuteen väyläratkaisuun. Rengasväylä yhdistää prosessoriytimet, grafiikkaytimen ja ytimen ulkopuoliset osat toisiinsa. Vaikka latenssiseikat tulevat tällaisessa ratkaisussa entistä oleellisemmaksi, niin väylä on rakennettu niin, että jokaisella komponentilla on lyhin reitti välimuistille. Latenssit jäävät pienemmiksi mitä ne ovat Westmere-prosessoreissa.

Kommentoi artikkelia