Νέες σειρές καρτών γραφικών από AMD, Nvidia και Intel

**psolord** · 15-12-19, 02:02

Αρχικό μήνυμα από MNP-10

Το κανουν τα κινητα ηδη χωρις να καινε 300w

Δλδ οι επιδοσεις τους αναλογικα με τα watt που καινε ειναι αδιανοητες.

Δεν εχεις και αδικο...

Η 5700ΧΤ ειναι ~10tflops FP32 στα 7nm.

https://www.techpowerup.com/gpu-spec...-5700-xt.c3339

H Adreno 640 επισης στα 7nm ειναι~1tflop FP32 με περιπου ιδια διαφορα ~10-12X υπερ της 5700XT σε gtexels και gpixels.

https://en.wikipedia.org/wiki/Adreno#Variants

Το προβλημα ειναι οτι η 5700ΧΤ εχει TDP 225W με πραγματικο average gaming power draw επισης εκει κοντα. Απο την αλλη ο SD855 που περιλαμβανει το Adreno 640, εχει καταναλωση 5W!

https://www.notebookcheck.net/Qualco....374761.0.html

Δε ξερω ποσο ακριβη ειναι τα νουμερα του notebookcheck, αλλα αν κρινω απο τεστακι του Anandtech στα παλαιοτερα μοντελα, δε πρεπει να ειναι πολυ off.

https://www.anandtech.com/show/12420...ance-preview/4

Οποτε εχουμε 5W per 1tflop για το Adreno 640 και 225/10=22.5W per tflop για την 5700ΧΤ. Η διαφορα ειναι πραγματι πανω απο Χ4 υπερ των mobiles. Βεβαια η Nvidia δεν εχει μιλησει στα 7nm. Μπορει αυτο το 225W να παει στα 150W απο οτι υπολογιζω, για 10tflops, αλλα και παλι μιλαμε για Χ3 στην καλυτερη.

Βεβαια υπαρχει και το θεμα της υποστηριξης των διαφορων apis, που χρειαζεται transistor budget, αλλα βλεπω το Adreno υποστηριζει Vulkan, Dx12, OpenGL you name it!

- - - Updated - - -

ΥΓ το οτι εχεις παραλιγο τη δυναμη του XBOX One σε κινητο των 250 ευρω, 6 χρονια μετα, ειναι τρελο!

**~~uncharted~~** · 15-12-19, 03:05

Δεν χρειάζονται transistor budget τα APIs, assembly/machine code καταλαβαίνουν οι GPUs, όπως και οι CPUs.

Είναι σαν να λέμε χρειάζεται transistor budget η CPU για Win32 API ή Java... nope, x86 assembly καταλαβαίνει, τίποτα άλλο.

Vulkan και DX12 είναι το ίδιο και το αυτό για την GPU, δεν καταλαβαίνει APIs, assembly opcodes ξέρει να αναγνωρίζει μόνο. O driver κάνει την μετάφραση από HLSL σε raw assembly (ενίοτε η μετάφραση δεν είναι τέλεια και σπάνε πράγματα).

Από εκεί και πέρα το efficiency είναι trade-off με το form factor. Το να συγκρίνουμε mobile GPU με discrete GPU είναι σαν να συγκρίνουμε μηχανάκι με νταλίκα.

Ναι, το μηχανάκι είναι πιο efficient ανά λίτρο βενζίνης που θα κάψει, θα σε πάει και στο περίπτερο οικονομικά, αλλά ΔΕΝ έχει το μεταφορικό capacity μιας νταλίκας. Άρα τι συμπέρασμα βγαίνει;

Διαφορετικά πράγματα για διαφορετικές δουλειές.

Το ότι η AMD υπερχρονίζει στον θεό τις GPUs της είναι γνωστό. Το ότι δεν κάνει undervolt επίσης είναι γνωστό. Για όλα υπάρχει το sweet spot αν ασχοληθεί κάποιος να το βρει. Δεν είναι γραμμική η καμπύλη MHz/volt/watts, γνωστά πράγματα αυτά.

Το να πάρεις το Adreno και να το κάνεις scale up σε discrete GPU, είναι δεδομένο ότι δεν θα έχει το ίδιο efficiency.

Το κάνει και η nVidia από την Maxwell και έπειτα. "Built for mobile first" έλεγε ο Πέτσινος. Υπάρχει ο Tegra X1 (Nintendo Switch), υπάρχει και η GTX 1080. Έχουν το ίδιο efficiency; Όχι και είναι λογικό.

Επίσης, καμία mobile μνήμη (LPDDRx) δεν έχει το bandwidth capacity μιας GDDRx. Τα mobile εδώ και πολλά χρόνια παίζουν με scratchpad memory και tiling.

E guess what? Το ίδιο κάνει και η nVidia (Maxwell), το ίδιο και η AMD (Vega/DSBR). Έχουν και scratchpad (L2 cache), έχουν και GDDRx (ή HBMx). Best of both worlds.

Καλή τύχη λοιπόν να πιάσεις XXX GB/s σε κινητό με low power DRAM και narrow bus... τα πολλά Teraflops θέλουν να τα ταΐσεις κάπως, αλλιώς stallάρουν.

Τo ΧΒΟΧ ΟΝΕ έχει 32MB eSRAM των 200 GB/s. Scratchpad/framebuffer memory. Οτιδήποτε έχει να κάνει με read-modify-write operations (alpha effects) γίνεται εκεί χωρίς performance hit.

**psolord** · 15-12-19, 08:06

Αρχικό μήνυμα από uncharted

Δεν χρειάζονται transistor budget τα APIs, assembly/machine code καταλαβαίνουν οι GPUs, όπως και οι CPUs.

Είναι σαν να λέμε χρειάζεται transistor budget η CPU για Win32 API ή Java... nope, x86 assembly καταλαβαίνει, τίποτα άλλο.

Vulkan και DX12 είναι το ίδιο και το αυτό για την GPU, δεν καταλαβαίνει APIs, assembly opcodes ξέρει να αναγνωρίζει μόνο. O driver κάνει την μετάφραση από HLSL σε raw assembly (ενίοτε η μετάφραση δεν είναι τέλεια και σπάνε πράγματα).

Από εκεί και πέρα το efficiency είναι trade-off με το form factor. Το να συγκρίνουμε mobile GPU με discrete GPU είναι σαν να συγκρίνουμε μηχανάκι με νταλίκα.

Ναι, το μηχανάκι είναι πιο efficient ανά λίτρο βενζίνης που θα κάψει, θα σε πάει και στο περίπτερο οικονομικά, αλλά ΔΕΝ έχει το μεταφορικό capacity μιας νταλίκας. Άρα τι συμπέρασμα βγαίνει;

Διαφορετικά πράγματα για διαφορετικές δουλειές.

Το ότι η AMD υπερχρονίζει στον θεό τις GPUs της είναι γνωστό. Το ότι δεν κάνει undervolt επίσης είναι γνωστό. Για όλα υπάρχει το sweet spot αν ασχοληθεί κάποιος να το βρει. Δεν είναι γραμμική η καμπύλη MHz/volt/watts, γνωστά πράγματα αυτά.

Το να πάρεις το Adreno και να το κάνεις scale up σε discrete GPU, είναι δεδομένο ότι δεν θα έχει το ίδιο efficiency.

Το κάνει και η nVidia από την Maxwell και έπειτα. "Built for mobile first" έλεγε ο Πέτσινος. Υπάρχει ο Tegra X1 (Nintendo Switch), υπάρχει και η GTX 1080. Έχουν το ίδιο efficiency; Όχι και είναι λογικό.

Επίσης, καμία mobile μνήμη (LPDDRx) δεν έχει το bandwidth capacity μιας GDDRx. Τα mobile εδώ και πολλά χρόνια παίζουν με scratchpad memory και tiling.

E guess what? Το ίδιο κάνει και η nVidia (Maxwell), το ίδιο και η AMD (Vega/DSBR). Έχουν και scratchpad (L2 cache), έχουν και GDDRx (ή HBMx). Best of both worlds.

Καλή τύχη λοιπόν να πιάσεις XXX GB/s σε κινητό με low power DRAM και narrow bus... τα πολλά Teraflops θέλουν να τα ταΐσεις κάπως, αλλιώς stallάρουν.

Τo ΧΒΟΧ ΟΝΕ έχει 32MB eSRAM των 200 GB/s. Scratchpad/framebuffer memory. Οτιδήποτε έχει να κάνει με read-modify-write operations (alpha effects) γίνεται εκεί χωρίς performance hit.

Νομίζω ότι αστειευομαστε τώρα. "Δε χρειάζονται transistor budget τα apis"??? Και πως έρχονται τα νέα features σε οτιδήποτε ηλεκτρονικό; Από τον ουρανό;

So what’s Cypress in a nutshell? It’s a RV790 (Radeon HD 4890) with virtually everything doubled, given the additional hardware needed to meet the DirectX 11 specifications

https://www.anandtech.com/show/2841

Δε χρειάζεται transistor budget το RT? To compute?

Δε χρειάζεται transistor budget η CPU για x64, mmx, sse, avx, you name it? Και πως ήρθαν όλα αυτά;

Για τα υπόλοιπα περί upscaling μικρών κυκλωμάτων σε μεγαλύτερα, αν δεν πάρουν ένα adreno 640 να το κανουν Χ10 που θα πάει Χ10 και το bandwidth, δε μπορούμε να ξέρουμε ακριβώς που θα φτάσει. Οκ προφανώς δεν είναι τόσο εύκολο, αλλά να συγκρίνεις νευτώνεια φυσική που έχει να κάνει με αποδόσεις καυσίμου σε συνδυασμό με τη βαρύτητα και τις τριβές που αντιστοιχούν στον πλανήτη μας, με τα ηλεκτρονικά κυκλώματα, είναι λίγο άστοχο δε νομίζεις;

**MNP-10** · 15-12-19, 12:16

Αρχικό μήνυμα από psolord

Το προβλημα ειναι οτι η 5700ΧΤ εχει TDP 225W με πραγματικο average gaming power draw επισης εκει κοντα. Απο την αλλη ο SD855 που περιλαμβανει το Adreno 640, εχει καταναλωση 5W!

Το οποιο ειναι μεσα στο SOC και τα 5w μετρανε βασικα ολο το SOC με οτι εχει μεσα και οσο χρηση γινεται σε αυτο

Αν ολο το τσιπακι ηταν αφιερωμενα τα τρανζιστορ του στο gpu, θα το εριχναν απ'τα 600 mhz σε τιποτα 100-200, με πολλαπλασιο transistor count για το ιδιο το gpu και θα εβλεπες ουτε 2 watt / tflop. Ειναι πανευκολο να ριξεις πλεον τη καταναλωση αν αυξησεις τα τρανζιστορ για να μενουν οι επιδοσεις σε υψηλα επιπεδα. Και αυτο ακριβως κανουν ολα τα mobile parts.

- - - Updated - - -

Αρχικό μήνυμα από uncharted

Το να πάρεις το Adreno και να το κάνεις scale up σε discrete GPU, είναι δεδομένο ότι δεν θα έχει το ίδιο efficiency.

Το κάνει και η nVidia από την Maxwell και έπειτα. "Built for mobile first" έλεγε ο Πέτσινος. Υπάρχει ο Tegra X1 (Nintendo Switch), υπάρχει και η GTX 1080. Έχουν το ίδιο efficiency; Όχι και είναι λογικό.

Το θεμα ειναι οτι CPU + GPU ειναι πλεον thermally capped.

Τι εννοω...

Τα fabs οσο κατεβαινουν σε nanometra σου δινουν απο ~40 εκ τρανζιστορ/mm2 (14nm) στα ~100εκ (10nm ιντελ / 7nm tsmc) στα ~180-200εκ στα 7nm intel / 5nm tsmc EUV.

Στην AMD ενω μπορουν να πανε στα 100εκ τρανζιστορ/mm2 και σε λιγους μηνες στα 180-200 (5 euv), δε το κανουν γιατι εχουν φαει CAP απ'το ποσα watt αντεχει το πυριτιο ανα mm2 γιατι οι ιδιοι το δουλευουν με ψηλα volt+frequencies = ψηλα watt.

Οποτε τωρα η AMD ειναι στο 40% utilization του density (τα 7nm ειναι πρακτικα marketing gimmick αφου ειναι 14αρι intel στη πραξη - δλδ το navi σημερα εχει το ιδιο density με τα Iris IGP των 14nm broadwell πριν 4μιση χρονια!!!) που μπορει το fab ενω συντομα, στα 5nm EUV, η AMD θα εκμεταλλευεται μονο το 1/3 με 1/4 του density την ωρα που τα low power κομματια θα ζουλανε το 100% αφουν δεν εχουν θεμα με watt/mm2.

Η αυξηση την επιδοσεων περναει μονοδρομα απ'την εκμεταλλευση του density και αυτο θα γινει μονο οταν βγει το thermal cap. Με αλλα λογια λιγοτερα clocks / λιγοτερα volts / λιγοτερα watt ανα mm2. Και θες και πολυ λιγοτερη επιφανεια πυριτιου γιατι δε δινεις αποστασεις (ωστε να αποφυγεις βραχυκυκλωματα σε high voltages).

Στις GPU αυτο ειναι πανευκολο, σε αντιθεση με τις desktop CPU που θελουμε single thread performance. Για server/mobile/laptop/tablet CPU ειναι οκ.

Για τις μνημες η λυση ειναι παρομοια - αφου και αυτες εμπιπτουν στους ιδιους κανονες για τη καταναλωση των τσιπ. Θελει χαμηλοτερα clock, σε χαμηλοτερα frequencies, με πολλαπλασια καναλια. Αν παιζεις στα μισα clock θες 1/4 των watt ριχνοντας αντιστοιχα τα volt. Αν βαλεις 2πλασια καναλια παιζεις στο 1/2 των watt με ιδιο bandwidth. Αν βαλεις 4πλασια καναλια παιζεις στα ιδια watt αλλα με διπλασιο bandwidth. Και αν φτιαξεις τη ram με καλυτερο fab process, μπορεις να της ριξεις κι'αλλο τα volt/watt.

- - - Updated - - -

Meanwhile:

https://www.tweaktown.com/news/69097...rld/index.html

Qualcomm Adreno 650 GPU 'most efficient graphics core in the world' Qualcomm's new Snapdragon 865 has 'most efficient graphics core in the world' with Adreno 650

The new Adreno 650 GPU in the Snapdragon 865 has a very decent 25% faster graphics rendering over the previous-gen GPU, while being 35% more power-efficient. Qualcomm said that Adreno 650 is the "most efficient graphics core in the world". Qualcomm made a strong point that the new Snapdragon 865 and Adreno 650-powered GPU offer sustained performance, versus turning up and killing benchmarks but losing power over time as speeds drop to keep heat and power consumption down. Qualcomm doesn't just want to make a better chip, it wants to be the outright leader in its field -- it's not used to coming in second best. This means that the Adreno 650 can drive gaming on Snapdragon 865 to "desktop-level" performance -- but desktop graphics cards like NVIDIA GeForce and AMD Radeon products have huge coolers and much larder TDPs.

Πατήστε στην εικόνα για να τη δείτε σε μεγέθυνση.

Όνομα: 69097_02_qualcomm-adreno-650-gpu-most-efficient-graphics-core-world_full.jpg
Εμφανίσεις: 2
Μέγεθος: 79,2 KB
ID: 209672

**~~uncharted~~** · 15-12-19, 15:44

Αρχικό μήνυμα από psolord

Νομίζω ότι αστειευομαστε τώρα. "Δε χρειάζονται transistor budget τα apis"??? Και πως έρχονται τα νέα features σε οτιδήποτε ηλεκτρονικό; Από τον ουρανό;

Άλλο πράγμα έγραψα, άλλο πράγμα κατάλαβες.

Τα νέα features έρχονται με επεκτάσεις στο instruction set ή/και νέους drivers. Πλέον μάλιστα σπανίως αλλάζει η ISA (η RDNA παραμένει GCN ISA).

Για αναρωτήσου πως η nVidia έδωσε DX12 support ακόμα και στις αρχαίες Fermi. Όταν είχαν βγει οι Fermi, είπε ποτέ η nVidia ότι έχουν DX12 features baked-in; Όχι. Άρα πως έγινε;

Έβγαλαν νέους drivers που έκαναν μετάφραση των DX12 API calls στο machine code της Fermi, τόσο απλό.

Η AMD γιατί δεν έδωσε DX12 support στις TeraScale; Γιατί δεν είναι τεχνικά εφικτό λόγω ανεπαρκούς feature set ή μήπως γιατί δεν έχει πολύ προσωπικό/πόρους στο κομμάτι των drivers και αποφάσισε να τις βγάλει EOL;

Υπάρχει μια και μοναδική TeraScale σε όλο τον πλανήτη που έχει υποστήριξη για low-level API. Όπως υπάρχει και μια αρχαία GeForce 3 με DX12-like API. Για σκέψου το πως είναι τεχνικά εφικτά αυτό.

Η GeForce 3 όταν βγήκε στην ουσία έκανε επέκταση του register combining instruction set της GeForce 2 για να υποστηρίξει programmable shaders:

https://techreport.com/review/2515/n...ics-processor/

Είναι κάτι ανάλογο με το SSE όπου παίρνει 4 inputs και δίνει 1 output. Φυσικά και θέλει transistor budget αυτό. Αυτό που σου λέω είναι ότι η GPU δεν καταλαβαίνει τι είναι DirectX/OpenGL API calls (αυτό είναι δουλειά του driver), machine code καταλαβαίνει, όπως κάθε επεξεργαστής σε αυτό το σύμπαν.

Τα MESA/Gallium3D του Linux τι νομίζεις ότι είναι; Hardware-baked features ή libraries/API calls;

Αρχικό μήνυμα από psolord

Δε χρειάζεται transistor budget το RT? To compute?

Εντολές είναι αυτά που πατάνε σε συγκεκριμένα cores.

Αρχικό μήνυμα από psolord

Δε χρειάζεται transistor budget η CPU για x64, mmx, sse, avx, you name it? Και πως ήρθαν όλα αυτά;

Και αυτά εντολές είναι. Θα ισχυριστείς ότι τα νέα Win32/64 API calls είναι baked-in στο hardware; Όχι.

Είναι σαν να λες ότι βάλανε hardware support για OpenSSL API calls σε CPUs, ενώ το σωστό είναι να πεις ότι οι CPUs υποστηρίζουν AES-NI instruction set (AES-256 hardware acceleration).

Αντιληπτή η διαφορά ή τσάμπα γράφω;

Μπορείς να βγάλεις το PsolordSSL που κατά 98-99% θα είναι όμοιο με το OpenSSL. Όπως επίσης μπορείς να βγάλεις το Psolord3D που επίσης θα είναι κατά 98-99% όμοιο με Vulkan.

Έλα όμως που τα τσιπάκια δεν καταλαβαίνουν από PsolordSSL/Psolord3D. Machine code τα ταΐζεις ανέκαθεν. Δεν καταλαβαίνουν άλλη "γλώσσα".

Αρχικό μήνυμα από psolord

Για τα υπόλοιπα περί upscaling μικρών κυκλωμάτων σε μεγαλύτερα, αν δεν πάρουν ένα adreno 640 να το κανουν Χ10 που θα πάει Χ10 και το bandwidth, δε μπορούμε να ξέρουμε ακριβώς που θα φτάσει. Οκ προφανώς δεν είναι τόσο εύκολο, αλλά να συγκρίνεις νευτώνεια φυσική που έχει να κάνει με αποδόσεις καυσίμου σε συνδυασμό με τη βαρύτητα και τις τριβές που αντιστοιχούν στον πλανήτη μας, με τα ηλεκτρονικά κυκλώματα, είναι λίγο άστοχο δε νομίζεις;

Οι νόμοι της φυσικής ισχύουν για όλους. Δεν υπάρχει γραμμικό scaling efficiency/απόδοσης όσο ανεβαίνεις στην κλίμακα του form factor.

Και σου ξαναλέω: η nVidia από εποχής Maxwell κάνει ακριβώς αυτό το πράγμα. Φτιάχνει κάτι για mobile first (Tegra) και μετά κάνει scale τα CUDA cores προς τα πάνω. Βλέπεις να έχει γραμμικό scaling;

Ναι μεν βελτίωσε το efficiency της συγκριτικά με την Kepler, αλλά γραμμικό scaling δεν έχει. Πάντα ο Tegra θα είναι πιο efficient από μια discrete nVidia. Αλλά δεν έχουν το ίδιο raw power, αφού δεν προορίζονται για την ίδια δουλειά.

Ο MNP δεν μιλάει για gaming σενάρια τόση ώρα, για compute (mining) μιλάει. Εκεί δεν θες ούτε ROPs, ούτε TMUs, ούτε VCE/UVD/VCN. Θες FP32 ALUs. Αυτό ακριβώς κάνει η Arcturus, αλλά δεν προορίζεται για την gaming αγορά.

Δεν έχεις αναρωτηθεί γιατί τα ROPs/TMUs δεν αυξάνονται τόσο πολύ όσο για τα AMD CUs/CUDA cores; Μήπως γιατί εκεί χρειάζεσαι τα υψηλά ρολόγια; Λέω εγώ τώρα...

Ακόμα και τα ALUs να δούμε, από εποχής TeraScale είχαμε 1536 shading units στην HD 6970 με λιθογραφία 40nm. Η RX 5500 έχει 1408 ALUs (με διπλάσια clocks, άρα και περίπου διπλάσια Teraflops). Θα περίμενες να έχει πολλά περισσότερα ALUs με το άλμα 40 -> 7nm (έστω και με sub-optimal transistor density), αλλά έλα που δεν έχει.

https://www.techpowerup.com/gpu-spec...n-hd-6970.c258
https://www.techpowerup.com/gpu-spec...-rx-5500.c3459

Γιατί; Μήπως γιατί έχουν βάλει περισσότερα υποστηρικτικά κυκλώματα να πλαισιώνουν αυτά τα ALUs και έτσι να ανέβει το πολυπόθητο (για gaming πάντα) rasterization efficiency;

Trade-off/zero-sum game είναι όλα. Μπορείς να φτιάξεις Arcturus, μπορείς να φτιάξεις και Navi. Από κάπου θα κόψεις για να δώσεις αλλού. Δεν υπάρχει κάτι μαγικό.

Αυτά που λέει ο MNP γιατί δεν τα κάνει η Intel (που έχει μεγαλύτερο density συγκριτικά με τον ανταγωνισμό της TSMC) να διαλύσει τις nVidia/AMD; Εγώ σου λέω ότι θα το κάνει με τις Intel Xe.

Αυτό όμως δεν σημαίνει ότι θα διαλύσει τις nVidia/AMD σε gaming σενάρια, όχι μόνο λόγω αρχιτεκτονικής, αλλά και λόγω drivers που κάνουν όλη την επίπονη μετάφραση. Σε compute/mining σενάρια το συζητάμε όταν και αν βγουν.

- - - Updated - - -

Αρχικό μήνυμα από MNP-10

Το θεμα ειναι οτι CPU + GPU ειναι πλεον thermally capped.

Τι εννοω...

Τα fabs οσο κατεβαινουν σε nanometra σου δινουν απο ~40 εκ τρανζιστορ/mm2 (14nm) στα ~100εκ (10nm ιντελ / 7nm tsmc) στα ~180-200εκ στα 7nm intel / 5nm tsmc EUV.

Στην AMD ενω μπορουν να πανε στα 100εκ τρανζιστορ/mm2 και σε λιγους μηνες στα 180-200 (5 euv), δε το κανουν γιατι εχουν φαει CAP απ'το ποσα watt αντεχει το πυριτιο ανα mm2 γιατι οι ιδιοι το δουλευουν με ψηλα volt+frequencies = ψηλα watt.

Οποτε τωρα η AMD ειναι στο 40% utilization του density (τα 7nm ειναι πρακτικα marketing gimmick αφου ειναι 14αρι intel στη πραξη - δλδ το navi σημερα εχει το ιδιο density με τα Iris IGP των 14nm broadwell πριν 4μιση χρονια!!!) που μπορει το fab ενω συντομα, στα 5nm EUV, η AMD θα εκμεταλλευεται μονο το 1/3 με 1/4 του density την ωρα που τα low power κομματια θα ζουλανε το 100% αφουν δεν εχουν θεμα με watt/mm2.

Η αυξηση την επιδοσεων περναει μονοδρομα απ'την εκμεταλλευση του density και αυτο θα γινει μονο οταν βγει το thermal cap. Με αλλα λογια λιγοτερα clocks / λιγοτερα volts / λιγοτερα watt ανα mm2. Και θες και πολυ λιγοτερη επιφανεια πυριτιου γιατι δε δινεις αποστασεις (ωστε να αποφυγεις βραχυκυκλωματα σε high voltages).

Στις GPU αυτο ειναι πανευκολο, σε αντιθεση με τις desktop CPU που θελουμε single thread performance. Για server/mobile/laptop/tablet CPU ειναι οκ.

Για τις μνημες η λυση ειναι παρομοια - αφου και αυτες εμπιπτουν στους ιδιους κανονες για τη καταναλωση των τσιπ. Θελει χαμηλοτερα clock, σε χαμηλοτερα frequencies, με πολλαπλασια καναλια. Αν παιζεις στα μισα clock θες 1/4 των watt ριχνοντας αντιστοιχα τα volt. Αν βαλεις 2πλασια καναλια παιζεις στο 1/2 των watt με ιδιο bandwidth. Αν βαλεις 4πλασια καναλια παιζεις στα ιδια watt αλλα με διπλασιο bandwidth. Και αν φτιαξεις τη ram με καλυτερο fab process, μπορεις να της ριξεις κι'αλλο τα volt/watt.

Καλά όλα αυτά, αλλά αφενός η ΗΒΜ (wide bus/low clocks) είναι πανάκριβη έναντι της GDDR (less wide bus/high clocks), αφετέρου το να αυξήσεις το wideness της GDDR για να μειώσεις τα clocks έχει αυξημένο κόστος σε PCB (layers) και memory controller (υπάρχει λόγος που τα 512-bit GDDR σπανίζουν σε κάρτες γραφικών).

Στις CPUs η Intel έχει αυτοεγκλωβιστεί στο 5 GHz marketing gimmick και καλά ως gaming advantage (5 fps παραπάνω στο FC5), ενώ στα 10nm δεν μπορεί να δώσει τα ίδια clocks, γι' αυτό δεν το κουνάει ρούπι από τα 14++++++nm.

Κάτι ανάλογο είχε πάθει κάποτε με την ψησταριά τον P4 EE στα 3.8 GHz και το marketing department προσπαθούσε να λύσει τον γρίφο πως θα πείσουν τις μάζες (που δεν ξέρουν από IPC) να δεχτούν τον Core Duo (εξέλιξη του Pentium III).

Αν αλλάξει άρδην το προγραμματιστικό μοντέλο, μπορεί και να θυσιάσουν clocks/ST και να πάνε στο επόμενο node. Στο mobile γίνεται ήδη αυτό εδώ και χρόνια. Τα PC είναι αργοκίνητο καράβι, δεν αλλάζει ρότα εύκολα.

**MNP-10** · 15-12-19, 16:32

Καλά όλα αυτά, αλλά αφενός η ΗΒΜ (wide bus/low clocks) είναι πανάκριβη έναντι της GDDR

Τον ρωτησε ομως κανεις τον πελατη αν θελει να τα δωσει? Αμα ειναι compute client τι θα τον νοιαξει? Τα 150$ των 8gb της HBM? Εδω τα πληρωνουν gamers.

Αλλα σε low-mid end gaming, που ειναι και το bulk των gamers με βαση το steam, οι περισσοτεροι δεν εχουν καν μεγαλες αναγκες ενω τις καρτες εκεινες με τα πολλα tflop που ειναι δυνητικα ram bandwidth starved δε τις αγοραζουν καν (ειναι σε κατι μικρα μονοψηφια ποσοστα)... Απ'την αλλη με κατι τσιπακια στυλ 3400g ο τυπος βγαζει αρθρα οτι για entry-gaming PC δε χρειαζεσαι καν discrete και οτι ειναι ιδανικος κτλ κτλ... Μπορει να τα παραλενε κι'ολας απ'την αγαπη τους για την AMD αλλα αυτος ειναι στα 2 tflop με τη ...DDR4 του συστηματος.

Φυσικα η DDR4 ζουλαει πολυ για low power σεναρια οπότε για παρομοια bandwidth υπαρχουν λυσεις οπως quad channel lpddr4x 4266 (τετοια υποστηριζει ο snapdragon 855 @ 34gb/sec), lpddr5-5500 (44gb/sec), lpddr5-6400 (51gb/sec). O snap 865 θα εχει lpddr5-5500 απ'οτι διαβαζω.

Το θεμα ειναι οτι οι lpddr4/4x/5 μπορουν να γινουν οσα channel υποστηριζει το τσιπακι που θα βγαλεις. Δλδ εσυ μπορει να βγαλεις ενα τσιπακι και να υποστηριζει ...8-10-12-16 channel. Θα καις ελαχιστα και απλα θα ανεβαζεις bandwidth βαζοντας εξτρα μνημες... Τα εξτρα channel ειναι σα να δουλευονται σε RAID οι μνημες. Και υπαρχουν και αλλες λυσεις "αναγκης", οπως πχ του broadwell (Iris) που βασιζονταν στις πιο αργες DDR του τοτε αλλα ειχε την L4 για τα graphics που τους εδινε boost.

Γενικα λυσεις υπαρχουν αλλα σε ολιγοπωλειακη αγορα τα πραγματα κινουνται με καρβουνο....

**~~uncharted~~** · 15-12-19, 16:52

Αρχικό μήνυμα από MNP-10

Τον ρωτησε ομως κανεις τον πελατη αν θελει να τα δωσει? Αμα ειναι compute client τι θα τον νοιαξει? Τα 150$ των 8gb της HBM? Εδω τα πληρωνουν gamers.

Δεν τα πληρώνουν οι gamers, αυτό είναι το θέμα. Άπατες πήγαν οι Fury X/Vega (με εξαίρεση το mining craze).

Έχεις παρατηρήσει τι κάνει με τις Navi η AMD; Αντιγράφει την nVidia σχεδόν στα πάντα πλέον. Τιμολογιακή πολιτική, tiling/L2 cache, compression, low ALU counts, narrow buses, low GB/framebuffer, συμβατική GDDR6 μνήμη. Μόνο τα draw call κόλπα σε DX11/OGL δεν έχουν αντιγράψει ακόμα και έπονται τα HW RT/VRS στην RDNA2.

Πλέον HBM μόνο σε HPC/compute πελάτες θα δίνουν (βλ. Arcturus), όπως κάνει η nVidia με τις Volta σε υψηλά 4ψήφια ποσά, άρα τα ξεχνάνε οι κοινοί θνητοί.

**MNP-10** · 15-12-19, 17:00

Αρχικό μήνυμα από uncharted

Δεν τα πληρώνουν οι gamers, αυτό είναι το θέμα. Άπατες πήγαν οι Fury X/Vega (με εξαίρεση το mining craze).

Γενικα οι high end εχουν χαμηλες πωλησεις... και αμα ειναι και της AMD ακομα χειροτερα αφου εχει πολυ μικρα marketshare. Για τη vega ειδικα ειχε υποσκαφτει η υπαρξη της απ'την επερχομενη navi. Οπότε ειναι κι'αλλοι παραγοντες περαν της HBM.

Έχεις παρατηρήσει τι κάνει με τις Navi η AMD; Αντιγράφει την nVidia σχεδόν στα πάντα πλέον. Τιμολογιακή πολιτική, tiling/L2 cache, compression, low ALU counts, narrow buses, low GB/framebuffer, συμβατική GDDR6 μνήμη. Μόνο τα draw call κόλπα σε DX11/OGL δεν έχουν αντιγράψει ακόμα και έπονται τα HW RT/VRS στην RDNA2.

Πλέον HBM μόνο σε HPC/compute πελάτες θα δίνουν (βλ. Arcturus), όπως κάνει η nVidia με τις Volta σε υψηλά 4ψήφια ποσά, άρα τα ξεχνάνε οι κοινοί θνητοί.

Εντωμεταξυ η διαφορα τιμης των gddr6 και hbm2 δε δικαιολογει τις τιμες για τους compute πελατες. Ειναι υπερπολλαπλασια. Πεφτει αρμεγμα.

**~~uncharted~~** · 15-12-19, 17:16

Αρχικό μήνυμα από MNP-10

Απ'την αλλη με κατι τσιπακια στυλ 3400g ο τυπος βγαζει αρθρα οτι για entry-gaming PC δε χρειαζεσαι καν discrete και οτι ειναι ιδανικος κτλ κτλ... Μπορει να τα παραλενε κι'ολας απ'την αγαπη τους για την AMD αλλα αυτος ειναι στα 2 tflop με τη ...DDR4 του συστηματος.

Εσύ τι λες, με 2TF και 128-bit (dual channel) DDR4 δεν θα είσαι bandwidth starved;

1.84TF έχει το PS4 με GCN 1.1 και 176 GB/s (256-bit GDDR5).

Και ναι, η Vega είναι πιο efficient από GCN 1.1 (αν και αυτό το ρημάδι το DSBR μάλλον δεν δούλεψε ποτέ, χώρια τα primitive/mesh shaders), αλλά πόσο πιο efficient είναι για να την παλέψει με μόλις 50GB/s; Στην ουσία λιγότερα είναι λόγω 2933 MHz limit (ποτέ δεν κατάλαβα γιατί βάζει τέτοια όρια στις APUs vs discrete CPUs, συν τα πετσοκομμένα PCIe lanes).

Που κι αυτά δηλαδή είναι shared με την Zen CPU (πιο απαιτητική από Jaguar) και θα έχεις memory contention issues.

Τεχνικά άνετα μπορεί να βγάλει μια APU σαν του PS4 (με πιο σύγχρονα cores/uarch) με wide DRAM bus, αλλά δεν το κάνει. Γιατί; Υπάρχει τεχνικό κώλυμα; Ή έχει συμβόλαιο αποκλειστικότητας/NDA με Sony/MS; Μόνο η Λίζα ξέρει τι έχουν υπογράψει.

Το σίγουρο είναι ότι με GDDR θα έχεις soldered DRAM chips στην motherboard, πολύ πιθανό και η APU να είναι σε BGA package. Άρα εκεί ξεχνάς την φιλοσοφία PC (open platform με upgradeable socket/DIMMs). Θα είναι όπως οι discrete GPUs, όλα κολλημένα σε μια πλακέτα.

Χώρια το κόστος, που σε καμία περίπτωση δεν θα είναι τόσο φτηνό όσο ένα PS4 Slim (€200). Γιατί αν βγάλει καμία τέτοια mobo (σκέτη mobo, όχι ολοκληρωμένο σύστημα) με €400-500 και πάει άπατη εμπορικά, τι νόημα θα έχει;

Συν τα HSA/hUMA (το δυνατό point των APUs), όπου αγνοείται η ύπαρξη αυτών των features σε software (OS/apps) επίπεδο λόγω IBM PC BC (Vega iGPU/2GB reserved)...

Αρχικό μήνυμα από MNP-10

Φυσικα η DDR4 ζουλαει πολυ για low power σεναρια οπότε για παρομοια bandwidth υπαρχουν λυσεις οπως quad channel lpddr4x 4266 (τετοια υποστηριζει ο snapdragon 855 @ 34gb/sec), lpddr5-5500 (44gb/sec), lpddr5-6400 (51gb/sec). O snap 865 θα εχει lpddr5-5500 απ'οτι διαβαζω.

Στα κινητά μέχρι 64-bit bus θα δεις, δεν βάζουν παραπάνω. Και όπως είπα έχουν scratchpad SRAM & image compression, έτσι την κουτσοπαλεύουν.

Αρχικό μήνυμα από MNP-10

Το θεμα ειναι οτι οι lpddr4/4x/5 μπορουν να γινουν οσα channel υποστηριζει το τσιπακι που θα βγαλεις. Δλδ εσυ μπορει να βγαλεις ενα τσιπακι και να υποστηριζει ...8-10-12-16 channel. Θα καις ελαχιστα και απλα θα ανεβαζεις bandwidth βαζοντας εξτρα μνημες... Τα εξτρα channel ειναι σα να δουλευονται σε RAID οι μνημες.

Άρα λες να βάλουν LPDDR σε GPUs;

DDR/LPDDR/GDDR είναι παραλλαγές της ίδιας DRAM τεχνολογίας για διαφορετικές εφαρμογές, με διαφορετικές ανάγκες.

Αρχικό μήνυμα από MNP-10

Και υπαρχουν και αλλες λυσεις "αναγκης", οπως πχ του broadwell (Iris) που βασιζονταν στις πιο αργες DDR του τοτε αλλα ειχε την L4 για τα graphics που τους εδινε boost.

Αυτό ακριβώς κάνουν οι σύγχρονες GPUs, έχουν tiling (σπάνε την εικόνα σε κουτάκια) και μετά βάζουν το κουτάκι στην L2 και το επεξεργάζονται ταχύτατα χωρίς bottlenecks.

**MNP-10** · 15-12-19, 17:49

Αρχικό μήνυμα από uncharted

Εσύ τι λες, με 2TF και 128-bit (dual channel) DDR4 δεν θα είσαι bandwidth starved;

1.84TF έχει το PS4 με GCN 1.1 και 176 GB/s (256-bit GDDR5).

Δεν ειναι κανα τρελο νουμερο το 1.84TF... δλδ στα 18TF θα θες 1.8 tb/sec bandwidth

Το βλεπεις απ'το οτι στα ιδια flops το xbox one επαιζε με DDR3-2133 σε quad channel (~68gb/sec) και 32MB SRAM για επιταχυνση.

Άρα λες να βάλουν LPDDR σε GPUs;

DDR/LPDDR/GDDR είναι παραλλαγές της ίδιας DRAM τεχνολογίας για διαφορετικές εφαρμογές, με διαφορετικές ανάγκες.

Μα ηδη οι gpu των mobile και καποιων laptop (πχ icelake) δουλευουν με LPDDR. Ανεβαζεις καναλια, ανεβαζεις bandwidth οσο χρειαζεσαι και το κανεις με πολυ χαμηλα watt. Στις discrete αρεσκονται να καινε τα watt σαν να μην υπαρχει αυριο οπότε δε θα στοιχηματιζα οτι θα βαζανε. Αλλα αυτο δε σημαινει οτι οι 2 εταιριες καλυπτουν τις αναγκες της αγορας.

**~~uncharted~~** · 15-12-19, 17:58

Αρχικό μήνυμα από MNP-10

Δεν ειναι κανα τρελο νουμερο το 1.84TF... δλδ στα 18TF θα θες 1.8 tb/sec bandwidth

Υπάρχει χρόνιο θέμα με το mem bw scaling και το λύνουν με rasterization tricks (triangle culling, tiling, compression, VRS). Κάποια στιγμή τα tricks/low hanging fruits θα τελειώσουν βέβαια. Τότε μάλλον θα γίνει μονόδρομος η ΗΒΜ (αρκεί να έχει πέσει το κόστος δραστικά).

Αρχικό μήνυμα από MNP-10

Το βλεπεις απ'το οτι στα ιδια flops το xbox one επαιζε με DDR3-2133 σε quad channel (~68gb/sec) και 32MB SRAM για επιταχυνση.

1.31 vs 1.84 TF δεν το λες ίδια. Είναι +40% TF.

Προφανώς βοηθάει βέβαια και η eSRAM για τον framebuffer, αλλά το Scorpio πήγε σε unified GDDR5 των 326GB/s χωρίς eSRAM (trade-off/zero-sum game με τα GPU ALUs).

Πλέον η καλύτερη mem bw saving λύση είναι το tiling & ελαφρώς ενισχυμένη L2 (όχι πάνω από 4-5MB συνήθως) απευθείας κουμπωμένη με τα ROPs για εξάλειψη των bottlenecks και υψηλό fillrate.

Αρχικό μήνυμα από MNP-10

Μα ηδη οι gpu των mobile και καποιων laptop (πχ icelake) δουλευουν με LPDDR. Ανεβαζε
ις καναλια, ανεβαζεις bandwidth οσο χρειαζεσαι και το κανεις με πολυ χαμηλα watt. Στις discrete αρεσκονται να καινε τα watt σαν να μην υπαρχει αυριο οπότε δε θα στοιχηματιζα οτι θα βαζανε. Αλλα αυτο δε σημαινει οτι οι 2 εταιριες καλυπτουν τις αναγκες της αγορας.

Θα δούμε τι θα κάνει η Intel με τις Xe, αν και ποντάρω σε GDDR/HBM.

**MNP-10** · 15-12-19, 18:08

Αρχικό μήνυμα από uncharted

1.31 vs 1.84 TF δεν το λες ίδια. Είναι +40% TF.

Ναι απλα και αναλογικα να το βαλεις, δλδ να πεις οτι και το bandwidth της μνημης του ηταν +40% αντε να παει 90φευγα gb/sec... σε σχεση με τα ~180 gb/sec του ps4 εχει χαος. Χτυπαει στο ματι. Δλδ ο ενας κανει τη δουλεια του με πολυ λιγοτερο bandwidth.

Θα δούμε τι θα κάνει η Intel με τις Xe, αν και ποντάρω σε GDDR/HBM.

Για HBM λενε: https://www.guru3d.com/news-story/in...e-vecchio.html

**~~uncharted~~** · 15-12-19, 18:15

Αρχικό μήνυμα από MNP-10

Ναι απλα και αναλογικα να το βαλεις, δλδ να πεις οτι και το bandwidth της μνημης του ηταν +40% αντε να παει 90φευγα gb/sec... σε σχεση με τα ~180 gb/sec του ps4 εχει χαος. Χτυπαει στο ματι. Δλδ ο ενας κανει τη δουλεια του με πολυ λιγοτερο bandwidth.

Βρε συ early GCN είναι αμφότερα, δεν έχει κανά παραπάνω efficiency trick το XB1 έναντι του PS4.

Η eSRAM σου δίνει ένα μπουρί 200GB/s για τον framebuffer και για αυτό την παλεύει με 68GB/s DDR3. Δεν χρειάζεται να πάει στα 90φεύγα. Το PS4 δεν έχει eSRAM, γι' αυτό χρειάζεται GDDR5, όπως και το XBOX ONE X.

Αρχικό μήνυμα από MNP-10

Για HBM λενε: https://www.guru3d.com/news-story/in...e-vecchio.html

Λέει όμως:

"It, however, is likely that the enterprise parts will get some form of HBM graphics memory, and the consumer parts some sort of GDDR6 kind of graphics memory. As history has proven, for consumer parts that has been problemsome."

Η Intel πουλάει ακριβά (σε αντίθεση με την AMD/RTG προ Navi εποχής), άρα πως θα είναι ανταγωνιστική για να κλέψει μερίδιο αγοράς;

Υπάρχει αυτό μεν (silicon vs organic interposer), αλλά δεν το έχουμε δει στην πράξη ακόμα: https://www.extremetech.com/gaming/2...-memory-market

**MNP-10** · 15-12-19, 18:35

Αρχικό μήνυμα από uncharted

Η eSRAM σου δίνει ένα μπουρί 200GB/s για τον framebuffer και για αυτό την παλεύει με 68GB/s DDR3. Δεν χρειάζεται να πάει στα 90φεύγα.

Οχι, υποθετικο παραδειγμα δινω σε στυλ οτι αν καναμε match τα tflops ωστε να ειναι 1.8 και τα δυο μηχανηματα (γι'αυτο εγραψα +40%), τοτε αντι ας πουμε 68gb/sec θα ηθελε και ενα αντιστοιχο ram bandwidth +40% και θα εφθανε κοντα στα 90κατι. Ομως την ιδια ωρα ο αλλος κανει τη δουλεια του με ...~180gb/sec. Σιγουρα η μια λυση ειναι καλυτερη απ'την αλλη (ddr3 quad + λιγη sram vs gddr5) αλλα δεν εχω μπροστα μου power metrics και prices για το τι πληρωνε ο μεν και ο δε.

Η Intel πουλάει ακριβά (σε αντίθεση με την AMD/RTG προ Navi εποχής), άρα πως θα είναι ανταγωνιστική για να κλέψει μερίδιο αγοράς;

Δεν ειναι δυσκολο οταν οι αλλοι χρεωνουν χιλιαδες $$$ για τα compute parts. Εξ'αλλου η intel χρειαζονταν τετοια για να μπορει να δινει data centers και υπερυπολογιστες με το κλειδι στο χερι χωρις να ασχολειται με αγορες gpu απο τριτους στυλ nvidia/amd. Σου λεει μπορω να τα τσεπωσω και εγω απο τα gpu αντι να τους στελνω τα λεφτα του πελατη.

Τωρα για το τι τελικα θα κανει θα περιμενουμε να το δουμε

**~~uncharted~~** · 15-12-19, 19:18

Πάντως το Adreno (αναγραμματισμός του Radeon και πρώην τεχνολογία της AMD) δεν έχει κάτι παραπάνω από την RDNA.

Θα μπορούσαν βέβαια να μην είχαν πουλήσει την Imageon στην Qualcomm (εποχές οικονομικής κρίσης που είχαν στεγνώσει από ρευστό) και να μην χρειάζεται να ανακαλύψουν τον τροχό από την αρχή, αλλά τώρα ότι έγινε-έγινε:

Και η RDNA έχει μια χαρά αυξημένο efficiency και μπορεί να γίνει scale σε mobile SoCs, κάτι που δεν μπορείς να πεις για Polaris/Vega:

https://www.anandtech.com/show/14492...-collaboration

Mobile/consoles/PCs. Πιάνει όλα τα consumer στρώματα.

Στο mobile θα δούμε τι ψάρια πιάνει έναντι Adreno/Mali/PowerVR και σία. Σίγουρα δεν θα έχει καμία σχέση με power hogs στυλ RX 5700 (XT).

Θέμα: Νέες σειρές καρτών γραφικών από AMD, Nvidia και Intel

Tags για αυτό το Θέμα

Bookmarks

Bookmarks

Δικαιώματα - Επιλογές