Σε μια αξιοσημείωτη επίδειξη έξυπνης χρήσης υλικού, ένας χρήστης του Reddit έχει τραβήξει την προσοχή της τεχνολογικής κοινότητας, αναπτύσσοντας ένα Μεγάλο Γλωσσικό Μοντέλο (LLM) 1 τρισεκατομμυρίου παραμέτρων σε ένα σύστημα που διαθέτει μόνο μία GPU. Το μυστικό όπλο πίσω από αυτό το επίτευγμα ήταν 768GB Intel Optane Persistent Memory (PMem) DIMMs, τα οποία επαναχρησιμοποιήθηκαν έξυπνα για να λειτουργήσουν ως RAM συστήματος.
Παραδοσιακά, η εκτέλεση ενός τόσο τεράστιου LLM τοπικά θα απαιτούσε μια υπέρογκη ποσότητα συμβατικής, υψηλής ταχύτητας RAM, συχνά σε συνδυασμό με πολλαπλές A6000 ή A100 GPUs. Το κόστος και η πολυπλοκότητα που σχετίζονται με μια τέτοια ρύθμιση συνήθως παραπέμπουν αυτά τα μοντέλα σε περιβάλλοντα υπερυπολογιστών βασισμένα σε cloud. Ωστόσο, η προσέγγιση αυτού του χρήστη του Reddit υποδεικνύει έναν πιο προσβάσιμο, αν και αντισυμβατικό, δρόμο.
Συνεργατικό περιεχόμενοΠαιχνίδια έως -90%
Άμεση παράδοση κωδικών στο Instant Gaming
Δες προσφορές →Τα Intel Optane PMem DIMMs, αν και όχι τόσο γρήγορα όσο οι στάνταρ RAM DDR4 ή DDR5, προσφέρουν σημαντικά μεγαλύτερες χωρητικότητες και πολύ χαμηλότερο κόστος ανά gigabyte. Με τη διαμόρφωση ενός σταθμού εργασίας ώστε να χρησιμοποιεί αυτά τα DIMMs, ο χρήστης δημιούργησε ένα σύστημα με μια τεράστια δεξαμενή μνήμης ικανή να φιλοξενήσει το μνημειώδες μέγεθος του LLM 1 τρισεκατομμυρίου παραμέτρων. Το συγκεκριμένο μοντέλο που χρησιμοποιήθηκε ήταν μια τοπική εγκατάσταση Kimi K2.5, αποδεικνύοντας ότι ακόμα και με τις πιο αργές ταχύτητες πρόσβασης μνήμης του Optane, είναι εφικτή η πρακτική εξαγωγή συμπερασμάτων.
Η παρατηρούμενη απόδοση, που εκτιμάται σε περίπου τέσσερα tokens ανά δευτερόλεπτο, είναι ανταγωνιστική για μια ρύθμιση με μία μόνο GPU, ειδικά λαμβάνοντας υπόψη το τεράστιο μέγεθος του μοντέλου. Αυτό το πείραμα ανοίγει ενδιαφέρουσες δυνατότητες για ερευνητές και ενθουσιώδεις που επιθυμούν να εκτελέσουν μεγάλα μοντέλα χωρίς το απαγορευτικό κόστος του κορυφαίου, εξειδικευμένου υλικού. Υπογραμμίζει τις δυνατότητες επαναχρησιμοποίησης λύσεων μνήμης εταιρικού επιπέδου για εφαρμογές καταναλωτών με υψηλές απαιτήσεις μνήμης, ανατρέποντας τις προσδοκίες για το τι είναι δυνατό με έναν πιο μέτριο προϋπολογισμό.



