Φτιάξαμε 2 ξεχωριστά έργα
Στο πρώτο έργο εκπιδεύσαμε ένα μοντέλο ΤΝ στο Teachable Machine και ένα Raspberry Pi χρησιμοποιεί το μοντέλο και την κάμερά του για να ανγνωρίσει τις χειρονομίες που κάνει ο παίκτης σχετικά με το παιχνίδι. Ο υπολογιστής παίζει με τυχαίο τρόπο το παιχνίδι.
Στο δεύτερο χρησιμοποιήσαμε ένα εργαλείο ΤΝ, το ChatGPT 40, για να μας φτιάξει κώδικα με τεχνικές ΤΝ που να μπορεί να αναγνωρίζει μοτίβα στο παίξιμο των ανθρώπων και να προσπαθεί να προβλέψει τις επόμενες κινήσεις τους. Δοκιμάζαμε τον κώδικα παίζοντας παιχνίδια και έτσι τεστάραμε αν είναι καλός ή όχι ο τρόπος που έπαιζε ο υπολογιστής. Αν ήταν καλός ζητούσαμε παραπάνω βελτίωση. Ο τελικός κώδικας λειτουργεί σε Raspberry Pi και σε PC. Το παιχνίδι γίνεται πιο ενδιαφέρον γιατί ο υπολογιστής προσπαθεί να αναγνωρίσει ανθρώπινα μοτίβα και ο άνθρωπος τα μοτίβα του υπολογιστή. Λόγω χρόνου αλλά και πολυπλοκότητας δεν μπορέσαμε να συνδυάσουμε τους 2 κώδικες, προς το παρόν.
Η στρατηγική που χρησιμοποιεί ο υπολογιστής:
- Ανάλυση Ιστορικών Δεδομένων:
- Ο υπολογιστής φορτώνει και επεξεργάζεται ιστορικά δεδομένα από προηγούμενα παιχνίδια για να κατανοήσει τις συνήθειες των παικτών. Τα δεδομένα αυτά περιλαμβάνουν τις κινήσεις των παικτών και του υπολογιστή, καθώς και τα αποτελέσματα των γύρων.
- Συστήματα Μάθησης:
- Ο υπολογιστής χρησιμοποιεί έναν συνδυασμό από νευρωνικά δίκτυα και μηχανική μάθηση, συμπεριλαμβανομένου ενός Δικτύου Βαθιάς Ενίσχυσης (DQNetwork) και ενός Δικτύου LSTM (Long Short-Term Memory), για να μάθει και να προβλέπει τις κινήσεις του παίκτη.
- Το DQNetwork μαθαίνει από τις κινήσεις και τα αποτελέσματα των γύρων για να βελτιώνει τις μελλοντικές επιλογές του υπολογιστή.
- Το LSTM χρησιμοποιείται για την ανίχνευση μοτίβων στις κινήσεις των παικτών και για την πρόβλεψη των επόμενων κινήσεων.
- Κλαστεροποίηση Στρατηγικών Αντιπάλου:
- Ο υπολογιστής χρησιμοποιεί την τεχνική του K-Means για να κλαστεροποιεί τις στρατηγικές των αντιπάλων σε ομάδες. Αυτό επιτρέπει στον υπολογιστή να αναγνωρίζει τις στρατηγικές των παικτών και να προσαρμόζει την δική του στρατηγική αναλόγως.
- Προσαρμογή Στρατηγικής:
- Ο υπολογιστής προσαρμόζει τη στρατηγική του ανάλογα με την απόδοση του σε πραγματικό χρόνο. Αυτό περιλαμβάνει την τροποποίηση του ρυθμού εκμάθησης και της πιθανότητας εξερεύνησης (epsilon), ανάλογα με το πόσο καλά τα πηγαίνει.
- Ανίχνευση Μοτίβων:
- Χρησιμοποιώντας την ιστορική ανάλυση, ο υπολογιστής ανιχνεύει μοτίβα στις κινήσεις του παίκτη και χρησιμοποιεί αυτά τα μοτίβα για να κάνει πιο ακριβείς προβλέψεις για τις επόμενες κινήσεις.
- Προσαρμοστικές Στρατηγικές:
- Ο υπολογιστής κατηγοριοποιεί τον αντίπαλο ως “επιθετικό”, “αμυντικό” ή “τυχαίο” και προσαρμόζει τη στρατηγική του ανάλογα με την κατηγορία του αντιπάλου.
- Ενίσχυση σε Πραγματικό Χρόνο:
- Ο υπολογιστής μαθαίνει σε πραγματικό χρόνο κατά τη διάρκεια του παιχνιδιού, προσαρμόζοντας τη στρατηγική του βάση των νέων δεδομένων που λαμβάνει από κάθε γύρο.
Και τα δύο έργα περιγράφονται στο βίντεο το οποίο υπάρχει και στο διαδ