Simulation d'IA apprenant à marcher (Reinforcement Learning).
- Apprentissage par renforcement
- Simulation physique
- Réseaux de neurones
🇫🇷 Français | 🇬🇧 Anglais | 🇪🇸 Espagnol | 🇮🇹 Italien | 🇵🇹 Portugais | 🇷🇺 Russe | 🇩🇪 Allemand | 🇹🇷 Turc
Ce projet utilise l'apprentissage par renforcement (Reinforcement Learning) pour apprendre à un robot bipède à marcher.
flowchart TB
ENV["custom_env.py<br/>SimpleWalkerEnv · Gymnasium"]
TRAIN["train.py<br/>PPO · stable-baselines3"]
MODELS["models/PPO<br/>politiques sauvegardées"]
VIZ["visualize.py<br/>rendu de l'agent entraîné"]
DASH["streamlit_app.py<br/>dashboard · métriques"]
DEPLOY["Render<br/>render.yaml · déploiement"]
ENV --> TRAIN
TRAIN --> MODELS
MODELS --> VIZ
MODELS --> DASH
DASH --> DEPLOY
- Installer Python (si ce n'est pas déjà fait).
- Installer les dépendances :
Note : Sur Windows, l'installation de
pip install -r requirements.txt
box2dpeut parfois nécessiter des outils de compilation C++. Si vous avez une erreur, essayez d'installerswigviachoco install swigou téléchargez les binaires précompilés.
Lancez le script d'entraînement pour que l'IA apprenne par essais et erreurs.
python train.pyL'IA va s'entraîner pendant 100 000 pas (environ 5-10 minutes selon votre PC). Les modèles seront sauvegardés dans le dossier models/PPO.
Une fois l'entraînement terminé, regardez le résultat :
python visualize.pyUne fenêtre s'ouvrira montrant le robot essayant de marcher (ou tombant avec style s'il n'a pas assez appris !).
L'environnement BipedalWalker-v3 donne des points à l'IA :
- Récompense (+) : Avancer vers la fin du niveau.
- Punition (-) : Tomber au sol (-100 points), utiliser trop de force moteur (coût énergétique).
L'IA cherche à maximiser son score total.
Par Adam Beloucif · Data Engineer & Fullstack Developer · GitHub · LinkedIn