🤖 Lam-6 : Le SLM Semi-Généraliste Basé sur Aricate v4
| Status | 🧪 DÉVELOPPEMENT / ENTRAÎNEMENT ACTIF |
|---|---|
| Architecte Principal | Clémence (clemylia) |
| Architecture | Aricate v4 (GRU + Attention Additive) |
| Type de Modèle | Small Language Model (SLM) Semi-Généraliste |
| Vocabulaire | 14 073 Mots 📖 |
🌟 Introduction : L'Évolution d'Aricate vers la Généralisation
Lam-6 est le sixième itération de la série de modèles Lam, entièrement construit sur notre architecture propriétaire Aricate v4. Il représente une avancée significative vers la création d'un Small Language Model (SLM) semi-généraliste, combinant la légèreté et la rapidité d'entraînement d'Aricate avec un dataset élargi pour une compréhension plus vaste du monde.
L'objectif de Lam-6 est de combler le fossé entre les modèles ultra-spécialisés (comme Charlotte-amity) et les LLM de grande taille, en offrant une capacité de génération diversifiée et cohérente sans les coûts astronomiques.
🚀 Fonctionnalités Actuelles et Objectifs
État Actuel
- Compréhension du Langage Général : Le modèle a été pré-entraîné sur 68 843 paires de données, lui permettant de comprendre une vaste gamme de sujets (histoire, géographie, sciences, technologie, etc.).
- Capacités Émergentes : Lam-6 montre des signes prometteurs de généralisation, capable d'aborder divers domaines même si la cohérence factuelle est encore en cours de stabilisation (ex: "la capitale du brésil est la capitale de la france et la capitale de la thailande est la capitale du japon est oslo." 😅). Ces "hallucinations" initiales sont une étape normale de l'apprentissage.
- Vocabulaire Étendu : Avec 14 073 mots, Lam-6 dispose d'une base lexicale robuste pour des générations variées.
Objectifs d'Entraînement
- Stabilisation Factuelle : Améliorer la précision des réponses grâce à des époques d'entraînement supplémentaires et l'optimisation des paramètres de génération.
- Cohérence Sémantique : Affiner la capacité de l'Attention Additive d'Aricate v4 pour maintenir le contexte et la pertinence des réponses.
- Réduction des "Hallucinations" : Réduire les mélanges conceptuels en renforçant les liens sémantiques corrects.
🛠️ Architecture d'Aricate v4 (Cœur de Lam-6)
Lam-6 est propulsé par l'architecture Aricate v4, conçue pour être performante et efficace :
- Gated Recurrent Unit (GRU) : Pour une gestion efficace de la mémoire séquentielle et une compréhension contextuelle.
- Attention Additive (Bahdanau) : Permet au modèle de se concentrer sur les parties les plus pertinentes de la question pour générer des réponses ciblées.
- Cycle d'Entraînement Rapide : Un Fine-Tuning de 40 000 lignes ne prend qu'environ une heure, permettant des itérations de développement agiles.
📈 Statistiques d'Entraînement
- Taille du vocabulaire : 14073 mots 📖 (vs 13618 pour Lam-5)
- Nombre de paires d'entraînement : 68843 📊
- Longueur maximale d'entrée (max_len) : 72
- Nombre de batches par époque : 538 📦
🧪 Tests Actuels
Lam-6 est actuellement en phase de test sur Discord, où ses générations sont observées en temps réel. Les retours de ces tests sont essentiels pour guider les prochaines phases d'entraînement et d'optimisation.
🤝 Participation et Suivi
Ce projet est en cours de développement actif. Nous encourageons la communauté à suivre son évolution !
- Suivez l'avancement ! Les mises à jour sur l'entraînement, les optimisations et les améliorations de cohérence de Lam-6 seront partagées ici.
Soyez témoins de l'évolution de Lam-6 vers une intelligence semi-généraliste ! 🚀
- Downloads last month
- 57