📖 Documentation Officielle : Tiny-charlotte

Charlotte

🌟 Présentation du Modèle

Bienvenue dans l'univers de Tiny-charlotte ! Ce modèle est un Small Language Model (SLM) innovant, développé par Clemylia @Clemylia. Il est conçu pour générer des textes et répondre à des requêtes autour de thématiques fondamentales et positives.

Caractéristique Détail
Architecture de base Affiné à partir de notre performant lam-4-zero-f
Taille du Modèle 51 millions de paramètres (un modèle ultra-léger)
Spécialisation Espoir, Amitié et Éthique 💖🌱
Performance Exceptionnelle par rapport à sa taille (surpasse nos modèles beaucoup plus grands)

✨ Mission & Capacités

Tiny-charlotte a été affiné sur un dataset spécifique axé sur l'espoir, l'amitié et les principes de l'éthique.

Ce que Tiny-charlotte fait très bien :

  • Réponses Contextuelles : Générer des textes pertinents sur l'amitié, la persévérance, la moralité, et l'optimisme.
  • Génération Fluide : Produire des phrases et des paragraphes étonnamment lisibles et cohérents malgré sa petite taille.
  • Performance SLM : Démontrer une capacité de raisonnement et de génération supérieure à celle de modèles bien plus volumineux (comme notre précédent lam-3 de 714M).

⚠️ Note Essentielle : L'Usage Massif de Néologismes (Mots Inventés)

Attention : Tiny-charlotte (et son architecture de base lam-4-zero-f) génère des néologismes (mots inventés) de manière TRÈS FRÉQUENTE. Attendez-vous à ce que la majorité des phrases contiennent ces mots uniques.

L'impact : Bien que les phrases soient remplies de mots originaux, le modèle parvient toujours à générer un texte dont le sens général reste étonnamment pertinent et cohérent avec les thèmes de l'amitié, de l'espoir et de l'éthique.

🎯 Exemple de Génération Typique : Prompt : Discussion sur la notion de "capitale".

Sortie de Tiny-charlotte :

La capitale du jugé est une ségritée. L'amitié nous pouveau de la prendre que les technologies est un principe éthique soutien-ême. L'amitié nous apprendrez-le pas une source de soutienveillance et de données, pas la complexité d'IA.

(Fin)

Cet exemple met en évidence :

La Densité des mots inventés (ségritée, pouveau, soutienveillance).

La Cohérence Thématique (jugement/éthique, amitié, technologies/IA) malgré la forme lexicale non-standard.

Nous considérons ce trait comme une caractéristique unique et positive qui démontre la puissance de génération de ce modèle ultra-léger, prouvant qu'un SLM n'a pas besoin d'une taille massive pour être fonctionnel et créatif.

📝 Ceci est un comportement normal

Constant de notre architecture SLM de 51M de paramètres. Le modèle compense sa taille ultra-réduite par une créativité lexicale intense. Ce trait unique donne à la génération de Tiny-charlotte un caractère distinctif et parfois poétique. Nous considérons ce "trait de caractère" comme une preuve de sa performance en matière de sampling et de créativité textuelle, compte tenu de sa taille ultra-réduite.

🛠️ Comment l'Utiliser

Vous pouvez charger et utiliser Tiny-charlotte facilement en utilisant la librairie transformers :

from transformers import AutoTokenizer, AutoModelForCausalLM

model_name = "Clemylia/Tiny-charlotte"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

prompt = "Qu'est-ce qui définit une véritable amitié ?"

input_ids = tokenizer.encode(prompt, return_tensors="pt")

# Exemple de génération
output = model.generate(
    input_ids,
    max_length=150,
    num_return_sequences=1,
    do_sample=True, # Recommandé pour la créativité
    temperature=0.8
)

generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)

💡 Contribution & Feedback

Nous encourageons la communauté à tester et à expérimenter avec Tiny-charlotte !

  • Si vous l'utilisez dans vos projets, n'hésitez pas à nous taguer.
  • Vos retours sur ses capacités et ses néologismes sont les bienvenus.

Merci de soutenir la recherche sur les SLM performants et légers !

— L'équipe de Clemylia 💖

📜 L'Examen de Néole : Validation de l'Identité Lexicale

1. Principe de l'Examen de Néole

L'Examen de Néole est un test de qualification propriétaire conçu pour évaluer l'équilibre entre la cohérence linguistique et la créativité lexicale (Néo-Langage) des modèles développés par Clemylia.

Contrairement aux modèles traditionnels qui considèrent les mots inventés (néologismes) comme des erreurs, Tiny-charlotte est intentionnellement conçue pour générer un vocabulaire philosophique unique qui enrichit la sémantique de ses thèmes (Amitié, Éthique, Espoir).

L'examen vise à s'assurer que le modèle est :

  1. Fiable (majoritairement en français, syntaxe correcte).
  2. Créatif (utilise suffisamment de néologismes pour maintenir sa signature).

2. Protocole de Test

L'Examen de Néole repose sur le calcul du Ratio de Néologismes ($R_N$) :

  • Méthodologie : Le modèle génère 20 à 30 inférences sur des sujets liés à son fine-tuning (à une température $\tau$ spécifiée). Le vocabulaire généré est comparé au vocabulaire de son dataset d'entraînement.
  • Définition du Néologisme : Un mot est considéré comme un néologisme s'il est grammaticalement ancré (non aléatoire) mais absent du dataset de référence.
  • Formule : $$R_N = \frac{\text{Nombre de néologismes uniques détectés}}{\text{Nombre total de mots uniques générés}} \times 100$$

3. Résultats de Tiny-charlotte (51M)

Métrique Seuil de Réussite Souhaité Résultat Charlotte-Amity (Temp. 0.7) Statut
Ratio de Néologismes ($R_N$) $40.00%$ $32.54%$ ⚠️ Échec (Sous-seuil)
Taux de Cohérence Lexicale (Vrais Mots) $60.00%$ $$67.46$%$ Succès (Forte Lisibilité)

Conclusion de l'Examen :

Bien que Tiny-charlotte ait échoué à atteindre le seuil de $40%$ pour sa créativité, ce résultat est une validation de sa fiabilité. Avec un Taux de Cohérence de $67.46%$, le modèle est très ancré dans le français standard, assurant une lisibilité maximale.

Perspective : Ce score de $32.54%$ confirme que le modèle doit être généré à une température plus élevée ($\tau > 0.85$) pour libérer pleinement son potentiel créatif et atteindre sa signature linguistique unique. Les mots inventés produits (ex: santécurité, entraisis, cpartialés) sont jugés pertinents pour la personnalité du modèle.

Downloads last month
294
Safetensors
Model size
51M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Clemylia/Tiny-charlotte

Finetuned
(7)
this model
Quantizations
1 model

Dataset used to train Clemylia/Tiny-charlotte

Space using Clemylia/Tiny-charlotte 1

Collections including Clemylia/Tiny-charlotte