Small-Scale Language Model Experiments (Rousseau-style corpus)

Overview

This repository contains a series of quick experiments training small GPT-style language models from scratch on a limited corpus (~2MB → ~10MB) of 18th-century French texts (Rousseau and later contemporaries).

The goal is not to achieve production quality text generation, but to explore:

- the impact of dataset size
- tokenizer choice (char vs BPE)
- model capacity vs data scale
- training dynamics (loss vs sample quality)

⸻

Observations

Most runs observtion may be found in runs/experimentID/info.md

Name		Name	Last commit message	Last commit date
Latest commit History 44 Commits
data		data
models		models
my_tokenizers		my_tokenizers
runs		runs
.gitignore		.gitignore
README.md		README.md
config.py		config.py
generate.py		generate.py
generate_loss_plot.py		generate_loss_plot.py
generate_sample.py		generate_sample.py
logger_manager.py		logger_manager.py
old1_rousseau_bpe.json		old1_rousseau_bpe.json
organization.txt		organization.txt
requirements.txt		requirements.txt
rousseau_bpe1024_vol1-4-5.json		rousseau_bpe1024_vol1-4-5.json
rousseau_bpe2048_vol1-4-5.json		rousseau_bpe2048_vol1-4-5.json
rousseau_bpe4096_vol1-4-5.json		rousseau_bpe4096_vol1-4-5.json
rousseau_bpe_2_vol1-4-5.json		rousseau_bpe_2_vol1-4-5.json
rousseau_bpe_3_vol1-4-5.json		rousseau_bpe_3_vol1-4-5.json
rousseau_bpe_metaspace_1024.json		rousseau_bpe_metaspace_1024.json
rousseau_bpe_vol1-4-5.json		rousseau_bpe_vol1-4-5.json
rousseau_test_bpe_metaspace_1024.json		rousseau_test_bpe_metaspace_1024.json
rousseau_vol1_bpe.json		rousseau_vol1_bpe.json
smoke_test.py		smoke_test.py
test.py		test.py
test.txt		test.txt
tokenizer_bpe.py		tokenizer_bpe.py
tokenizer_bpe_sequence_FAIL.py		tokenizer_bpe_sequence_FAIL.py
tokenizer_bpe_space_replace.py		tokenizer_bpe_space_replace.py
train.py		train.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Small-Scale Language Model Experiments (Rousseau-style corpus)

Overview

Observations

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Small-Scale Language Model Experiments (Rousseau-style corpus)

Overview

Observations

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages