multiheaded-self-attention

A Multiheaded self attention transformer architeture implementation, without using pytorch transformers.

Very inefficient, credit to Andrej Karpathy for a nice tutorial!

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
README.md		README.md
main.ipynb		main.ipynb

Provide feedback