UrduGPT Web App (Streamlit)

This is the official UI for UrduGPT — a custom-built English → Urdu translator powered by a Transformer-based LLM trained from scratch using PyTorch.

🧠 What is UrduGPT?

UrduGPT is a research and production-friendly language model built step-by-step using:

Raw dataset from Hugging Face (English–Urdu parallel corpus)
Byte-Pair Encoding (BPE) tokenizers trained from scratch
Transformer architecture inspired by "Attention Is All You Need"
PyTorch for model building & training
Streamlit for live translation web app

✅ Features

Sentence translation with beam or greedy decoding
Token-by-token display with confidence scores
Translation history session & export (CSV, PDF, Word)
Local branding (logo, favicon)
Deployable on Streamlit Cloud or Hugging Face Spaces

🛠️ Step-by-Step Model Building

🔹 Step 1: Load Dataset

python urdugpt_step1_dataset.py

Loads and trims parallel corpus (English–Urdu) from Hugging Face.

🔹 Step 2: Train Tokenizer

python urdugpt_step2_tokenizer.py

Trains BPE tokenizers for both source (English) and target (Urdu) languages.

🔹 Step 3: Prepare Dataloaders

python urdugpt_step2_dataloader.py

Creates PyTorch-compatible dataset & dataloaders.

🔹 Step 4–8: Transformer Model

Model code is inside urdugpt_step8_transformer.py, built from scratch:

Embedding + Positional Encoding
Multi-head Attention
FeedForward + AddNorm
Encoder and Decoder stacks
Final Projection layer

🔹 Step 9: Train Model

python urdugpt_step9_train.py

Uses cross-entropy loss
Trains for N epochs and saves checkpoints (./urdugpt/model_{epoch}.pt)

🔹 Step 10: Translate (CLI)

python urdugpt_translate.py

Interactive terminal-based translation using latest model checkpoint.

🔹 Step 11: Streamlit UI

streamlit run urdugpt_web_app.py

Clean web-based frontend with history, export, and visual confidence scores.

📦 Installation

pip install -r requirements.txt

🚀 Run Locally

Make sure the model is trained and tokenizer files exist. Then run:

streamlit run urdugpt_web_app.py

🌐 Deploy to Streamlit Cloud

Clone this to a public GitHub repository
Go to https://streamlit.io/cloud
Click New App → select your repo → urdugpt_web_app.py
Set Python version and add requirements.txt
Hit Deploy 🎉

🤝 Open Source Plans

This project will be used:

To demonstrate building LLMs from scratch
As a template for multilingual translation apps
To support fine-tuning for Urdu/Indic NLP research

We’ll invite contributors to:

Extend to other language pairs (e.g., English → Pashto, Hindi, Bangali, Panjabi)
Improve UI/UX (add voice input, transliteration)
Add dataset upload & training interface

💡 Benefits

Learn Transformer internals end-to-end
Translate with your own trained model (no API needed)
Run entirely offline or host on open platforms
Extendable to many other NLP tasks

📁 Files

urdugpt_web_app.py       # Streamlit UI
urdugpt_utils.py          # Config loader (YAML)
urdugpt_step1_dataset.py
urdugpt_step2_tokenizer.py
urdugpt_step2_dataloader.py
urdugpt_step8_transformer.py
urdugpt_step9_train.py
urdugpt_translate.py
config.yaml               # All hyperparameters & paths
favicon.ico               # UI icon
urdugpt.png               # Logo for UI

🙌 Author

This project is proudly created and maintained by Fayaz Khan.

🔗 GitHub
💼 LinkedIn

🧾 License

MIT License. Contributions welcome.

Made with ❤️ for Urdu speakers & NLP builders.

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
.devcontainer		.devcontainer
.idea		.idea
tokenizer_en		tokenizer_en
tokenizer_ur		tokenizer_ur
urdugpt		urdugpt
LICENSE		LICENSE
README.md		README.md
requirements.txt		requirements.txt
urdugpt.png		urdugpt.png
urdugpt_config.yaml		urdugpt_config.yaml
urdugpt_debug_tool.py		urdugpt_debug_tool.py
urdugpt_step1_dataset_tokenizer.py		urdugpt_step1_dataset_tokenizer.py
urdugpt_step2_dataloader.py		urdugpt_step2_dataloader.py
urdugpt_step3_embeddings.py		urdugpt_step3_embeddings.py
urdugpt_step4_multihead_attention.py		urdugpt_step4_multihead_attention.py
urdugpt_step5_ffn_norm.py		urdugpt_step5_ffn_norm.py
urdugpt_step6_encoder.py		urdugpt_step6_encoder.py
urdugpt_step7_decoder.py		urdugpt_step7_decoder.py
urdugpt_step8_transformer.py		urdugpt_step8_transformer.py
urdugpt_step9_train.py		urdugpt_step9_train.py
urdugpt_translate.py		urdugpt_translate.py
urdugpt_utils.py		urdugpt_utils.py
urdugpt_web_app.py		urdugpt_web_app.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

UrduGPT Web App (Streamlit)

🧠 What is UrduGPT?

✅ Features

🛠️ Step-by-Step Model Building

🔹 Step 1: Load Dataset

🔹 Step 2: Train Tokenizer

🔹 Step 3: Prepare Dataloaders

🔹 Step 4–8: Transformer Model

🔹 Step 9: Train Model

🔹 Step 10: Translate (CLI)

🔹 Step 11: Streamlit UI

📦 Installation

🚀 Run Locally

🌐 Deploy to Streamlit Cloud

🤝 Open Source Plans

💡 Benefits

📁 Files

🙌 Author

🧾 License

About

Uh oh!

Releases

Packages

Uh oh!

Languages

License

fayazkhan121/UrduGPT

Folders and files

Latest commit

History

Repository files navigation

UrduGPT Web App (Streamlit)

🧠 What is UrduGPT?

✅ Features

🛠️ Step-by-Step Model Building

🔹 Step 1: Load Dataset

🔹 Step 2: Train Tokenizer

🔹 Step 3: Prepare Dataloaders

🔹 Step 4–8: Transformer Model

🔹 Step 9: Train Model

🔹 Step 10: Translate (CLI)

🔹 Step 11: Streamlit UI

📦 Installation

🚀 Run Locally

🌐 Deploy to Streamlit Cloud

🤝 Open Source Plans

💡 Benefits

📁 Files

🙌 Author

🧾 License

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages