RNA-Seq Transcriptomics Pipeline

Overview

This repository contains a complete RNA-Seq analysis pipeline designed to study differential gene expression in enterobacteria under two experimental conditions: control vs treatment.

The workflow processes raw sequencing data through quality control, preprocessing, transcriptome assembly, annotation, and differential expression analysis.

Experimental Design

Organism: Enterobacteria
Conditions: Control vs Treatment
Replicates: 3 biological replicates per condition
Sequencing: Paired-end reads (300 bp)

Pipeline Workflow

The analysis consists of the following steps:

1. Quality Control — FastQC

Assessment of raw read quality
Metrics evaluated:
- Per-base sequence quality
- GC content
- Sequence duplication
- Adapter contamination

2. Preprocessing — PRINSEQ

Removal of low-quality reads:
- Mean quality < 25
- Length < 100 bp
Trimming of ambiguous bases (Ns)

3. De Novo Transcriptome Assembly — SPAdes

Assembly using multiple k-mers:
- 21, 33, 55, 77, 99, 127
Combined reads from all samples

4. Annotation — BLAST

Alignment against Enterobacteria gene database
Filtering criteria:
- ≥ 90% identity
Functional assignment of transcripts

5. Mapping — Bowtie2 + SAMtools

Alignment of reads to assembled transcriptome
Conversion and processing:
- SAM → BAM → sorted BAM → indexed BAM

6. Quantification — Corset

Clustering of transcripts
Generation of gene-level count matrix

7. Differential Expression — edgeR

Statistical analysis in R
Outputs:
- log2 Fold Change (logFC)
- p-values and FDR
Significance threshold: p-value < 0.05

Results Summary

~98% mapping rate across samples
3385 assembled transcripts
6675 expression clusters
~1200 significantly differentially expressed genes
Clear separation between conditions in MDS analysis

Repository Structure

.
├── README.md
├── docs/
│   ├── project_report.pdf
│   └── diagram_pipeline.jpeg
├── scripts/
│   ├── 01_fastqc.sh
│   ├── 02_prinseq.sh
│   ├── 03_spades.sh
│   ├── 04_annotation.sh
│   ├── 05_mapping.sh
│   ├── 06_quantification.sh
│   └── 07_differential_expression.R
└── data/
    └── README.md

Full Report

A detailed explanation of methods, commands, and results is available in:

docs/project_report.pdf

Tools Used

FastQC
PRINSEQ
SPAdes
BLAST
Bowtie2
SAMtools
Corset
edgeR (R / Bioconductor)

References

See full bibliography in docs/project_report.pdf

Author

Inés García de la Peña Marco Computational Omics Analysis

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

RNA-Seq Transcriptomics Pipeline

Overview

Experimental Design

Pipeline Workflow

1. Quality Control — FastQC

2. Preprocessing — PRINSEQ

3. De Novo Transcriptome Assembly — SPAdes

4. Annotation — BLAST

5. Mapping — Bowtie2 + SAMtools

6. Quantification — Corset

7. Differential Expression — edgeR

Results Summary

Repository Structure

Full Report

Tools Used

References

Author

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
data		data
docs		docs
scripts		scripts
.gitignore		.gitignore
README.md		README.md

Folders and files

Latest commit

History

Repository files navigation

RNA-Seq Transcriptomics Pipeline

Overview

Experimental Design

Pipeline Workflow

1. Quality Control — FastQC

2. Preprocessing — PRINSEQ

3. De Novo Transcriptome Assembly — SPAdes

4. Annotation — BLAST

5. Mapping — Bowtie2 + SAMtools

6. Quantification — Corset

7. Differential Expression — edgeR

Results Summary

Repository Structure

Full Report

Tools Used

References

Author

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages