Plotting allele frequencies#
This page shows allele frequencies in each cohort of the SNPs genotyped in the amplicon sequencing protocol. Allele frequency refers to the proportion of a specific genetic variant in a population.
SNP frequency summary table#
This table summarizes allele frequencies across all cohorts.
contig | pos | ref | alt | type | effect | gene | geneID | modifier | transcript | base_change | aa_change | frq_Obuasi | frq_Gambia_URR | frq_VK7 | frq_Siaya | frq_gambiae | frq_coluzzii | frq_arabiensis | frq_unassigned | frq_gcx3 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 2L | 2380982 | T | C | intron_variant | MODIFIER | para | AGAP004707 | transcript | AGAP004707-RD | c.286-83T>C | 0.014 | 0.048 | 0.000 | 0.308 | NaN | NaN | NaN | NaN | NaN | |
1 | 2L | 2416980 | C | T | missense_variant | MODERATE | para | AGAP004707 | transcript | AGAP004707-RD | c.2372C>T | p.Thr791Met | 0.530 | 0.000 | 0.000 | 0.000 | NaN | NaN | NaN | NaN | NaN |
2 | 2L | 2422651 | T | C | missense_variant | MODERATE | para | AGAP004707 | transcript | AGAP004707-RD | c.2984T>C | p.Leu995Ser | 0.007 | 0.107 | 0.000 | 0.337 | NaN | NaN | NaN | NaN | NaN |
3 | 2L | 2422652 | A | T | missense_variant | MODERATE | para | AGAP004707 | transcript | AGAP004707-RD | c.2985A>T | p.Leu995Phe | 1.000 | 0.071 | 1.000 | 0.659 | NaN | NaN | NaN | NaN | NaN |
4 | 2L | 2425052 | G | A | synonymous_variant | LOW | para | AGAP004707 | transcript | AGAP004707-RD | c.3735G>A | p.Pro1245Pro | 0.000 | 0.000 | 0.000 | 0.693 | NaN | NaN | NaN | NaN | NaN |
5 | 2L | 2429745 | A | T | missense_variant | MODERATE | para | AGAP004707 | transcript | AGAP004707-RD | c.4708A>T | p.Asn1570Tyr | 0.101 | 0.022 | 0.192 | 0.000 | NaN | NaN | NaN | NaN | NaN |
6 | 2L | 2430424 | G | T | missense_variant | MODERATE | para | AGAP004707 | transcript | AGAP004707-RD | c.5236G>T | p.Ala1746Ser | 0.514 | 0.000 | 0.000 | 0.000 | NaN | NaN | NaN | NaN | NaN |
7 | 2L | 2430817 | G | A | missense_variant | MODERATE | para | AGAP004707 | transcript | AGAP004707-RD | c.5557G>A | p.Val1853Ile | 0.155 | 0.000 | 0.000 | 0.000 | NaN | NaN | NaN | NaN | NaN |
8 | 2L | 2430880 | C | T | missense_variant | MODERATE | para | AGAP004707 | transcript | AGAP004707-RD | c.5620C>T | p.Pro1874Ser | 0.000 | 0.000 | 0.716 | 0.000 | NaN | NaN | NaN | NaN | NaN |
9 | 2L | 2430881 | C | T | missense_variant | MODERATE | para | AGAP004707 | transcript | AGAP004707-RD | c.5621C>T | p.Pro1874Leu | 0.112 | 0.000 | 0.081 | 0.000 | NaN | NaN | NaN | NaN | NaN |
10 | 2L | 2431005 | C | T | synonymous_variant | LOW | para | AGAP004707 | transcript | AGAP004707-RD | c.5745C>T | p.Arg1915Arg | 1.000 | 0.731 | 1.000 | 1.000 | NaN | NaN | NaN | NaN | NaN |
0 | 2L | 2380982 | T | C | intron_variant | MODIFIER | para | AGAP004707 | transcript | AGAP004707-RD | c.286-83T>C | NaN | NaN | NaN | NaN | 0.018 | 0.000 | 0.000 | 0.236 | 0.344 | |
1 | 2L | 2416980 | C | T | missense_variant | MODERATE | para | AGAP004707 | transcript | AGAP004707-RD | c.2372C>T | p.Thr791Met | NaN | NaN | NaN | NaN | 0.444 | 0.000 | 0.000 | 0.000 | 0.000 |
2 | 2L | 2422651 | T | C | missense_variant | MODERATE | para | AGAP004707 | transcript | AGAP004707-RD | c.2984T>C | p.Leu995Ser | NaN | NaN | NaN | NaN | 0.012 | 0.000 | 0.121 | 0.220 | 0.387 |
3 | 2L | 2422652 | A | T | missense_variant | MODERATE | para | AGAP004707 | transcript | AGAP004707-RD | c.2985A>T | p.Leu995Phe | NaN | NaN | NaN | NaN | 0.994 | 0.857 | 0.000 | 0.678 | 0.613 |
4 | 2L | 2425052 | G | A | synonymous_variant | LOW | para | AGAP004707 | transcript | AGAP004707-RD | c.3735G>A | p.Pro1245Pro | NaN | NaN | NaN | NaN | 0.110 | 0.000 | 0.000 | 0.633 | 0.653 |
5 | 2L | 2429745 | A | T | missense_variant | MODERATE | para | AGAP004707 | transcript | AGAP004707-RD | c.4708A>T | p.Asn1570Tyr | NaN | NaN | NaN | NaN | 0.092 | 0.161 | 0.000 | 0.008 | 0.000 |
6 | 2L | 2430424 | G | T | missense_variant | MODERATE | para | AGAP004707 | transcript | AGAP004707-RD | c.5236G>T | p.Ala1746Ser | NaN | NaN | NaN | NaN | 0.437 | 0.000 | 0.000 | 0.000 | 0.000 |
7 | 2L | 2430817 | G | A | missense_variant | MODERATE | para | AGAP004707 | transcript | AGAP004707-RD | c.5557G>A | p.Val1853Ile | NaN | NaN | NaN | NaN | 0.133 | 0.000 | 0.000 | 0.000 | 0.000 |
8 | 2L | 2430880 | C | T | missense_variant | MODERATE | para | AGAP004707 | transcript | AGAP004707-RD | c.5620C>T | p.Pro1874Ser | NaN | NaN | NaN | NaN | 0.000 | 0.602 | 0.000 | 0.000 | 0.000 |
9 | 2L | 2430881 | C | T | missense_variant | MODERATE | para | AGAP004707 | transcript | AGAP004707-RD | c.5621C>T | p.Pro1874Leu | NaN | NaN | NaN | NaN | 0.095 | 0.068 | 0.000 | 0.000 | 0.000 |
10 | 2L | 2431005 | C | T | synonymous_variant | LOW | para | AGAP004707 | transcript | AGAP004707-RD | c.5745C>T | p.Arg1915Arg | NaN | NaN | NaN | NaN | 1.000 | 0.828 | 0.985 | 0.977 | 1.000 |
0 | 2R | 3492074 | G | A | missense_variant | MODERATE | ACE1 | AGAP001356 | transcript | AGAP001356-RA | c.838G>A | p.Gly280Ser | 0.966 | 0.011 | 0.000 | 0.012 | NaN | NaN | NaN | NaN | NaN |
1 | 2R | 28492879 | A | G | missense_variant | MODERATE | CYP6P3 | AGAP002865 | transcript | AGAP002865-RA | c.263T>C | p.Ile88Thr | 0.000 | 0.000 | 0.818 | 0.000 | NaN | NaN | NaN | NaN | NaN |
2 | 2R | 28497967 | G | C | missense_variant | MODERATE | CYP6P4 | AGAP002867 | transcript | AGAP002867-RA | c.708C>G | p.Ile236Met | 0.000 | 0.000 | 0.000 | 0.622 | NaN | NaN | NaN | NaN | NaN |
3 | 2R | 28499661 | G | T | missense_variant | MODERATE | CYP6P1 | AGAP002868 | transcript | AGAP002868-RA | c.1120C>A | p.Leu374Met | 0.458 | 0.000 | 0.000 | 0.000 | NaN | NaN | NaN | NaN | NaN |
4 | 2R | 28502850 | C | T | synonymous_variant | LOW | CYP6P2 | AGAP002869 | transcript | AGAP002869-RA | c.45G>A | p.Ala15Ala | 0.092 | 0.112 | 0.000 | 0.638 | NaN | NaN | NaN | NaN | NaN |
5 | 2L | 2432419 | T | G | None | None | None | None | None | None | None | None | 0.000 | 0.000 | 0.000 | 0.087 | NaN | NaN | NaN | NaN | NaN |
6 | 2L | 2435581 | G | A | None | None | None | None | None | None | None | None | 0.986 | 0.054 | 1.000 | 0.002 | NaN | NaN | NaN | NaN | NaN |
7 | 2L | 20288132 | T | C | synonymous_variant | LOW | COEAE1D | AGAP005756 | transcript | AGAP005756-RA | c.696T>C | p.His232His | 0.278 | 0.409 | 0.144 | 0.000 | NaN | NaN | NaN | NaN | NaN |
8 | 2L | 25429235 | G | T | missense_variant | MODERATE | Rdl | AGAP006028 | transcript | AGAP006028-RA | c.886G>T | p.Ala296Ser | 0.000 | 0.179 | 0.035 | 0.243 | NaN | NaN | NaN | NaN | NaN |
9 | 2L | 25429236 | C | G | missense_variant | MODERATE | Rdl | AGAP006028 | transcript | AGAP006028-RA | c.887C>G | p.Ala296Gly | 0.537 | 0.000 | 0.000 | 0.002 | NaN | NaN | NaN | NaN | NaN |
10 | 2L | 25635973 | G | A | missense_variant | MODERATE | CYP4J5 | AGAP006048 | transcript | AGAP006048-RA | c.127C>T | p.Leu43Phe | 0.178 | 0.679 | 0.966 | 0.462 | NaN | NaN | NaN | NaN | NaN |
11 | 2L | 34100758 | A | T | 5_prime_UTR_variant | MODIFIER | AGAP006546 | AGAP006546 | transcript | AGAP006546-RA | c.-247A>T | 0.000 | 0.032 | 0.000 | 0.458 | NaN | NaN | NaN | NaN | NaN | |
12 | 2L | 34118141 | G | A | missense_variant | MODERATE | AGAP006551 | AGAP006551 | transcript | AGAP006551-RA | c.35C>T | p.Ala12Val | 0.088 | 0.000 | 0.000 | 0.460 | NaN | NaN | NaN | NaN | NaN |
13 | 2L | 34118260 | G | A | intergenic_region | MODIFIER | AGAP006551-AGAP006552 | AGAP006551-AGAP006552 | intergenic_region | AGAP006551-AGAP006552 | n.34118260G>A | 0.000 | 0.000 | 0.000 | 0.460 | NaN | NaN | NaN | NaN | NaN | |
14 | 3R | 8564156 | G | A | intergenic_region | MODIFIER | D7r1-AGAP008285 | AGAP008284-AGAP008285 | intergenic_region | AGAP008284-AGAP008285 | n.8564156G>A | 0.115 | 0.046 | 0.081 | 0.000 | NaN | NaN | NaN | NaN | NaN | |
15 | 3R | 28595449 | C | T | missense_variant | MODERATE | GSTE5 | AGAP009192 | transcript | AGAP009192-RA | c.325G>A | p.Gly109Ser | 0.250 | 0.027 | 0.000 | 0.000 | NaN | NaN | NaN | NaN | NaN |
16 | 3R | 28598062 | G | C | missense_variant | MODERATE | GSTE2 | AGAP009194 | transcript | AGAP009194-RA | c.355C>G | p.Leu119Val | 0.640 | 0.054 | 0.000 | 0.000 | NaN | NaN | NaN | NaN | NaN |
17 | 3R | 28598166 | A | G | missense_variant | MODERATE | GSTE2 | AGAP009194 | transcript | AGAP009194-RA | c.341T>C | p.Ile114Thr | 0.069 | 0.068 | 0.831 | 0.000 | NaN | NaN | NaN | NaN | NaN |
18 | 3R | 28600701 | A | G | intron_variant | MODIFIER | GSTE7 | AGAP009196 | transcript | AGAP009196-RA | c.151-26A>G | 0.193 | 0.014 | 0.000 | 0.002 | NaN | NaN | NaN | NaN | NaN | |
19 | 3L | 11213955 | G | T | intergenic_region | MODIFIER | TEP1-TEP3 | AGAP010815-AGAP010816 | intergenic_region | AGAP010815-AGAP010816 | n.11213955G>T | 0.000 | 0.083 | 1.000 | 0.002 | NaN | NaN | NaN | NaN | NaN | |
20 | X | 15251490 | C | T | intergenic_region | MODIFIER | CYP9K1-AGAP000819 | AGAP000818-AGAP000819 | intergenic_region | AGAP000818-AGAP000819 | n.15251490C>T | 0.000 | 0.052 | 1.000 | 0.000 | NaN | NaN | NaN | NaN | NaN | |
21 | X | 15255321 | A | T | intergenic_region | MODIFIER | AGAP000819-CPR125 | AGAP000819-AGAP000820 | intergenic_region | AGAP000819-AGAP000820 | n.15255321A>T | 0.000 | 0.077 | 1.000 | 0.000 | NaN | NaN | NaN | NaN | NaN | |
0 | 2R | 3492074 | G | A | missense_variant | MODERATE | ACE1 | AGAP001356 | transcript | AGAP001356-RA | c.838G>A | p.Gly280Ser | NaN | NaN | NaN | NaN | 0.845 | 0.000 | 0.000 | 0.009 | 0.013 |
1 | 2R | 28492879 | A | G | missense_variant | MODERATE | CYP6P3 | AGAP002865 | transcript | AGAP002865-RA | c.263T>C | p.Ile88Thr | NaN | NaN | NaN | NaN | 0.000 | 0.680 | 0.000 | 0.000 | 0.000 |
2 | 2R | 28497967 | G | C | missense_variant | MODERATE | CYP6P4 | AGAP002867 | transcript | AGAP002867-RA | c.708C>G | p.Ile236Met | NaN | NaN | NaN | NaN | 0.065 | 0.000 | 0.000 | 0.525 | 0.618 |
3 | 2R | 28499661 | G | T | missense_variant | MODERATE | CYP6P1 | AGAP002868 | transcript | AGAP002868-RA | c.1120C>A | p.Leu374Met | NaN | NaN | NaN | NaN | 0.392 | 0.000 | 0.000 | 0.000 | 0.000 |
4 | 2R | 28501399 | G | A | missense_variant | MODERATE | CYP6P2 | AGAP002869 | transcript | AGAP002869-RA | c.1429C>T | p.Pro477Ser | NaN | NaN | NaN | NaN | 0.008 | 0.000 | 0.058 | 0.000 | 0.000 |
5 | 2R | 28502850 | C | T | synonymous_variant | LOW | CYP6P2 | AGAP002869 | transcript | AGAP002869-RA | c.45G>A | p.Ala15Ala | NaN | NaN | NaN | NaN | 0.179 | 0.000 | 0.114 | 0.566 | 0.632 |
6 | 2L | 2432419 | T | G | None | None | None | None | None | None | None | None | NaN | NaN | NaN | NaN | 0.000 | 0.000 | 0.000 | 0.000 | 0.117 |
7 | 2L | 2435581 | G | A | None | None | None | None | None | None | None | None | NaN | NaN | NaN | NaN | 0.865 | 0.822 | 0.000 | 0.000 | 0.003 |
8 | 2L | 20288132 | T | C | synonymous_variant | LOW | COEAE1D | AGAP005756 | transcript | AGAP005756-RA | c.696T>C | p.His232His | NaN | NaN | NaN | NaN | 0.207 | 0.184 | 0.417 | 0.000 | 0.000 |
9 | 2L | 25429235 | G | T | missense_variant | MODERATE | Rdl | AGAP006028 | transcript | AGAP006028-RA | c.886G>T | p.Ala296Ser | NaN | NaN | NaN | NaN | 0.038 | 0.030 | 0.234 | 0.242 | 0.241 |
10 | 2L | 25429236 | C | G | missense_variant | MODERATE | Rdl | AGAP006028 | transcript | AGAP006028-RA | c.887C>G | p.Ala296Gly | NaN | NaN | NaN | NaN | 0.450 | 0.000 | 0.000 | 0.008 | 0.000 |
11 | 2L | 25635973 | G | A | missense_variant | MODERATE | CYP4J5 | AGAP006048 | transcript | AGAP006048-RA | c.127C>T | p.Leu43Phe | NaN | NaN | NaN | NaN | 0.221 | 0.890 | 0.750 | 0.484 | 0.471 |
12 | 2L | 34100758 | A | T | 5_prime_UTR_variant | MODIFIER | AGAP006546 | AGAP006546 | transcript | AGAP006546-RA | c.-247A>T | NaN | NaN | NaN | NaN | 0.041 | 0.006 | 0.045 | 0.336 | 0.476 | |
13 | 2L | 34118141 | G | A | missense_variant | MODERATE | AGAP006551 | AGAP006551 | transcript | AGAP006551-RA | c.35C>T | p.Ala12Val | NaN | NaN | NaN | NaN | 0.115 | 0.000 | 0.000 | 0.333 | 0.479 |
14 | 2L | 34118260 | G | A | intergenic_region | MODIFIER | AGAP006551-AGAP006552 | AGAP006551-AGAP006552 | intergenic_region | AGAP006551-AGAP006552 | n.34118260G>A | NaN | NaN | NaN | NaN | 0.040 | 0.000 | 0.000 | 0.333 | 0.479 | |
15 | 3R | 8564156 | G | A | intergenic_region | MODIFIER | D7r1-AGAP008285 | AGAP008284-AGAP008285 | intergenic_region | AGAP008284-AGAP008285 | n.8564156G>A | NaN | NaN | NaN | NaN | 0.098 | 0.100 | 0.000 | 0.000 | 0.000 | |
16 | 3R | 28595449 | C | T | missense_variant | MODERATE | GSTE5 | AGAP009192 | transcript | AGAP009192-RA | c.325G>A | p.Gly109Ser | NaN | NaN | NaN | NaN | 0.210 | 0.000 | 0.034 | 0.000 | 0.000 |
17 | 3R | 28598062 | G | C | missense_variant | MODERATE | GSTE2 | AGAP009194 | transcript | AGAP009194-RA | c.355C>G | p.Leu119Val | NaN | NaN | NaN | NaN | 0.558 | 0.000 | 0.000 | 0.000 | 0.000 |
18 | 3R | 28598166 | A | G | missense_variant | MODERATE | GSTE2 | AGAP009194 | transcript | AGAP009194-RA | c.341T>C | p.Ile114Thr | NaN | NaN | NaN | NaN | 0.057 | 0.732 | 0.119 | 0.000 | 0.000 |
19 | 3R | 28600701 | A | G | intron_variant | MODIFIER | GSTE7 | AGAP009196 | transcript | AGAP009196-RA | c.151-26A>G | NaN | NaN | NaN | NaN | 0.164 | 0.000 | 0.000 | 0.000 | 0.003 | |
20 | 3L | 11213955 | G | T | intergenic_region | MODIFIER | TEP1-TEP3 | AGAP010815-AGAP010816 | intergenic_region | AGAP010815-AGAP010816 | n.11213955G>T | NaN | NaN | NaN | NaN | 0.006 | 0.876 | 0.031 | 0.000 | 0.000 | |
21 | X | 15251490 | C | T | intergenic_region | MODIFIER | CYP9K1-AGAP000819 | AGAP000818-AGAP000819 | intergenic_region | AGAP000818-AGAP000819 | n.15251490C>T | NaN | NaN | NaN | NaN | 0.000 | 0.852 | 0.000 | 0.000 | 0.000 | |
22 | X | 15255321 | A | T | intergenic_region | MODIFIER | AGAP000819-CPR125 | AGAP000819-AGAP000820 | intergenic_region | AGAP000819-AGAP000820 | n.15255321A>T | NaN | NaN | NaN | NaN | 0.000 | 0.852 | 0.000 | 0.000 | 0.000 |
Allele frequencies of any SNPs across amplicons#
This heatmap visualizes missense mutations found across all amplicons, focusing on functionally relevant variants that change amino acid sequences and potentially affect protein function.
vcf_path = f"{wkdir}/results/vcfs/amplicons/{dataset}.annot.vcf"
cohort_col = cohort_cols[0]
snp_df, geno = vcf_to_snp_dataframe(vcf_path, metadata)
snp_freq_df = calculate_frequencies_cohort(
snp_df=snp_df,
metadata=metadata,
geno=geno,
cohort_col=cohort_col,
af_filter=0.05,
missense_filter=True
)
snp_freq_df = snp_freq_df.filter(like='frq')
snp_freq_df.columns = snp_freq_df.columns.str.replace("frq_", "")
plot_allele_frequencies(
df=snp_freq_df,
cohort_col=cohort_col
)