Plotting allele frequencies#

This page shows allele frequencies in each cohort of the SNPs genotyped in the amplicon sequencing protocol. Allele frequency refers to the proportion of a specific genetic variant in a population.

SNP frequency summary table#

This table summarizes allele frequencies across all cohorts.

contig pos ref alt type effect gene geneID modifier transcript base_change aa_change frq_Obuasi frq_Gambia_URR frq_VK7 frq_Siaya frq_gambiae frq_coluzzii frq_arabiensis frq_unassigned frq_gcx3
0 2L 2380982 T C intron_variant MODIFIER para AGAP004707 transcript AGAP004707-RD c.286-83T>C 0.014 0.048 0.000 0.308 NaN NaN NaN NaN NaN
1 2L 2416980 C T missense_variant MODERATE para AGAP004707 transcript AGAP004707-RD c.2372C>T p.Thr791Met 0.530 0.000 0.000 0.000 NaN NaN NaN NaN NaN
2 2L 2422651 T C missense_variant MODERATE para AGAP004707 transcript AGAP004707-RD c.2984T>C p.Leu995Ser 0.007 0.107 0.000 0.337 NaN NaN NaN NaN NaN
3 2L 2422652 A T missense_variant MODERATE para AGAP004707 transcript AGAP004707-RD c.2985A>T p.Leu995Phe 1.000 0.071 1.000 0.659 NaN NaN NaN NaN NaN
4 2L 2425052 G A synonymous_variant LOW para AGAP004707 transcript AGAP004707-RD c.3735G>A p.Pro1245Pro 0.000 0.000 0.000 0.693 NaN NaN NaN NaN NaN
5 2L 2429745 A T missense_variant MODERATE para AGAP004707 transcript AGAP004707-RD c.4708A>T p.Asn1570Tyr 0.101 0.022 0.192 0.000 NaN NaN NaN NaN NaN
6 2L 2430424 G T missense_variant MODERATE para AGAP004707 transcript AGAP004707-RD c.5236G>T p.Ala1746Ser 0.514 0.000 0.000 0.000 NaN NaN NaN NaN NaN
7 2L 2430817 G A missense_variant MODERATE para AGAP004707 transcript AGAP004707-RD c.5557G>A p.Val1853Ile 0.155 0.000 0.000 0.000 NaN NaN NaN NaN NaN
8 2L 2430880 C T missense_variant MODERATE para AGAP004707 transcript AGAP004707-RD c.5620C>T p.Pro1874Ser 0.000 0.000 0.716 0.000 NaN NaN NaN NaN NaN
9 2L 2430881 C T missense_variant MODERATE para AGAP004707 transcript AGAP004707-RD c.5621C>T p.Pro1874Leu 0.112 0.000 0.081 0.000 NaN NaN NaN NaN NaN
10 2L 2431005 C T synonymous_variant LOW para AGAP004707 transcript AGAP004707-RD c.5745C>T p.Arg1915Arg 1.000 0.731 1.000 1.000 NaN NaN NaN NaN NaN
0 2L 2380982 T C intron_variant MODIFIER para AGAP004707 transcript AGAP004707-RD c.286-83T>C NaN NaN NaN NaN 0.018 0.000 0.000 0.236 0.344
1 2L 2416980 C T missense_variant MODERATE para AGAP004707 transcript AGAP004707-RD c.2372C>T p.Thr791Met NaN NaN NaN NaN 0.444 0.000 0.000 0.000 0.000
2 2L 2422651 T C missense_variant MODERATE para AGAP004707 transcript AGAP004707-RD c.2984T>C p.Leu995Ser NaN NaN NaN NaN 0.012 0.000 0.121 0.220 0.387
3 2L 2422652 A T missense_variant MODERATE para AGAP004707 transcript AGAP004707-RD c.2985A>T p.Leu995Phe NaN NaN NaN NaN 0.994 0.857 0.000 0.678 0.613
4 2L 2425052 G A synonymous_variant LOW para AGAP004707 transcript AGAP004707-RD c.3735G>A p.Pro1245Pro NaN NaN NaN NaN 0.110 0.000 0.000 0.633 0.653
5 2L 2429745 A T missense_variant MODERATE para AGAP004707 transcript AGAP004707-RD c.4708A>T p.Asn1570Tyr NaN NaN NaN NaN 0.092 0.161 0.000 0.008 0.000
6 2L 2430424 G T missense_variant MODERATE para AGAP004707 transcript AGAP004707-RD c.5236G>T p.Ala1746Ser NaN NaN NaN NaN 0.437 0.000 0.000 0.000 0.000
7 2L 2430817 G A missense_variant MODERATE para AGAP004707 transcript AGAP004707-RD c.5557G>A p.Val1853Ile NaN NaN NaN NaN 0.133 0.000 0.000 0.000 0.000
8 2L 2430880 C T missense_variant MODERATE para AGAP004707 transcript AGAP004707-RD c.5620C>T p.Pro1874Ser NaN NaN NaN NaN 0.000 0.602 0.000 0.000 0.000
9 2L 2430881 C T missense_variant MODERATE para AGAP004707 transcript AGAP004707-RD c.5621C>T p.Pro1874Leu NaN NaN NaN NaN 0.095 0.068 0.000 0.000 0.000
10 2L 2431005 C T synonymous_variant LOW para AGAP004707 transcript AGAP004707-RD c.5745C>T p.Arg1915Arg NaN NaN NaN NaN 1.000 0.828 0.985 0.977 1.000
0 2R 3492074 G A missense_variant MODERATE ACE1 AGAP001356 transcript AGAP001356-RA c.838G>A p.Gly280Ser 0.966 0.011 0.000 0.012 NaN NaN NaN NaN NaN
1 2R 28492879 A G missense_variant MODERATE CYP6P3 AGAP002865 transcript AGAP002865-RA c.263T>C p.Ile88Thr 0.000 0.000 0.818 0.000 NaN NaN NaN NaN NaN
2 2R 28497967 G C missense_variant MODERATE CYP6P4 AGAP002867 transcript AGAP002867-RA c.708C>G p.Ile236Met 0.000 0.000 0.000 0.622 NaN NaN NaN NaN NaN
3 2R 28499661 G T missense_variant MODERATE CYP6P1 AGAP002868 transcript AGAP002868-RA c.1120C>A p.Leu374Met 0.458 0.000 0.000 0.000 NaN NaN NaN NaN NaN
4 2R 28502850 C T synonymous_variant LOW CYP6P2 AGAP002869 transcript AGAP002869-RA c.45G>A p.Ala15Ala 0.092 0.112 0.000 0.638 NaN NaN NaN NaN NaN
5 2L 2432419 T G None None None None None None None None 0.000 0.000 0.000 0.087 NaN NaN NaN NaN NaN
6 2L 2435581 G A None None None None None None None None 0.986 0.054 1.000 0.002 NaN NaN NaN NaN NaN
7 2L 20288132 T C synonymous_variant LOW COEAE1D AGAP005756 transcript AGAP005756-RA c.696T>C p.His232His 0.278 0.409 0.144 0.000 NaN NaN NaN NaN NaN
8 2L 25429235 G T missense_variant MODERATE Rdl AGAP006028 transcript AGAP006028-RA c.886G>T p.Ala296Ser 0.000 0.179 0.035 0.243 NaN NaN NaN NaN NaN
9 2L 25429236 C G missense_variant MODERATE Rdl AGAP006028 transcript AGAP006028-RA c.887C>G p.Ala296Gly 0.537 0.000 0.000 0.002 NaN NaN NaN NaN NaN
10 2L 25635973 G A missense_variant MODERATE CYP4J5 AGAP006048 transcript AGAP006048-RA c.127C>T p.Leu43Phe 0.178 0.679 0.966 0.462 NaN NaN NaN NaN NaN
11 2L 34100758 A T 5_prime_UTR_variant MODIFIER AGAP006546 AGAP006546 transcript AGAP006546-RA c.-247A>T 0.000 0.032 0.000 0.458 NaN NaN NaN NaN NaN
12 2L 34118141 G A missense_variant MODERATE AGAP006551 AGAP006551 transcript AGAP006551-RA c.35C>T p.Ala12Val 0.088 0.000 0.000 0.460 NaN NaN NaN NaN NaN
13 2L 34118260 G A intergenic_region MODIFIER AGAP006551-AGAP006552 AGAP006551-AGAP006552 intergenic_region AGAP006551-AGAP006552 n.34118260G>A 0.000 0.000 0.000 0.460 NaN NaN NaN NaN NaN
14 3R 8564156 G A intergenic_region MODIFIER D7r1-AGAP008285 AGAP008284-AGAP008285 intergenic_region AGAP008284-AGAP008285 n.8564156G>A 0.115 0.046 0.081 0.000 NaN NaN NaN NaN NaN
15 3R 28595449 C T missense_variant MODERATE GSTE5 AGAP009192 transcript AGAP009192-RA c.325G>A p.Gly109Ser 0.250 0.027 0.000 0.000 NaN NaN NaN NaN NaN
16 3R 28598062 G C missense_variant MODERATE GSTE2 AGAP009194 transcript AGAP009194-RA c.355C>G p.Leu119Val 0.640 0.054 0.000 0.000 NaN NaN NaN NaN NaN
17 3R 28598166 A G missense_variant MODERATE GSTE2 AGAP009194 transcript AGAP009194-RA c.341T>C p.Ile114Thr 0.069 0.068 0.831 0.000 NaN NaN NaN NaN NaN
18 3R 28600701 A G intron_variant MODIFIER GSTE7 AGAP009196 transcript AGAP009196-RA c.151-26A>G 0.193 0.014 0.000 0.002 NaN NaN NaN NaN NaN
19 3L 11213955 G T intergenic_region MODIFIER TEP1-TEP3 AGAP010815-AGAP010816 intergenic_region AGAP010815-AGAP010816 n.11213955G>T 0.000 0.083 1.000 0.002 NaN NaN NaN NaN NaN
20 X 15251490 C T intergenic_region MODIFIER CYP9K1-AGAP000819 AGAP000818-AGAP000819 intergenic_region AGAP000818-AGAP000819 n.15251490C>T 0.000 0.052 1.000 0.000 NaN NaN NaN NaN NaN
21 X 15255321 A T intergenic_region MODIFIER AGAP000819-CPR125 AGAP000819-AGAP000820 intergenic_region AGAP000819-AGAP000820 n.15255321A>T 0.000 0.077 1.000 0.000 NaN NaN NaN NaN NaN
0 2R 3492074 G A missense_variant MODERATE ACE1 AGAP001356 transcript AGAP001356-RA c.838G>A p.Gly280Ser NaN NaN NaN NaN 0.845 0.000 0.000 0.009 0.013
1 2R 28492879 A G missense_variant MODERATE CYP6P3 AGAP002865 transcript AGAP002865-RA c.263T>C p.Ile88Thr NaN NaN NaN NaN 0.000 0.680 0.000 0.000 0.000
2 2R 28497967 G C missense_variant MODERATE CYP6P4 AGAP002867 transcript AGAP002867-RA c.708C>G p.Ile236Met NaN NaN NaN NaN 0.065 0.000 0.000 0.525 0.618
3 2R 28499661 G T missense_variant MODERATE CYP6P1 AGAP002868 transcript AGAP002868-RA c.1120C>A p.Leu374Met NaN NaN NaN NaN 0.392 0.000 0.000 0.000 0.000
4 2R 28501399 G A missense_variant MODERATE CYP6P2 AGAP002869 transcript AGAP002869-RA c.1429C>T p.Pro477Ser NaN NaN NaN NaN 0.008 0.000 0.058 0.000 0.000
5 2R 28502850 C T synonymous_variant LOW CYP6P2 AGAP002869 transcript AGAP002869-RA c.45G>A p.Ala15Ala NaN NaN NaN NaN 0.179 0.000 0.114 0.566 0.632
6 2L 2432419 T G None None None None None None None None NaN NaN NaN NaN 0.000 0.000 0.000 0.000 0.117
7 2L 2435581 G A None None None None None None None None NaN NaN NaN NaN 0.865 0.822 0.000 0.000 0.003
8 2L 20288132 T C synonymous_variant LOW COEAE1D AGAP005756 transcript AGAP005756-RA c.696T>C p.His232His NaN NaN NaN NaN 0.207 0.184 0.417 0.000 0.000
9 2L 25429235 G T missense_variant MODERATE Rdl AGAP006028 transcript AGAP006028-RA c.886G>T p.Ala296Ser NaN NaN NaN NaN 0.038 0.030 0.234 0.242 0.241
10 2L 25429236 C G missense_variant MODERATE Rdl AGAP006028 transcript AGAP006028-RA c.887C>G p.Ala296Gly NaN NaN NaN NaN 0.450 0.000 0.000 0.008 0.000
11 2L 25635973 G A missense_variant MODERATE CYP4J5 AGAP006048 transcript AGAP006048-RA c.127C>T p.Leu43Phe NaN NaN NaN NaN 0.221 0.890 0.750 0.484 0.471
12 2L 34100758 A T 5_prime_UTR_variant MODIFIER AGAP006546 AGAP006546 transcript AGAP006546-RA c.-247A>T NaN NaN NaN NaN 0.041 0.006 0.045 0.336 0.476
13 2L 34118141 G A missense_variant MODERATE AGAP006551 AGAP006551 transcript AGAP006551-RA c.35C>T p.Ala12Val NaN NaN NaN NaN 0.115 0.000 0.000 0.333 0.479
14 2L 34118260 G A intergenic_region MODIFIER AGAP006551-AGAP006552 AGAP006551-AGAP006552 intergenic_region AGAP006551-AGAP006552 n.34118260G>A NaN NaN NaN NaN 0.040 0.000 0.000 0.333 0.479
15 3R 8564156 G A intergenic_region MODIFIER D7r1-AGAP008285 AGAP008284-AGAP008285 intergenic_region AGAP008284-AGAP008285 n.8564156G>A NaN NaN NaN NaN 0.098 0.100 0.000 0.000 0.000
16 3R 28595449 C T missense_variant MODERATE GSTE5 AGAP009192 transcript AGAP009192-RA c.325G>A p.Gly109Ser NaN NaN NaN NaN 0.210 0.000 0.034 0.000 0.000
17 3R 28598062 G C missense_variant MODERATE GSTE2 AGAP009194 transcript AGAP009194-RA c.355C>G p.Leu119Val NaN NaN NaN NaN 0.558 0.000 0.000 0.000 0.000
18 3R 28598166 A G missense_variant MODERATE GSTE2 AGAP009194 transcript AGAP009194-RA c.341T>C p.Ile114Thr NaN NaN NaN NaN 0.057 0.732 0.119 0.000 0.000
19 3R 28600701 A G intron_variant MODIFIER GSTE7 AGAP009196 transcript AGAP009196-RA c.151-26A>G NaN NaN NaN NaN 0.164 0.000 0.000 0.000 0.003
20 3L 11213955 G T intergenic_region MODIFIER TEP1-TEP3 AGAP010815-AGAP010816 intergenic_region AGAP010815-AGAP010816 n.11213955G>T NaN NaN NaN NaN 0.006 0.876 0.031 0.000 0.000
21 X 15251490 C T intergenic_region MODIFIER CYP9K1-AGAP000819 AGAP000818-AGAP000819 intergenic_region AGAP000818-AGAP000819 n.15251490C>T NaN NaN NaN NaN 0.000 0.852 0.000 0.000 0.000
22 X 15255321 A T intergenic_region MODIFIER AGAP000819-CPR125 AGAP000819-AGAP000820 intergenic_region AGAP000819-AGAP000820 n.15255321A>T NaN NaN NaN NaN 0.000 0.852 0.000 0.000 0.000

Allele frequencies of any SNPs across amplicons#

This heatmap visualizes missense mutations found across all amplicons, focusing on functionally relevant variants that change amino acid sequences and potentially affect protein function.

vcf_path = f"{wkdir}/results/vcfs/amplicons/{dataset}.annot.vcf"
cohort_col = cohort_cols[0]

snp_df, geno = vcf_to_snp_dataframe(vcf_path, metadata)

snp_freq_df = calculate_frequencies_cohort(
    snp_df=snp_df, 
    metadata=metadata,
    geno=geno, 
    cohort_col=cohort_col, 
    af_filter=0.05,
    missense_filter=True
)   

snp_freq_df = snp_freq_df.filter(like='frq')
snp_freq_df.columns = snp_freq_df.columns.str.replace("frq_", "")

plot_allele_frequencies(
    df=snp_freq_df,
    cohort_col=cohort_col
)