Question

SnpEff annotates coding duplication as intronic?

0

Entering edit mode

15 days ago

kirill.zaslavsky • 0

Hi all, I am analyzing variants from an old database and remapping them to hg38. I have what seems to be the same variant in two people annotated in two different ways - as an insertion and duplication. Here is the VCF input:

X   41473864    .   G   <DUP>   .   .   PtID=XXXXXX;SVTYPE=DUP;SVLEN=9;END=41473872 GT:DP   1:150
X   41473872    .   T   TGCGCCGCCT  .   .   PtID=YYYYYY;SVTYPE=INS;END=41473873 GT:DP   1:150

Ensembl's VEP correctly classifies the <DUP> variant as protein coding SnpEff incorrectly classifies is an intron variant

For now, I am just converting the short <DUP> entries into INS entries as a workaround, but I am wondering what is causing this issue and how it can be fixed

Thank you for your help

snpeff • 346 views

ADD COMMENT • link 15 days ago by kirill.zaslavsky • 0

1

Entering edit mode

Can you show us the output from VEP and snpEff? They could be annotating two different transcripts.

EDIT: I ran VEP quickly on this variant and there are both coding and non-coding variants at this genomic position. See results below:

#Uploaded_variation Location    Allele  Gene    Feature Feature_type    Consequence cDNA_position   CDS_position    Protein_position    Amino_acids Codons  Existing_variation  Extra
.   X:41473872-41473872 GCGCCGCCT   ENSG00000188937 ENST00000342595.3   Transcript  inframe_insertion   875-876 404-405 135 L/LRRL  cta/ctGCGCCGCCTa    -   IMPACT=MODERATE;SYMBOL=NYX;BIOTYPE=protein_coding;EXON=2/2;HGVSc=ENST00000342595.3:c.396_404dup;HGVSp=ENSP00000340328.3:p.Arg133_Leu135dup;UPLOADED_ALLELE=-/GCGCCGCCT;STRAND=1;SYMBOL_SOURCE=HGNC;HGNC_ID=HGNC:8082;TSL=1;APPRIS=P1
.   X:41473872-41473872 GCGCCGCCT   ENSG00000188937 ENST00000378220.3   Transcript  inframe_insertion   634-635 404-405 135 L/LRRL  cta/ctGCGCCGCCTa    -   IMPACT=MODERATE;SYMBOL=NYX;BIOTYPE=protein_coding;EXON=3/3;HGVSc=ENST00000378220.3:c.396_404dup;HGVSp=ENSP00000367465.2:p.Arg133_Leu135dup;UPLOADED_ALLELE=-/GCGCCGCCT;STRAND=1;SYMBOL_SOURCE=HGNC;HGNC_ID=HGNC:8082;MANE_SELECT=NM_001378477.3;TSL=1;APPRIS=P1
.   X:41473872-41473872 GCGCCGCCT   ENSG00000225238 ENST00000451718.1   Transcript  upstream_gene_variant   -   -   -   -   -   -   IMPACT=MODIFIER;SYMBOL=GEMIN7P1;BIOTYPE=processed_pseudogene;UPLOADED_ALLELE=-/GCGCCGCCT;DISTANCE=1219;STRAND=-1;SYMBOL_SOURCE=HGNC;HGNC_ID=HGNC:54938
.   X:41473872-41473872 GCGCCGCCT   ENSG00000188937 ENST00000486842.1   Transcript  downstream_gene_variant -   -   -   -   -   -   IMPACT=MODIFIER;SYMBOL=NYX;BIOTYPE=protein_coding_CDS_not_defined;UPLOADED_ALLELE=-/GCGCCGCCT;DISTANCE=163;STRAND=1;SYMBOL_SOURCE=HGNC;HGNC_ID=HGNC:8082;TSL=3

ADD REPLY • link 15 days ago by Ram 43k

0

Entering edit mode

I get the exact same output from VEP as you do.

However, from SnpEff I get (parsed):

CHROM   POS ID  REF ALT QUAL    FILTER  FORMAT  NA0001  INFO_PtID   INFO_SVTYPE INFO_SVLEN  INFO_END    Allele  Annotation  Annotation_Impact   Gene_Name   Gene_ID Feature_Type    Feature_ID  Transcript_BioType  Rank    HGVS.c  HGVS.p  cDNA.pos / cDNA.length  CDS.pos / CDS.length    AA.pos / AA.length  Distance    ERRORS / WARNINGS / INFO "> INFO_LOF    INFO_NMD        
X   41473864    .   G   <DUP>   .   .   GT:DP   1:150   XXXXXX  DUP 9   41473872    <DUP>   intron_variant  MODIFIER    NYX NYX transcript  NM_022567.3 protein_coding  1/1 c.                      INFO_REALIGN_3_PRIME    NA  NA
X   41473864    .   G   <DUP>   .   .   GT:DP   1:150   XXXXXX  DUP 9   41473872    <DUP>   intron_variant  MODIFIER    NYX NYX transcript  NM_001378477.3  protein_coding  2/2 c.                      INFO_REALIGN_3_PRIME    NA  NA
X   41473872    .   T   TGCGCCGCCT  .   .   GT:DP   1:150   YYYYYY  INS NA  41473873    TGCGCCGCCT  disruptive_inframe_insertion    MODERATE    NYX NYX transcript  NM_001378477.3  protein_coding  3/3 c.396_404dupGCGCCGCCT   p.Leu135_Asp136insArgArgLeu 635/2414    405/1431    135/476         NA  NA
X   41473872    .   T   TGCGCCGCCT  .   .   GT:DP   1:150   YYYYYY  INS NA  41473873    TGCGCCGCCT  disruptive_inframe_insertion    MODERATE    NYX NYX transcript  NM_022567.3 protein_coding  2/2 c.396_404dupGCGCCGCCT   p.Leu135_Asp136insArgArgLeu 967/2746    405/1431    135/476         NA  NA

It tries to do some weird realignment. From snpEff log in bash:

Variant (original)   : chrX:41473864-41473871[DUP]
Variant (realinged)  : chrX:41472836-41472836[INTERVAL]

Unsure why it's doing this...

Thanks again for your help

ADD REPLY • link 15 days ago by kirill.zaslavsky • 0

1

Entering edit mode

It looks like snpEff does not work reliably on SVs: https://pcingola.github.io/SnpEff/snpeff/introduction/?h=structural#snpeff-features (search for "structural variant")

I guess that could be because the INS has a definite length whereas the DUP could be taken as dupG, which is why it doesn't give you accurate annotations. My point is, VEP will cover all bases so I'd pick that over snpEff any given day.