Տեղեկատվություն

Ինչպե՞ս ստանալ փուլային հապլոտիպ vcf ֆայլից:


Թեև ես օր ու գիշեր կարդում եմ, բայց դեռ շփոթված եմ այս ոլորտում: Ես ունեմ հարյուրավոր BAM ֆայլեր (տվյալ մարդկային բնակչության ամբողջ գենոմի հաջորդականությունից): Ես մտածում էի, թե ինչպես կարող եմ ձեռք բերել փուլային հապլոտիպ հում vcf ֆայլից: Ես կարդացի նաև GATK- ի մասին, բայց իմ հարցի հստակ պատասխանը չգտա: Խնդրում եմ, ասեք ինձ, արդյոք այս գործիքը հարմար է այս նպատակին: Կխնդրե՞ք ինձ մի քանի գործնական ուղեցույցներ և խողովակաշարեր, որոնք քայլ առ քայլ բացատրում են նման վերլուծությունը:

Շնորհակալություն օգնության համար


Դուք պետք է կարողանաք վերափոխել BAM ֆայլերը VCF ֆայլերի հետ PGDSpider.

Ես գտնում եմ, որ այս տեսակի տվյալների ձևաչափման համար հատուկ ծրագրեր օգտագործելը հակված է սխալների և գործնական չէ, երբ մեծ թվով ֆայլեր ունենա վերափոխման, այնպես որ անձամբ ինձ դուր է գալիս պարզապես կարդալ ձևաչափի ստանդարտի մասին և ինքս գրել վերափոխման կոդ, բայց դա շատ է անձնական նախասիրության հարց.


Դուք կարող եք օգտագործել կամ HapCut2, WhatsHap կամ իմ փաթեթը:


Դրան հասնելու համար կան բազմաթիվ փաթեթներ: Ես անձամբ օգտագործել եմ bcftools (SAMtools): Ահա ոչ ամբողջական ցանկը.

  • SAM գործիքներ (bcftools);
  • VarScan2;
  • FreeBayes;
  • Platypus;
  • Խորը տարբերակ

Ինչպե՞ս ստանալ փուլային հապլոտիպ vcf ֆայլից: - Կենսաբանություն

Ընդլայնիչ ընթերցման փուլով հապլոտիպային բլոկների համար: Պիթոնի ծրագիր `ReadBackPhased հապլոտիպի բլոկների երկարացման համար` օգտագործելով markov առաջին կարգի անցման հավանականությունները և հավանականության թեստը:

Մշակվել է Բիշվա Կ. Գիրիի կողմից, Ռեմինգթոնի լաբորատորիայում, Հյուսիսային Կարոլինայի համալսարանի Գրինսբորոյում, Կենսաբանության բաժնում:

Giri, B. K., Remington D. L. PhaseIT-Հապլոտիպ, որը նույնպես փուլ է մղվում հետերոգեն և հիբրիդ գենոմների և գենոմային մոդելների առաջացման համար `օգտագործելով Phase-Extender և Phase-Stitcher: biorxiv (2018) [դեռ վերբեռնված չէ]:

Բովանդակություն

Դիպլոիդ օրգանիզմի գենոմում երկու հետերոզիգոտ գենոտիպը կոչվում է հետադարձ փուլային, եթե դրանք ապահովված են ընթերցումների հավասարեցված հաջորդականությամբ: Կախված ընթերցվող հաջորդականության գրադարանի չափից և տեսակից (մեկ վերջն ընդդեմ պարկավոր վերջի), ընթերցված հաջորդականության տեսակը (DNAseq vs. RNAseq) հետադարձ փուլով հապլոտիպը կարող է տատանվել 2 գենոտիպերի չափից մինչև բազմաթիվ գենոտիպեր:

Ստուգեք այս հղումները ՝ ընթերցման փուլավորման մասին ավելի մանրամասն

Հապլոտիպի փուլավորումը երկրորդ «գնալ դեպի» խնդիրն է կենսաինֆորմատիկայի մեջ՝ կարդալու հավասարեցումից հետո: Հապլոտիպի փուլավորման կարևորությունը վերաբերում է ուղղակիորեն ASE- ի (ալելային հատուկ արտահայտություն) վերլուծություններին, EHH- ի համար երկարացված հապլոտիպի պատրաստմանը (երկարատև հապլոտիպի համասիգոսիտություն) և երկպոլի գենոմի պատրաստմանը, որը շուտով կդառնա կենսաինֆորմատիկայի նոր չափանիշ առաջիկա տարիներին և այլն: Հապլոտիպի փուլավորման (և, ի վերջո, դիպլոիդ գենոմի) անհրաժեշտությունը մեծանում է գենոմում հետերոզիգոտության աճի հետ, քանի որ ավելի բարձր հետետոգենությունը հանգեցնում է հավասարեցման ավելի մեծ կողմնակալության և բարդացնում է այն տարբերակների հուսալիությունը, որոնք կոչվում են՝ օգտագործելով այդ հավասարեցման տվյալները (SAM, BAM ֆայլեր):

Հապլոտիպի փուլային դասավորման մոտեցումը ներառում է երկու հետերոզիգոտ մարկերների միջև LD (կապի անհավասարակշռություն) թեստի կիրառում, որը սկսվել է Ալֆրեդ Ստուրտևանտի կողմից գենետիկական քարտեզի պատրաստումից: Populationանկացած գոյություն ունեցող բնակչության վրա հիմնված հապլոտիպի փուլավորման գործիք օգտագործում է LD թեստը տարբեր աստիճանի բարդությամբ `հիմնվելով ընտրանքի առկա չափի, նշիչների, նշիչի տեսակների և նմուշների միջև փոխհարաբերությունների վրա: Հապլոտիպի համար աստիճանաբար օգտագործվում են Beagle, ShapeIT, impute2 և այլն գործիքներ: Այս գործիքներն օգտագործում են տարբերակները (SNPs, InDels) գենոմի երկարության երկայնքով՝ գենոմային դիրքերի երկայնքով տարբերակների շղթան առանձին և անկախ մշակելով: Այսպիսով, գոյություն ունի դիպլոիդ օրգանիզմի համար, որը պարունակում է տարբերակների շղթա «n» հետերոզիգոտային տեղամասերով "2 ն" հնարավոր հապլոտիպեր: Որոշ չափով սա "2 ն" Խնդիրը մոտենում և թեթևանում է ՝ մի քանի նմուշներից կարճ գենոմային պարբերականությամբ գենոտիպի տվյալների նմուշառմամբ և նմուշառվող գենոտիպերի վրա ինքնության կիրառմամբ (IBD), ամենատարածված հապլոտիպի մեթոդով և այլն: Այնուամենայնիվ, այս մեթոդների կիրառումը կարող է օպտիմալ չլինել բարձր հետերոգեն գենոմ ունեցող, հիբրիդներ ունեցող օրգանիզմների փուլային վիճակները լուծելիս և/կամ շատ քիչ կամ ընդհանրապես տեղեկատու վահանակներ և գենոտիպի առատ տվյալներ չունեն:

Գործիքների հիմնական խնդիրները, որոնք զբաղվում են հապլոտիպի փուլային ներթափանցմամբ "2 ն" ճանապարհը կարելի է ամփոփել հետևյալ կերպ.

  • Հաշվարկային բեռի ավելացում՝ պայմանավորված "2 ն" խնդիր.
  • Հազվադեպ տարբերակների փուլավորման խնդիր:
  • Հիմնականում կիրառելի է մարդու և օրգանիզմների համար՝ հապլոտիպային ցուցիչով և առատ գենոմային տվյալներով:
  • Ոչ օպտիմալ է այն օրգանիզմների համար, որոնք ունեն հետերոգեն գենոմ, կամ այլասերված են, կամ հիբրիդներ են, կամ պատկանում են այն օրգանիզմների խմբին, որոնք ունեն գենոմային ռեսուրսների փոքր նմուշ և պատրաստված հղումային գենոմ:

Հետևաբար, LD- ի օգտագործումը երկու հարակից SNP- ների միջև `օգտագործելով նմուշների փոքր պոպուլյացիա, ի վիճակի չէ ապահովել բավարար լուծում GW (գենոմի լայնությամբ) հապլոտիպի պատրաստումը լուծելու համար, ինչը կարող է հանգեցնել անջատիչի չափազանց մեծ սխալների: Բացի այդ, հետերոգեն և հիբրիդային գենոմում, հետընթաց հոսքի վերլուծություններում անջատիչների սխալների պատճառով ծագած խնդիրները կարող են բազմազան լինել:

ReadBackphasing- ը հայտնվում է որպես կարճ և փոքր հեռահարության հապլոտիպերի պատրաստման նոր և ավելի հուսալի մեթոդ `միանալով հետերոզիգոտ տարբերակներին, որոնք ծածկված են հաջորդականությունների ընթերցմամբ: Այս կարճ հապլոտիպերը կարող են ավելի երկարաձգվել՝ ավելացնելով ավելի երկար երկարությամբ ընթերցումների հաջորդականությունը (կարդում է PacBio-ն) կամ ավելացնելով ավելի շատ գենոմային և RNAseq ընթերցումներ նույն անհատական ​​գործիքներից, տես WhatsHap, hapCut, Phaser և այլն:

Բայց, գոյություն ունեցող RBphase մեթոդի և գործիքների հետ կապված խնդիրները դեռ մնում են և կարող են ամփոփվել հետևյալ կերպ.

  1. հիմնականում ուղղված են հեռահար հեռահար հապլոտիպերի պատրաստմանը, բայց պարտադիր չէ, որ գենոմի լայնությամբ:
  2. գոյություն ունեցող RBphase մեթոդները ուղղված են միայն անհատական ​​կամ ընտանեկան մակարդակին, այսինքն ՝ դրանք պահանջում են «BAM» և «VCF» ֆայլերի բազմաթիվ մուտքագրումներ նույն անհատի և/կամ եռյակի համար: Փուլային հապլոտիպային բլոկների չափի մեծացումը կախված է միայն մի քանի BAM ֆայլերից կամ նույն անհատի ավելի երկար ընթերցումների բազմազանությունից, ինչը դեռ նշանակում է լրացուցիչ հաջորդականության և ծախսերի ներգրավում:
  3. Անդրադառնալով 2-րդ կետին -> RBPhased տվյալների ինտեգրումը բնակչության վրա հիմնված փուլավորման հետ դեռևս բացակայում է, այսինքն՝ նրանք չեն կարողանում լուծել նույն նմուշում երկու հապլոտիպային բլոկների փուլային վիճակը՝ օգտագործելով այլ նմուշներից հապլոտիպի փուլային վիճակի մասին տեղեկատվությունը:

PE- ի չափսերի ավելացումով (զուգավորված վերջ) լուսավորությունից և PacBio- ից ավելի երկար հաջորդականությունների առկայությամբ, այժմ հնարավոր է զգալիորեն մեծացնել RB- փուլով հապլոտիպերի չափը: Չնայած ավելի երկար ընթերցումներին, ապագայում միշտ կլինեն լուսաբանման խնդիրներ `պատահական լուսաբանման բացերի պատճառով: Այս բացերը և կկոտրեն գենոմի լայն հապլոտիպը մի քանի հապլոտիպի հատվածների, հետևաբար ամբողջական RBphasing-ը նույնպես օպտիմալ լուծում չէ:

RBphasing-ի համակցումը բնակչության վրա հիմնված փուլի ընդլայնման հետ նվազեցնում է խնդիրը

  1. Նախևառաջ RB- փուլով հապլոտիպի բլոկների պատրաստում նմուշի մեջ ՝ համահունչ հաջորդականությունների ընթերցմամբ (BAM, SAM ֆայլեր):
  2. Այնուհետև նմուշի ընդմիջման կետում երկու հաջորդական հապլոտիպային բլոկները միանում են՝ հաշվարկելով LD-ի (կապման անհավասարակշռություն) հավանականության գնահատականները, որոնք դիտվում են այդ ճեղքման կետում այլ նմուշներում:

Քանի որ RB- փուլային բլոկների չափերը մեծանում են գենոմում հետերոզիգոսության բարձրացման հետ, փուլ Extender այն հետերոգեն գենոմ ունեցող և (կամ) սահմանափակ քանակությամբ գենոտիպի տվյալների հաջորդականացված օրգանիզմների համար խիստ հարմար գործիք է: RB- փուլային հապլոտիպը միշտ ավելի շատ տեղեկատվություն ունի մեկ SNP- ի կամ InDel- ի համեմատ, դրանով իսկ հաղթահարելով այլընտրանքային սարսափների խնդիրները հետերոզիգոտ բնակչության երկար հեռահար հապլոտիպ պատրաստելու ժամանակ: Այսպիսով, հետադարձ փուլավորումը զուգակցված պոպուլյացիայի վրա հիմնված փուլավորման հետ կարող է տալ ավելի բարձր տարբերակներ յուրաքանչյուր հապլոտիպային բլոկի համար՝ դարձնելով. փուլի ընդլայնում ավելի լավ մեթոդ և գործիք ՝ ավելի բարձր հետերոզիգոզություն ունեցող օրգանիզմների հետ աշխատելիս (պոպուլյացիայի և հիբրիդների հատումից դուրս):

  • PhASE-Extender օգտագործում է մի քանի անհատների RB- փուլային հապլոտիպի տվյալներ, որոնք պատկանում են նույն ընտանիքին, պոպուլյացիային կամ տեսակին: Մեկ նմուշի համար հետադարձ փուլով VCF-ը կարող է պատրաստվել՝ օգտագործելով այնպիսի ծրագրեր, ինչպիսիք են Phaser, hapcut2, GATK readbackphasing: Հետո միացվում են մի քանի նմուշ RB- փուլով VCF- ներ `ստեղծելով բազմակի օրինակ VCF:
  • RBphased haplotype- ի տվյալները բազմակի օրինակ VCF- ից այնուհետև փոխարկվում են պարզ աղյուսակային ձևաչափի (HAPLOTYPE ֆայլ): Այս աղյուսակային ձևաչափի գենոտիպը ներկայացված է որպես IUPAC բազայի և հապլոտիպի բլոկների ՝ օգտագործելով եզակի բլոկային ինդեքս:
  • Հաջորդը, երկու հաջորդական RB- փուլային բլոկները մեկ նմուշում կարող են միացվել կամ զուգահեռ կամ այլընտրանքային կազմաձևման, տես նկարը ??.
  • Երկու հաջորդական RB- փուլային բլոկները մեկ նմուշում միացնելու համար մենք օգտագործում ենք լողավազանում գտնվող այլ նմուշների հապլոտիպի վիճակի տեղեկատվությունը: Հնարավոր կոնֆիգուրացիայի հավանականությունը (զուգահեռ ընդդեմ այլընտրանքի) գնահատվում է որպես այլ նմուշների հաջորդական բլոկների միջև դիտված LD:
  • Հավանականության գնահատումները հաշվարկվում են՝ հաստատելով առաջին կարգի մարկովյան շղթա երկու հաջորդական բլոկների նուկլեոտիդների միջև: Մարկովյան շղթաները ներկայացված են որպես առաջին կարգի անցումային մատրիցա նախկին հապլոտիպային բլոկի բոլոր նուկլեոտիդներից դեպի հետագայում հապլոտիպային բլոկի բոլոր նուկելոտիդներ և ապա հակառակը (հակառակ շղթայի համար): Դիտարկված նուկլեոտիդների արտանետման հավանականությունը և անցումային հավանականությունը կուտակվում են առավելագույն գումարի կամ արտադրանքի առավելագույն արժեքի մեջ ՝ կազմաձևելու երկուսն էլ կազմաձևման հավանականության հավանական գնահատականներ (զուգահեռ ընդդեմ այլընտրանքի):
  • Երկու հաջորդական հապլոտիպային բլոկների փուլային վիճակն այնուհետև ընդլայնվում է, եթե ցանկացած կազմաձևի հաշվարկված log2 (հավանականությունը) log2 (հավանականության) շեմից բարձր է:

Համար mcve ալգորիթմի վերաբերյալ տես այս հարցը stackoverflow և/կամ իմ բլոգը.

PhaseExtender-ի օգտագործման առավելությունները

  • RB- ի փուլային տվյալների համադրումը ժողովրդականության վրա հիմնված փուլերի հետ, հետևաբար, մեզ թույլ է տալիս օգտագործել նմուշի փոքր չափս `ճիշտ հապլոտիպի վիճակը ճշգրիտ կանխատեսելու համար:
  • PhaseExtender-ն ապահովում է ճկունություն՝ կարգավորելու փուլային գենոտիպերի քանակը, որոնք օգտագործվում են հաջորդական բլոկների միջև մարկովյան շղթաներ կառուցելու համար:
  • PhaseExtender- ը տրամադրում է ճկունություն ՝ սահմանափակելով փուլերի երկարաձգումը որոշակի մահճակալի շրջաններում:
  • LOD-ի անջատումը կարգավորելու ունակությունը վերը քննարկված հարմարեցման հետ մեկտեղ հնարավորություն է տալիս ռեկուրսիվորեն բարելավելու հապլոտիպային փուլավորումը:

PhASE-Extender կարող է օգտագործվել GATK խողովակաշարով արտադրվող բազմաընտիր vcf ֆայլերի կամ այլ գործիքների հետ, որոնք արտադրում են ելքային VCF- ում ընթերցման փուլով հապլոտիպային բլոկներ: Հապլոտիպ ֆայլ ստեղծվում է RBphased VCF- ի միջոցով, այնուհետև տեղադրվում է դրա մեջ փուլ- Extender. Տե՛ս, այս օրինակը ՝ մուտքային հապլոտիպի ֆայլի նմուշի մուտքագրման հապլոտիպի ֆայլ 01 տվյալների կառուցվածքի համար ՝ ներդիրով առանձնացված տեքստային ֆայլ ՝ PI և PG_al արժեքներով յուրաքանչյուր նմուշի համար:

Մի քանի ձեռնարկների օրինակներում (ստորև բերված թեստային ֆայլերը) ես օգտագործել եմ hapotype ֆայլը, որը պատրաստված է RBphased VCF- ից ՝ ստեղծված phaser- ի միջոցով (https://github.com/secastel/phaser, https://github.com/secastel/phaser/tree/master/ ֆազեր): Այնուամենայնիվ, փուլ-ընդլայնող կարող է օգտագործվել ցանկացած RB- փուլով VCF- ից պատրաստված մուտքային հապլոտիպ ֆայլով, եթե այն համապատասխանում է համապատասխան տվյալների կառուցվածքին: Readbackphased VCF- ը կարող է փոխարկվել haplotype ֆայլի `օգտագործելով լրացուցիչ գործիք vcf_to_table-v3.py:
Phaser-ից VCF-ն բաղկացած է փուլային գենոտիպից, այսինքն՝ PG-ից և Phase Block Index-ից, այսինքն՝ PI արժեքներից FORMAT դաշտում: PI ներկայացնում է յուրահատուկ հապլոտիպ բլոկի ինդեքսը և Պ.Գ ներկայացնում է այդ PI բլոկի փուլային գենոտիպերը: RBphased VCF- ը հապլոտիպ ֆայլի փոխակերպելուց հետո փուլ- Extender օգտագործում է փուլային գենոտիպ, այսինքն՝ PG և Phase Block Index, այսինքն՝ PI արժեքները հապլոտիպային ֆայլում՝ պատրաստելու անցումային մատրիցայի հավանականությունները և շարունակելու փուլային ընդլայնումը:

փուլ- Extender գրված է python3- ում, այնպես որ դուք պետք է տեղադրեք python3 ձեր համակարգում ՝ այս կոդը տեղական գործարկելու համար: Եթե ​​դուք չունեք տեղադրված python, կարող եք տեղադրել այստեղից: Linux-ի համար դուք կարող եք ստանալ վերջին python3-ը հետևյալով.

sudo apt-get տեղադրել python3

ԿԱՄ, դուք կարող եք տեղադրել վերջին տարբերակները անհատապես՝

python3 phase-Extender.py-մուտքագրման օրինակ 01/input_haplotype_file.txt-SOI ms02g-պայթյուններ 10

  • Պահանջում է բազմակի նմուշի ընթերցման փուլային հապլոտիպային ֆայլ որպես մուտքագրում և վերադարձնում է մեկ նմուշ ընդլայնված հապլոտիպային ֆայլ: Ստեղծվում են նաև արդյունքների այլ ֆայլեր, որոնք պարունակում են վիճակագրություն սկզբնական և ընդլայնված հապլոտիպի վերաբերյալ:
  • Անկության դեպքում, հապլոտիպի հղման վահանակը (տվյալների նույն կառուցվածքով, ինչ մուտքային հապլոտիպը) և անկողնային ֆայլը կարող են ներառվել `փուլերի ընդլայնման գործընթացը սահմանափակելու կամ բարելավելու համար:

?? բարելավման կարիք ունի:
Ստուգեք այս մանրամասն քայլ առ քայլ ձեռնարկը մուտքային ֆայլերի պատրաստման և փուլային Extender-ի գործարկման մասին նոու-հաուի պատրաստման համար: ??

haplotype ֆայլ (պարտադիր է): Մուտքագրեք հապլոտիպ ֆայլ: Պետք է պարունակի PI և PG_al արժեքներ յուրաքանչյուր նմուշի համար:
Vcf ֆայլը հապլոտիպի (VCF- ից աղյուսակային ձևաչափի) փոխարկելու համար օգտագործեք ??Քայլ 01 (ա) ձեռնարկում:
Նմուշի անունը չպետք է պարունակի «_» նիշ:

հապլոտիպի տեղեկատու վահանակ (ըստ ցանկության): Ի տարբերություն «haplotype տեղեկատու վահանակի», որն օգտագործվում է փուլային այլ գործիքներում, PhaseExtender-ը պահանջում է տեղեկատու վահանակ նույն կառուցվածքով, ինչ HAPLOTYPE ֆայլը: Օգտագործեք հապլոտիպի հղման վահանակը (VCF- ից տեքստի համապատասխան ձևաչափ) Քայլ 01 (բ) ձեռնարկում։ ??

մահճակալի ֆայլ (ըստ ցանկության): Եթե ​​ձեր նպատակն է սահմանափակել փուլային ընդլայնումը որոշակի գենոմային շրջաններով (օրինակ՝ գենի, էկզոնի կամ QTL սահմանների համար), մենք առաջարկում ենք տրամադրել համապատասխան անկողնային ֆայլ: փուլ-ընդլայնող այնուհետև բացառապես սահմանափակում է փուլային մուտքը մուտքային մահճակալների ներքին սահմաններում:

  • - մուտքագրում - մուտքագրման հապլոտիպ ֆայլ: PI-ն և PG_al-ը պետք է ներկա լինեն վերնագրում յուրաքանչյուր նմուշի համար:
  • --ԱՅՍՊԻՍՈՎ ԵՍ - հետաքրքրության նմուշ: Այն պետք է վերաբերվի ֆայլի հապլոտիպի մեկ օրինակին: Նմուշի անունը չպետք է պարունակի « _» նիշ:
  • -ոչ(1) - միանգամից գործարկվող գործընթացների առավելագույն քանակը: Գործընթացների առավելագույն քանակը սահմանափակվում է մուտքային հապլոտիպ ֆայլի քրոմոսոմների (կոնտիգների) քանակով:
  • --python_string(պիթոն 3) - Ծրագիրը գործարկելու համար կանչում է python 3 թարգմանիչ:
  • -- ելք(SOI_extended) - Արդյունք գրացուցակ:
  • --snpTh(3) - snp շեմը: Յուրաքանչյուր հաջորդական հապլոտիպ բլոկում պահանջվում է SNP- ների նվազագույն քանակ `երկու բլոկների միջև փուլային ընդլայնումը գործարկելու համար:
  • --numHets(40) - մի շարք հետերոզիգոտներ: Յուրաքանչյուր անընդմեջ բլոկից օգտագործվող հետերոզիգոտ SNP- ների առավելագույն թիվը երկու բլոկների միջև յուրաքանչյուր կազմաձևի առավելագույն հավանականության գնահատման համար:
  • -- culLH(maxPd) - հավանականության գնահատումների կուտակում: Երկու հնարավոր կոնֆիգուրացիայի հավանականությունները կարող են կամ լինել «առավելագույնը որպես գումար» կամ «առավելագույնը որպես արտադրանք»: Լռելյայն «առավելագույն արտադրանք» է: Ընտրանքներ. «maxPd» կամ «maxSum»:
  • -պայթում է(5) - log2 of Odds cut off շեմը: Անջատման շեմը օգտագործվում է հաջորդական հապլոտիպային բլոկների երկարացման համար: ***Նշում. լռելյայն արժեքը սահմանված է (2^5 = 32 անգամ հավանական է): Այսպիսով, երկու հաջորդական բլոկներ կմիանան զուգահեռ կազմաձևման դեպքում, եթե հաշվարկված log2 (հավանականություն) & gt- ն անցնի շեմը **
  • -useSample(բոլորը) - Տվյալ մուտքային հապլոտիպ ֆայլում օգտագործվող նմուշներ (գումարած հղումային հապլոտիպ) `անցումային մատրիցան հաշվարկելու համար: Ընտրանքներ. 'Բոլորը', 'refHap', 'input', 'նմուշների ստորակետով առանձնացված անունը': Լռելյայն. Օգտագործվելու են (refHap + մուտքագրում) բոլոր նմուշները:
  • -մահճակալ - Հապլոտիպի ընդլայնումը մշակեք միայն այս անկողնային շրջաններում: Սա օգտակար է, եթե ցանկանում եք սահմանափակել հապլոտիպի ընդլայնումը միայն որոշակի շրջաններում, օրինակ՝ գեների, էկզոնների, ինտրոնների, QTL սահմաններում և այլն:
  • -գրել LOD(ոչ) - գրում է LOD-ների հաշվարկը երկու հաջորդական հապլոտիպային բլոկների միջև՝ ելքային ֆայլի փուլային ընդլայնումը մշակելիս: Ընտրանքներ. 'Այո Ոչ'. ** »Նշում. « «lods-score»-ը տպագրվում է անկախ նրանից, թե հաջորդական բլոկները միացված են, թե ոչ:
  • --hapStats(ոչ) - Պատրաստել նկարագրական վիճակագրություն և մուտքային հապլոտիպի ֆայլի հապլոտիպի չափի բաշխման և ընդլայնված հապլոտիպի հետաքրքրության ընտրանքի համար: Ընտրանքներ. 'Այո Ոչ'
  • --addMissingSites(ոչ) - ներառել ոչ փուլային և բացակայող գենոտիպային տվյալները մուտքային հապլոտիպային ֆայլից մինչև վերջնական փուլի ընդլայնված ելքային ֆայլը: Տարբերակ. 'Այո Ոչ'.

Պարունակում է RB- փուլով հապլոտիպի տվյալները հետաքրքրության ընտրանքի համար `փուլերի ընդլայնումից առաջ և հետո:

  • 1 - շարունակական - Կոնտիգի անունը (կամ համարը):
  • 2 - դիրք - Հապլոտիպի մեկնարկային դիրքը (1 հիմքով):
  • 3 - նշ - Հղումային ալել այդ կայքում:
  • 4 - բոլոր ալելներ - Բոլոր ալելները ներկայացված են այդ վայրի բոլոր նմուշներով:
  • 5 - SOI_PI - Հապլոտիպային բլոկների եզակի PI ինդեքս `հետաքրքրության ընտրանքի համար:
  • 6 - SOI_PG_al - փուլային GT (գենոտիպ) ալելներ գենոմային դիրքում, որոնք պատկանում են եզակի PI ինդեքսներին:
  • 7 - log2Odds (միայն ներս extended_haplotype_SOI.txt) - log2Odds հաշվարկված նախկին և ավելի ուշ բլոկի միջև:

Հետաքրքրվող նմուշի համար մուտքագրված հապլոտիպային ֆայլի նկարագրական հապլոտիպային վիճակագրություն:

  • 1 - շարունակական - Անունը (կամ համարը):
  • 2 - SOI_PI - Հապլոտիպային բլոկների եզակի PI ինդեքսի ստորակետով առանձնացված ցանկը `հետաքրքրության ընտրանքի համար: PI ինդեքսի ընդհանուր թիվը ներկայացնում է հապլոտիպի բեկորների ընդհանուր թիվը, որոնք առկա են տվյալ նմուշի տվյալ կոնտիգում:
  • 3 - num_Vars_by_PI - Հետաքրքրության նմուշի յուրաքանչյուր PI բլոկի ներսում տարբերակների կայքերի քանակը:
  • 4 - միջակայք_PI - Հետաքրքրվող նմուշի համար յուրաքանչյուր PI բլոկի գենոմային տիրույթ:
  • 5 - տոտալ_հիպլոտիպեր - Հապլոտիպի ընդհանուր թիվը (այսինքն ՝ PI) տվյալ զուգակցման մեջ `հետաքրքրության ընտրանքի համար:
  • 6 - ընդհանուր_Վարս - Տարբերակային կայքերի ընդհանուր թիվը տվյալ կոնտիգում հետաքրքրված նմուշի համար: Նշում: Գումարը (num_Vars_by_PI) = total_Vars:

Նշում: - SOI_PI, և դրա հետ կապված վիճակագրությունը կարգին է:

Պարունակում է տվյալներ այն կայքերից, որոնք ունեն առանց փուլերի կամ բացակայող GT (գենոտիպ) մուտքի հապլոտիպ ֆայլում հետաքրքրության նմուշի համար: Նշում: Այս տվյալները միաձուլվում են extended_haplotype_SOI.txt-ի հետ, եթե --addMissingSites-ը սահմանված է «այո»:

Այս ֆայլը պարունակում է ReadBackPhased հապլոտիպ `փուլային ընդլայնումից հետո, որը համընկնում է բացակայող տվյալների հետ: Այս ֆայլը պարունակում է հավասար թվով տողեր, ինչպես մուտքային հապլոտիպային ֆայլը և տվյալներ միայն հետաքրքրության նմուշի համար:

Նշում: - Այս սյուժեները հիմնված են նկարագրական վիճակագրության վրա, որը ստեղծվել է հապլոտիպերի համար `փուլերի ընդլայնումից առաջ և հետո: Հնարավոր է վերցնել այս վիճակագրությունը (initial_haplotype_stats_ԱՅՍՊԻՍՈՎ ԵՍ.txt & final_haplotype_stats_ԱՅՍՊԻՍՈՎ ԵՍ.txt) և մուտքագրեք հատուկ հողամասեր Ռ կամ այլ մեթոդների կիրառմամբ:

Տվյալ կոնտիգի համար հապլոտիպերի քանակը փուլը երկարացնելուց առաջ և հետո:

Տվյալ կոնտիգի տարբերակների քանակը փուլից առաջ և հետո ընդլայնումից հետո:

Հապլոտիպի չափի բաշխման հիստոգրամը (հապլոտիպի տարբերակների քանակով) տվյալ կոնտիգում փուլային ընդլայնումից առաջ և հետո:

Հապլոտիպի չափի բաշխման հիստոգրամ (ըստ հապլոտիպի գենոմային տիրույթի) տվյալ կոնտիգում փուլային ընդլայնումից առաջ և հետո:

1) Ինչպիսի՞ ալգորիթմ է օգտագործում փուլային ընդլայնիչը:
փուլ-ընդլայնիչը օգտագործում է առաջին կարգի անցման հավանականությունները գենոտիպերի յուրաքանչյուր մակարդակից ՝ նախկին հապլոտիպային բլոկից գենոտիպերի յուրաքանչյուր մակարդակ դեպի հետագայում հապլոտիպային բլոկ: Այս տարբերակը (v1) օգտագործում է առաջ-1stOrder-markov շղթաներ եւ backward-1stOrder-markov շղթաներ անցումային հավանականություններ: Ապագա տարբերակները կհետևեն բարելավումներին՝ ավելացնելով ավելի բարձր կարգի մարկով-շղթաներ:

2) Ո՞րն է փուլ-ընդլայնիչ օգտագործելու առավելությունը:
Մեզ, ընդհանուր առմամբ, անհրաժեշտ է ճշգրիտ փուլային վիճակ ՝ գենի/տառադարձման մակարդակով ASE- ով զբաղվելիս ՝ մասնատելով մայրական-հայրական հետևանքները: Երկար հապլոտիպերը հիմնականում կարևոր են դիպլոիդ գենոմը պատրաստելիս, QTL շրջաններում ընտրովի ախտահանումներ փորձարկելիս և այլն: Զարգացող օրգանիզմների համակարգերի համար, որտեղ գենոտիպային տվյալները հազվադեպ են CW (քրոմոսոմի լայնությամբ), GW (գենոմի լայնությամբ) հապլոտիպերը ավելի դժվար է լուծել: Բացի այդ, հապլոտիպի փուլավորումը կարող է ավելի բարդ լինել անհատների և հիբրիդների խաչասերման պատճառով ՝ տարասեռության պատճառով: Այս կարճ հապլոտիպային բեկորները ունեն մի քանի հետերոզիգոտ տարբերակներ կարճ հապլոտիպի բլոկի վրա: PE- ի (զուգավորված վերջ) չափերի մեծացման հետ մեծանում է նաև RBphase բլոկների չափը: Այս փուլում օգտակար է փուլ-ընդլայնիչը, որը փորձում է լուծել երկու հաջորդական բլոկների փուլային վիճակը մեկ նմուշից ՝ օգտագործելով այլ նմուշների հապլոտիպային բլոկների տվյալներ, որոնք կամրջում են այդ խզման կետը: Այսպիսով, մենք կարող ենք SOI- ի (հետաքրքրության նմուշ) հապլոտիպի կազմաձևը լուծել ավելի վստահությամբ, որովհետև. - Մեզ անհրաժեշտ է միայն միանգամից լուծել երկու հնարավոր փուլային վիճակ՝ համեմատած 2^n հապլոտիպի հետ մեկ SNP-ի ընթերցման ժամանակ: Phase-Extender- ը նաև ապահովում է ավելի ճկուն և մանիպուլյատիվ վերահսկողություն, թե ինչպես շարունակել փուլերի երկարաձգումը: Հնարավոր է նաև վերահսկել մի քանի պարամետր, ինչպիսիք են lods, snpTh, numHets, culLH, bed, useSample ՝ դիտելու և համեմատելու, թե ինչպես է փոփոխվում փուլերի ընդլայնումը:

3) Արդյո՞ք փուլային ընդլայնման փուլը InDels է:
Այո, բայց դա պայմանական է: InDels-ներն արդեն պետք է հուսալիորեն վերադասավորվեն հապլոտիպային բլոկի վրա: Այդ կերպ, երբ հապլոտիպը երկարաձգվում է այդ SNP- ների համար, InDels- ը դրա հետ ավտոստոպ է կատարում և նույնպես երկարաձգվում:

4) Ո՞րն է պահանջվող հապլոտիպ բլոկի նվազագույն չափը:
Որքան մեծ են երկու հապլոտիպերը, այնքան ավելի լավ է հավանականության թեստը, թե որ հապլոտիպն է փուլ առ փուլ: Լռելյայն, ես պահել եմ այս թիվը մինչև 3 տարբերակ (SNPs բացառիկ) մեկ հապլոտիպ բլոկի համար, որն ընդլայնման կարիք ունի:

5) Արդյո՞ք փուլային ընդլայնիչը կատարում է GW (գենոմի լայնություն) կամ CW (քրոմոսոմի լայնությամբ) հապլոտիպի փուլային փուլ?
Կան որոշակի իրավիճակներ, երբ փուլային երկարացնողը ի վիճակի է կատարել GW կամ CW հապլոտիպի փուլային փուլ: Ա) Եթե ունեք բազմաթիվ նմուշներ, որտեղ մեկ նմուշի հապլոտիպերի խզման կետը կամրջված է այլ նմուշներով, այնպես, որ խզման կետը լուծվում է փուլ-ընդլայնման յուրաքանչյուր ռեկուրսիվ կիրառմամբ, ապա հնարավոր է ստանալ CW և GW հապլոտիպ: Այս դեպքում մենք կարող ենք այնտեղ գործարկել փուլային ընդլայնիչ յուրաքանչյուր նմուշի համար՝ ընդլայնելով հապլոտիպը որոշակի չափով: Այս փուլային ընդլայնիչից հետո ամեն անգամ թարմացված տվյալների վրա կարող է կիրառվել ռեկուրսիվ՝ այնտեղ յուրաքանչյուր նմուշի հապլոտիպերը ընդլայնելով մինչև լրիվ քրոմոսոմի երկարությունը և, հնարավոր է, մինչև ամբողջ գենոմի լայն երկարությունը: Ավելի մեծ հավանականություն կա GW փուլ ձեռք բերելու, եթե նմուշները հաջորդականվեն ավելի բարձր ծածկույթով, զուգավորված ծայրերի երկարության ավելացումով, մեծ հաջորդականության ընթերցմամբ, ինչպես pac-bio ընթերցումները: Բ) Մեկ այլ իրավիճակ, երբ GW, CW փուլի ընդլայնումը հնարավոր է, այն է, երբ դուք ունեք առնվազն մի քանի նմուշ, որոնք ունեն GW/CW մակարդակում լուծված հապլոտիպ: Դրանք կարող են ներառել լիարժեք փուլային տվյալներ, ինչպիսիք են գենոմի մատրիցային ֆայլը, ամբողջությամբ փուլային VCF տվյալները, ամբողջությամբ փուլային հապլոտիպի տեղեկատու վահանակը: Դրա համար լիարժեք փուլային նմուշը պետք է տրամադրվի որպես մեկ բլոկ `նմուշի այն խմբում, որը խողովակաշարով անցնում է փուլ-ընդլայնիչ:

6) Արդյո՞ք փուլային ընդլայնման փուլային ոչ ընթերցման փուլային SNP-ներ?
Ոչ, դա չի անում: Դա ապագա հնարավոր թարմացում է:

7) Արդյո՞ք փուլային ընդլայնիչը ենթադրում է բացակայող գենոտիպերի առկայություն?
Ոչ, դա չի անում: Դա ապագա հնարավոր թարմացում է:

8) Արդյո՞ք փուլային ընդլայնիչը օգտագործում է հապլոտիպային հղումային վահանակ?
Այո. Միտք, VCF-ը (haplotype reference panel) պետք է փոխարկվի համապատասխան հապլոտիպային ֆայլի:

9) Արդյո՞ք փուլային ընդլայնիչն օգտագործում է ռեկոմբինացիա?
Ոչ, և, հնարավոր է, այս առանձնահատկությունները նվազագույն նշանակություն կունենան փուլային ընդլայնման համար: Phase-Extender- ի հիմնական նպատակն է միանալ նմուշի արդեն փուլային կարճ հաջորդականությամբ հապլոտիպային բլոկներին `օգտագործելով այդ վայրերի տարբերակների հարաբերությունները մի քանի այլ նմուշներում: Այս հապլոտիպերը, որոնք փուլային են այլ նմուշներում, բայց ունեն SOI-ի բեկման կետ, օգտագործվում են անցումային հավանականություններ կառուցելու համար: Ենթադրություն կա, որ ռեկոմբինացիա ավելի քիչ հավանական է, որ տեղի ունենա հենց այդ բեկման կետում կամ դրա մոտ: Այսպիսով, ընդմիջման կետի շուրջ նմուշների մեջ հապլոտիպի տատանումների մեծ մասը ոչ թե վերջին վերակոմբինացիայի արդյունք են, այլ միայն մուտացիայի:

10) Արդյո՞ք փուլը երկարացնող փուլը հազվագյուտ գենոտիպեր է կատարում?
Այո. Սակայն հազվագյուտ գենոտիպը պետք է լինի կարճ հապլոտիպային բլոկների հետադարձ փուլը: Սա փուլային ընդլայնման առավելություններից մեկն է` համեմատած այլ գործիքների հետ, երբ խոսքը վերաբերում է հազվագյուտ գենոտիպերի փուլային փուլավորմանը: Երբ մեկ SNP- ն օգտագործվում է առանձին `հապլոտիպի փուլ մտնելու համար, հազվագյուտ գենոտիպերն իսկապես դժվար է ճշգրիտ փուլավորել. Պատճառը երկու փուլային վիճակին պատկանող հազվագյուտ գենոտիպի վիճակագրական նշանակությունն է շատ երկիմաստ: Բայց, եթե հազվագյուտ գենոտիպը կցված է հապլոտի բլոկին, որն աջակցում է մի քանի ընթերցվող փուլային գենոտիպերի, սա հազվագյուտ գենոտիպերի փուլային փուլավորումն առավել ճշգրիտ է դարձնում, քանի որ հավանականությունը տրամադրվում է այլ SNP-ների կողմից, որոնք հազվադեպ չեն:

11) Որքան արագ է փուլը երկարացնողը?
Phase-Extender- ը գրված է python-3- ում, ուստի այն համեմատաբար ավելի դանդաղ է, քան C, C ++ կամ java- ի գագաթին կառուցված այլ գործիքները: Comագելով մաքուր կենսաբանության ֆոնի վրա, պիթոն սովորելը իմ կատարած ամենաերջանիկ խնդիրներից մեկն էր, իսկ այնուհետև այս գործիքը կառուցելը իմ ասպիրանտուրայի մեծ մասն էր: Ես օպտիմալացրել եմ VCF ֆայլը զանգահարելու մասը `օգտագործելով cyvcf2 (որը միջինում 4 անգամ ավելի արագ է, քան հին pyVCF մոդուլը): Phase-Extender- ը նաև օպտիմիզացված է, որպեսզի կարողանա աշխատել բազմաթիվ թելերով/գործընթացով: Բայց, եթե դուք աշխատում եք փուլային ընդլայնիչով մեծ գենոմի տվյալների վրա և ունեք շատ մեծ թվով նմուշներ, և աշխատելով նոութբուքի վրա, ես առաջարկում եմ աշխատել մեկ թելով, որը կարող է ժամանակատար լինել, բայց կնվազեցնի հիշողության բեռը:

12) Արդյո՞ք փուլային ընդլայնումը կատարում է եռյակի վրա հիմնված փուլի ընդլայնում?
Ոչ, դա չի անում: Դա հնարավոր ապագա թարմացում է:

13) Ինչպիսի՞ն պետք է լինի իմ նմուշների առնչությունը?
Բնակչության կամ տեսակների մակարդակով տվյալները լավ են:

14) Ո՞րն է տարբերությունը փուլային երկարացնողի և փուլային կարիչի միջև?
Phase-Extender- ը ընդհանուր օգտագործման նպատակային հապլոտիպի փուլավորման գործիք է: Phase-Stitcher- ը հատուկ F1 հիբրիդների համար է:

15) Արդյո՞ք ես պետք է պատրաստեմ իմ հապլոտիպի բլոկային ֆայլը միայն phaser- ի միջոցով?
Phase-Extender, phase-Stitcher- ը կարող է օգտագործվել ցանկացած RBphasing գործիքի կողմից ստեղծված տվյալների հետ:

Ես այնքան էլ բախտ չեմ ունեցել շրջապատել ինձ կամ գոնե դեմ առ դեմ օգնություն ստանալ գիտակ համակարգչային ծրագրավորողներից: Բայց, իմ սիրտը շատ շնորհակալ է համացանցի հետևում գտնվող մարդկանց, ովքեր ինձ դարձրել են այս խնդիրը լուծելու ունակ: Շնորհիվ կենսաստղերի, stackoverflow- ի, seqanswer- ի և google- ի վեբ որոնումների բազմաթիվ մարդկանց, ովքեր արձագանքեցին փոքր հարցերի վերաբերյալ, որոնք փուլ-ընդլայնող ծրագրի մի մասն էին:

Եթե ​​որևէ մեկին շահագրգռված լինի, որ այս նախագիծը հետագայում բարելավվի ալոռիթմի և ծրագրավորման բարելավումների միջոցով, ես ավելի քան ուրախ կլինեմ:

Ապագայում սպասվող հնարավորությունները (շուտով)

  • Փուլային SNP- ներ, որոնք նշանակված չեն ReadBackPhased բլոկներին
  • Գենոտիպի իմպուտացիա
  • Եռյակի վրա հիմնված փուլ, Ընտանիքի վրա հիմնված փուլավորում
  • Մարկովի շղթայի ավելի բարձր կարգի հնարավորություններ
  • Քրոմոսոմի ներսում բազմամշակումը

ASE- ի տվյալների ստեղծում ավելի արագ

1. Ներբեռնեք և կարգավորեք ավելի արագ

Դուք կարող եք ներբեռնել PHASER- ի վերջին տարբերակը Github- ից ՝

PHASER- ի գործարկման պահանջները, ինչպես նաև լայնածավալ փաստաթղթեր կարելի է գտնել Github- ի էջում, ուստի համոզվեք, որ ստուգեք այն, եթե խրված եք, կամ ցանկանում եք ավելին իմանալ առաջադեմ ընտրանքների մասին:

Հաջորդը, դուք պետք է կազմեք ֆազեր.

> ձայնասկավառակ ֆեյզեր/փեզեր/
& gt python setup.py build_ext – տեղում
> CD ../../

* նշում, WordPress- ի մատուցման “ առանձնահատկությունը և#8221 կատարելու համար կրկնակի գծիկը փոխարկվում է em գծի: Setup.py- ն գործարկելիս պետք է երկու գծիկ լինի “inplace ”- ի դիմաց:

2. Ներբեռնեք օրինակելի տվյալները և անհրաժեշտ ֆայլերը

Այս ձեռնարկի համար ես կօգտագործեմ հանրությանը հասանելի տվյալների հավաքածու, որը բաղկացած է LCL RNA-seq-ից GEUVADIS-ից և գենոտիպային զանգերից 1000 գենոմի 3-րդ փուլից անհատական ​​NA06986-ի համար:

Նշում –, քանի որ այս ֆայլերը տեղակայված են dropbox- ում, և դուք պետք է դրանք ներբեռնեք վեբ դիտարկիչի միջոցով:

  • NA06986.vcf.gz – VCF պարունակող գենոտիպային կոչեր անհատի համար: Իդեալում, այս գենոտիպերը պետք է նախկինում փուլ առ փուլ օգտագործվեին `օգտագործելով պոպուլյացիայի փուլավորման մեթոդ: Եթե ​​չգիտեք, թե ինչպես դա անել, ես կառաջարկեի օգտագործել Sanger Imputation ծառայությունը, որը դյուրին է օգտագործել և ձեր նմուշը կբնակեցնի ՝ օգտագործելով զանգվածային Haplotype Reference Consortium վահանակը:
  • NA06986.vcf.gz.tbi – tabix ինդեքս VCF- ի համար: phASER- ը պահանջում է, որ մուտքային VCF- երը ինդեքսավորվեն տեքստային տեքստով: Սա կարող է ստեղծվել տեսակավորված ցանկացած դիրքի համար, bgzipped VCF-ի համար՝ օգտագործելով ‘tabix -p vcf sample.vcf.gz’ հրամանը:
  • NA06986.2.M_111215_4.bam – BAM ձևաչափի ֆայլ, որը պարունակում է RNA- հաջորդականություններ, որոնք հավասարեցված են STAR- ի միջոցով մարդու գենոմին:
  • NA06986.2.M_111215_4.bam.bai – ինդեքս BAM ֆայլի համար, որը թույլ է տալիս ընթերցումների արագ որոնում `հիմնվելով գենոմային կոորդինատների վրա: Սա կարող է ստեղծվել ցանկացած BAM- ի համար `օգտագործելով հրամանը ‘samtools index reads.bam ’:

Բացի մեր ընտրանքային տվյալներից, մեզ պետք կգա մի քանի ֆայլ ՝ ավելի արագ գործարկելու համար:

Նշում –, քանի որ այս ֆայլերը գտնվում են dropbox-ում, դուք պետք է ներբեռնեք դրանք վեբ բրաուզերի միջոցով:

  • hg19_hla.bed.gz – այս BED ֆայլը պարունակում է բոլոր մարդկային HLA գեները, որոնց գենետիկ տատանումների բարձր մակարդակի պատճառով դժվար է քարտեզագրել կարճ ընթերցումները: Այս գեները կհայտնվեն սև ցուցակում ներքևի անալիզներից:
  • hg19_haplo_count_blacklist.bed.gz – այս BED ֆայլը պարունակում է գենոմային դիրքեր, որոնք մենք հայտնաբերել ենք որպես սիմուլյացիաներում կողմնակալություն կամ UCSC քարտեզագրման միավոր < 50: Տարբերակները, որոնք ընկնում են այս դիրքերում, օգտագործվում են փուլավորման համար, բայց ոչ հապլոտիպային թվեր ստեղծելու համար՝ քարտեզագրման հետ կապված խնդիրներից խուսափելու համար: կողմնակալություն.
  • gencode.v19.GRCh37.genes.bed.gz – այս BED ֆայլը պարունակում է մարդկային բոլոր գեները, ինչպես սահմանված է Genode- ի համար hg19- ի համար: Այս ֆայլը կօգտագործվի գեների սահմանման համար, երբ մենք ստեղծում ենք հապլոտիպի մակարդակի հաշվարկներ:

Նախքան phASER- ի կողմից դրանք օգտագործելը, ձեզ հարկավոր է ապակոմպրեսիվացնել:

3. Գործարկեք phASER- ը օրինակելի տվյալների հետ

Այժմ մենք ունենք այն ամենը, ինչ մեզ անհրաժեշտ է ավելի արագ գործարկելու համար: Այս տվյալների հավաքածուի իմ փորձարկման ժամանակ տևեց 10 րոպեից ոչ ավելի, օգտագործելով 8 թել ՝ չորս միջուկով 2.8 ԳՀց հաճախականությամբ Intel Core i7 ՝ Hyper-threading- ով:

& gt python phaser/phaser/phaser.py --vcf NA06986.vcf.gz --bam NA06986.2.M_111215_4.bam --paired_end 1 --mapq 255 --baseq 10 -նմուշ NA06986 -սեւ ցուցակ hg19_hla.bed - -haplo_count_blacklist hg19_haplo_count_blacklist.bed -թեմաներ 4 --o phaser_test_case

Այժմ ես կբացատրեմ, թե որոնք են փաստարկներից յուրաքանչյուրը.

  • –vcf NA06986.vcf.gz – VCF, որը պարունակում է նմուշի գենոտիպային կանչեր:
  • –bam NA06986.2.M_111215_4.bam – BAM պարունակող RNA-seq ընթերցումներ:
  • –զույգված_վերջ 1 – նշելով, որ ընթերցումները գալիս են զույգ ավարտված փորձից:
  • – քարտեզ 255 & Ընթերցումների քարտեզավորման նվազագույն որակը `փուլային և ASE- ի համար օգտագործելու համար: Սա պետք է սահմանվի այնպիսի արժեքի, որը կապահովի ընթերցումների յուրահատուկ քարտեզագրումը: STAR- ի օգտագործման դեպքում այս թիվը 255 է, սակայն այն կտարբերվի `ըստ դասավորողի:
  • –baseq 10 & Հետախուզական SNP- ում նվազագույն բազային որակ `կարդալու համար:
  • – օրինակ NA06986 – նմուշի անունը VCF ֆայլում:
  • –սև ցուցակ hg19_hla.bed – կայքերի ցանկ, որոնք սև ցուցակում են փուլային փուլային տարբերակից: Մեր տրամադրած ֆայլը պարունակում է HLA- ի բոլոր գեները:
  • –haplo_count_blacklist hg19_haplo_count_blacklist.bed – սև ցուցակում հայտնված կայքերի ցուցակ ՝ ալելային հաշվարկներ առաջացնելիս: Սրանք այն կայքերն են, որոնք մենք նախկինում հայտնաբերել էինք որպես քարտեզագրման կողմնակալություն, ուստի դրանք բացառելը կբարելավի արդյունքները:
  • – թեմաներ 4 – օգտագործվող շղթաների քանակը:
  • –o phaser_test_case – ելքային ֆայլի նախածանց.

Եթե ​​PHASER- ը հաջողությամբ աշխատեց, ապա պետք է տեսնեք այսպիսի հաղորդագրություն.

ԱՎԵԼԻՆ ՝ օգտագործելով 1591165 ընթերցում 595 վայրկյանում ՝ օգտագործելով 8 թել

4. Ստեղծեք հապլոտիպ արտահայտության քանակական հաշվարկներ

Այժմ, երբ phASER- ը գործարկվել է, մենք կարող ենք օգտագործել «#8220phASER Gene AE» և «8221phASER Gene AE» կոչվող ուղեկից գործիք, որը վերցնում է PHASER- ից ելքային ֆայլերը գենային ծանոթագրությունների հետ միասին և արտադրում գենային մակարդակի հապլոտիպի արտահայտման քանակականացում:

& gt python phaser/phaser_gene_ae/phaser_gene_ae.py --haplotypic_counts phaser_test_case.haplotypic_counts.txt -առանձնահատկություններ gencode.v19.GRCh37.genes.bed --o phaser_test_case_gene_

  • –haplotypic_counts phaser_test_case.haplotypic_counts.txt – սա phASER-ի ելքային ֆայլերից մեկն է: Այն պարունակում է բոլոր հապլոտիպային բլոկների, ինչպես նաև առանձին SNP- ների ընթերցման հաշվարկներ և դրանց աստիճանականացում միմյանց նկատմամբ:
  • –gencode.v19.GRCh37.genes.bed– պարունակում է բոլոր այն գեների կոորդինատները, որոնց համար մենք կցանկանայինք հաշվարկել հապլոտիպիկ արտահայտությունը: Շատ կարևոր է, որ քրոմոսոմների անվանումը համահունչ լինի այս ֆայլի ՝ VCF- ի և BAM- ի միջև:
  • –o phaser_test_case_gene_ae.txt – ելքային ֆայլի անունը:
  • –no_gw_phase 0 – այս տարբերակը կարող է միացվել (1 -ով սահմանելով), եթե օգտագործված մուտքային VCF- ն նախկինում փուլային չէր: Եթե ​​կարող եք, ես մեծապես առաջարկում եմ փուլ առ փուլ մուտքագրել VCF- ն ՝ օգտագործելով օր. Բնակչության աստիճանականացում, ինչպես նախկինում նշվեց, սակայն որոշ դեպքերում դա հնարավոր չէ: Օրինակ, եթե դուք աշխատում եք մոդելային օրգանիզմի հետ և եռյակ տվյալների պակաս ունեք:

Սա պետք է գործի համեմատաբար արագ, իմ նոութբուքի վրա ընդամենը մի քանի րոպե տևեց:

Դա այդպես է: Դուք այժմ չափել եք հապլոտիպային մակարդակի արտահայտությունը յուրաքանչյուր գենում ձեր RNA-seq նմուշի համար: Իհարկե, այն, ինչ դուք որոշում եք անել հաջորդում, դժվար մասն է, և սա շատ մասնագիտացված է ՝ կախված կոնկրետ գիտական ​​հարցից, որը դուք տալիս եք: Այնուամենայնիվ, դուք ունեք գերազանց որակի հապլոտիպային հաշվարկներ, որոնք հսկայական բարելավում կլինեն ցանկացած ներքևի վերլուծության համար միայնակ ASE տարբերակների օգտագործման համեմատ:


ՇԱՊԵՅԹ ազատորեն հասանելի է ակադեմիական օգտագործման համար: Ոչ ակադեմիական օգտագործման կանոնները տես ստորև: Լիցենզիայի ֆայլը ներառված է նաև յուրաքանչյուր ծրագրաշարի ներբեռնման հետ:

Նախապես կազմված ՇԱՊԵՅԹ Երկուական և օրինակ ֆայլեր կարելի է ներբեռնել ստորև նշված հղումներից:

Վերջին ծրագրաշարի թողարկումն է v2 (r900). Մենք աջակցում ենք միայն վերջին տարբերակը:


Հարթակ GLIBC
Տիպ
Ֆայլ
Linux (x86_64) v2.12
Ստատիկ
shapeit.v2.r904.glibcv2.12.linux.tar.gz
Linux (x86_64)
v2.17
Ստատիկ
shapeit.v2.r904.glibcv2.17.linux.tar.gz

Linux համակարգչում ֆայլերը բացելու համար օգտագործեք հետևյալ հրամանը.

Սա կստեղծի համանուն գրացուցակ, ինչպես ներբեռնված ֆայլը, առանց «.tgz» ածանցի: Այս գրացուցակի ներսում դուք կգտնեք գործարկվող անունով գործարկիչ ձևավորված , ա ԼԻՑԵՆԶԻԱ ֆայլ, և ան օրինակ/ գրացուցակ, որը պարունակում է օրինակ տվյալների ֆայլեր:

Առևտրային լիցենզիայի պայմանագիր

Հատուկ լիցենզիա պետք է ձեռք բերվի որևէ առևտրային կամ շահույթ չհետապնդող կազմակերպության կամ վեբ-տարածման նպատակով: Լրացուցիչ տեղեկությունների համար դուք պետք է դիմեք երկուսին

Ակադեմիական լիցենզիայի պայմանագիր

Արվեստների և Մետիերսի ազգային կոնսերվատորիայի (CNAM) բիոինֆորմատիկայի բաժինը մշակել է նոր ալգորիթմ թաքնված Մարկովյան մոդելների ավելի արագ հաշվարկման համար՝ հիմնված գրաֆիկական պատկերների վրա: Այս ալգորիթմը հատկապես կիրառվել է բնակչության գենոտիպային տվյալներից հապլոտիպերի վերակառուցման համար, որոնք տանում են դեպի SHAPEIT ծրագրակազմ: Այս ալգորիթմը և դրա կիրառությունները, ներառյալ SHAPEIT-ը, արտոնագրային վիճակում են: Conservatoire National des Arts et Metiers (CNAM), պրոֆեսոր Jeanան-Ֆրանսուա AGԱԳՈYՐԻՆ և կենսաինֆորմատիկայի ամբիոնի իր խումբը (մշակողները), թույլ են տալիս ձեզ և ձեր լաբորատորիայի (հաստատության) SHAPEIT- ից օգտվել: CNAM-ը և մշակողները թույլ են տալիս ձեր հաստատության հետազոտողներին պատճենել և փոփոխել SHAPEIT-ը ներքին, շահույթ չհետապնդող հետազոտական ​​նպատակներով՝ հետևյալ պայմաններով.

SHAPEIT ծրագրաշարը մնում է ձեր Հաստատությունում և չի հրապարակվում, չի բաշխվում կամ այլ կերպ չի փոխանցվում կամ հասանելի չէ այլ հաստատության աշխատակիցների և ձեր հսկողության ներքո իրականացվող հետազոտություններում ներգրավված ուսանողներին: Եթե ​​ցանկանում եք ձեռք բերել SHAPEIT որևէ առևտրային նպատակներով կամ ինտերնետի միջոցով տարածման համար, ապա ձեզ հարկավոր կլինի առանձին լիցենզավորման պայմանագիր կնքել CNAM- ի հետ և վճարել վճար: Սա ներառում է, բայց չի սահմանափակվում, SHAPEIT- ի օգտագործմամբ `վճարովի ծառայություններ մատուցելու արտաքին կողմերին: Այդ դեպքում խնդրում ենք կապ հաստատել՝

Պր. Zagագուրի, CNAM.
Հեռ.՝ 33 1 58 80 88 20
Փոստ ՝ zagury at cnam.fr

Softwareրագրակազմը բաշխվում է օգտագործման հետևյալ պայմաններով

Դուք պահպանում եք SHAPEIT- ում և SHAPEIT- ի ցանկացած փոփոխություն, հեղինակային իրավունքը, ապրանքային նշանը կամ SHAPEIT- ին վերաբերող այլ ծանուցումներ, ինչպես տրամադրված է CNAM- ին:

Դուք մշակողներին տրամադրում եք հետադարձ կապ ձեր հետազոտության մեջ SHAPEIT- ի օգտագործման վերաբերյալ, և որ մշակողներին և CNAM- ին թույլատրվում է օգտագործել ձեր տրամադրած ցանկացած տեղեկատվություն SHAPEIT ծրագրաշարում փոփոխություններ կատարելու համար: Սխալների մասին բոլոր հաշվետվությունները և տեխնիկական հարցերը պետք է ուղարկվեն փոստերի ցուցակին այստեղ

Դուք ընդունում եք, որ մշակողները, CNAM- ը և դրա լիցենզավորված անձինք կարող են փոփոխություններ կատարել SHAPEIT- ում, որոնք կարող են էապես նման լինել SHAPEIT- ի ձեր փոփոխություններին, և որ մշակողները, CNAM- ը և դրա լիցենզավորված անձինք որևէ կերպ չեն սահմանափակվի ձեր կողմից CNAM- ի կամ դրա լիցենզավորված անձանց կողմից: նման փոփոխությունների օգտագործումը կամ կառավարումը: Դուք ընդունում եք մշակողների և CNAM- ի իրավունքը `պատրաստել և հրապարակել SHAPEIT- ի փոփոխություններ, որոնք կարող են էապես նման լինել կամ գործնականում համարժեք ձեր փոփոխություններին և կատարելագործումներին, և եթե դուք ձեռք եք բերում արտոնագրային պաշտպանություն SHAPEIT- ի որևէ փոփոխության կամ կատարելագործման համար, ապա համաձայն եք չպնդել կամ հրահանգել մշակողի, CNAM- ի կամ CNAM- ի լիցենզավորված անձի կողմից ձեր արտոնագրի խախտումը, որը ձեռք է բերում SHAPEIT- ի փոփոխություններ կամ բարելավումներ CNAM- ից կամ Կառուցապատողներից: Եթե ​​SHAPEIT ծրագրաշարի օգտագործումը հանգեցնում է արդյունքների, որոնք կհրապարակվեն, խնդրում ենք նշել SHAPEIT-ի ձեր օգտագործած տարբերակը և մեջբերել հետևյալ հրապարակումներից մեկը:

  • O. Delaneau, J. Marchini, JF. Zagury (2012) Հազարավոր գենոմների գծային բարդության փուլային մեթոդ: Nat մեթոդներ: 9 (2) ՝ 179-81: doi: 10.1038/nmeth.1785
  • Օ. Դելանո, F. Ֆ. Զագուրին, Ջ.Marchini (2013) Բարելավված է ամբողջ քրոմոսոմային փուլավորումը հիվանդության և բնակչության գենետիկական ուսումնասիրությունների համար. Nat մեթոդներ: 10(1):5-6. doi՝ 10.1038/nmeth.2307
  • O. Delaneau, B. Howie, A. Cox, J-F. Zagury, J. Marchini (2013) Haplotype estimation using sequence reads. American Journal of Human Genetics 93 (4) 787-696
  • J. O'Connell, D. Gurdasani, O. Delaneau, et al. (2014) Հապլոտիպի ընդհանրական մոտեցում `կապվածության ամբողջ սպեկտրով: PLoS գենետիկա
  • O. Delaneau, J. Marchini, The 1000 Genomes Project Consortium (2014) Տեղադրելով հաջորդականությունը և զանգվածային տվյալները `ստեղծելու բարելավված 1000 Genomes Project հապլոտիպի տեղեկատու: Բնության հաղորդակցություններ.

Ձեր հաստատությունում SHAPEIT ծրագրաշարի օգտագործման հետ կապված ցանկացած ռիսկ կապված է ձեզ և ձեր հաստատության հետ: SHAPEIT- ը փորձարարական բնույթ է կրում և հասանելի է դառնում «AS IS» - ի կողմից ՝ որպես հետազոտական ​​տրամադրվածություն, առանց CNAM- ի կողմից ուղեկցող ծառայություններ կամ աջակցություն տրամադրելու պարտավորության:

CNAM-ը ԵՎ ՀԵՂԻՆԱԿՆԵՐԸ ՀԱՅՏԱՐԱՐ ԵՆ ՀՐԱԺԱՐՈՒՄ ԾՐԱԳՐԱՅԻՆ ԾՐԱԳՐԻ ՀԱՄԱՐ ԲՈԼՈՐ ԵՐԱՇԽԻՔՆԵՐԻՑ, ԱՆԿԱՂՅԱԼ ԹԵ ՆԿՅԱԼԻՐ, ՆԵՐԱՌՅԱԼ, ԲԱՅՑ ՉՍԱՀՄԱՆԱՓԱԿՎՈՂ ԵՐԱՇԽԻՔՆԵՐՈՎ, ՈՐ ԿԱՊՎԱԾ ԵՆ ԱՊԱՀՈՎՈՒԹՅԱՆ ԱՌԵՎՏՐՈՒԹՅԱՆ ՀԱՄԱՐ:


Ինչպե՞ս ստանալ փուլային հապլոտիպ vcf ֆայլից: - Կենսաբանություն

DCHap. Երրորդ սերնդի հաջորդականության տվյալների համար բաժանելու և նվաճելու հապլոտիպի փուլային ալգորիթմ

DCHap արագ և ճշգրիտ հապլոտիպային փուլային գործիք է երրորդ սերնդի հաջորդականության տվյալների համար: Այն աշխատում է ինչպես SMRT- ի (PacBio), այնպես էլ Oxford Nanopore- ի համար:

Բեռնելու DCHap, դուք պետք է կլոնավորեք DCHap պահեստ ձեր մեքենայի համար:

-Ի մուտքագրումը DCHap SNP մատրիցա է, տես թեստեր/chr22.matrix: Դուք կարող եք օգտագործել extractHAIRS գործիքը HapCUT2 SNP մատրիցը BAM ֆայլից և VCF ֆայլից քաղելու համար տե՛ս https://github.com/vibansal/HapCUT2:

chr22_post_haplotype- ը պահում է փուլային արդյունքը: chr22_assignments խանութները կարդում են միջնապատեր:

[1] Բանսալ, Վիկաս և Վայնետ Բաֆնա։ «HapCUT. արդյունավետ և ճշգրիտ ալգորիթմ հապլոտիպի հավաքման խնդրի համար»: Կենսաինֆորմատիկա 24.16 (2008) ՝ i153-i159:

[2] Դուիտամա, Խորխե և այլք: «ReFHap. հուսալի և արագ ալգորիթմ առանձին անհատական ​​հապլոտիպավորման համար»: Կենսաինֆորմատիկա և հաշվողական կենսաբանություն առաջին ACM միջազգային գիտաժողովի նյութեր: ACM, 2010:

[3] Edge, Peter, Vineet Bafna և Vikas Bansal: «HapCUT2. Ամուր և ճշգրիտ հապլոտիպի հավաքում բազմազան հաջորդականացման տեխնոլոգիաների համար»: Գենոմի հետազոտություն 27.5 (2017) ՝ 801-812:

[4] Կուլեշով, Վոլոդիմիր: «Հավանական մեկ-առանձին հապլոտիպինգ»: Կենսաինֆորմատիկա 30.17 (2014) ՝ i379-i385:


Ունե՞ք կառուցվածքային տատանումների տվյալներ:

1000 Genomes Project-ը հաշվի է առել կառուցվածքային տատանումները (ավելի քան 50 bp երկարությամբ)՝ հիմնված Sudmant et al-ի կողմից հրապարակված Illumina-ի կարճ ընթերցման տվյալների վրա: 2015 թվականին։

Կառուցվածքային տարբերակները դիտարկվում են նաև NYGC-ի կողմից կատարված աշխատանքում բարձր ծածկույթի կարճ ընթերցման տվյալների վերլուծության ժամանակ:

Այնուամենայնիվ, կարճ ընթերցման տվյալներն ունեն կառուցվածքային տատանումները գնահատելու սահմանափակումներ: Մարդկային գենոմի կառուցվածքային տատանումների կոնսորցիումը (HGSVC) կիրառեց մի շարք տեխնոլոգիաներ `ուսումնասիրելու դրանց ունակությունը` կառուցվածքային տատանումները հայտնաբերելու համար: Հետագայում այս աշխատանքը ընդլայնվել է, և այլ նախագծեր օգտագործում են տարբեր տեխնոլոգիաներ՝ հապլոտիպով լուծված գենոմի հավաքներ արտադրելու համար:


neoepiscope- ը հավաստագրված բաց կոդով ծրագրակազմ է `ԴՆԹ-ի հաջորդականության (ԴՆԹ-հաջորդականություն) տվյալների նեոէպիտոպների կանխատեսման համար: Այնտեղ, որտեղ նեոէպիտոպների կանխատեսման ծրագրերի մեծ մասը ուշադրությունը սահմանափակում է նեոէպիտոպների վրա, որոնք առաջանում են առավելագույնը մեկ սոմատիկ մուտացիայից, հաճախ միայն SNV-ից, neoepiscope-ն օգտագործում է HapCUT2-ի հավաքված հապլոտիպային ելքը՝ թվարկելու նաև մեկից ավելի սոմատիկ մուտացիաներից առաջացող նեոէպիտոպներ: neoepiscope-ը նաև հաշվի է առնում շրջանակի փոփոխությունը indels-ից և թույլ է տալիս անհատականացնել հղման տրանսկրիպտոմը՝ օգտագործելով գերմերի տարբերակները:

neoepiscope v0.2.x- ն ունի կրիտիկական վրիպակ, որտեղ հոմոզիգոտ տարբերակները փուլային չեն հետերոզիգոտ տարբերակներով: Թարմացրեք վերջին տարբերակին:

neoepiscope- ը լիցենզավորված է MIT լիցենզիայի ներքո: Լրացուցիչ տեղեկությունների համար տես ԼԻENԵՆԻԱ:

Նեոէպիսկոպի մասեր --- մասնավորապես, transcript.py- ի, bowtie_index.py- ի և download.py --- ի հատվածները վերցված են Rail-RNA- ից, որը հեղինակային իրավունք է (գ) 2015 Abhinav Nellore, Leonardo Collado-Torres, Andrew Ffeաֆը, Jamesեյմս Մորտոնը, obեյքոբ Պրիտը, Խոսե Ալքվիկիրա-Էրնանդեսը, Քրիստոֆեր Ուիլքսը, ffեֆրի Թ.

neoepiscope-ը համատեղելի է Python 3.6 և ավելի բարձր տարբերակների հետ: Տեղադրելու համար գործարկեք

Նշում․ եթե դա ձախողվի macOS 10-ում (Catalina) կամ ավելի նոր տարբերակում, pysam-ի պահանջվող տեղադրումը կարող է չկարողանալ գտնել C կոմպիլյատորը: Խնդիրը լուծելու համար կարող եք փորձել կամ 1) գործարկել xcode -select -տեղադրեք կամ 2) տեղադրել pysam- ը conda- ի միջոցով (օրինակ ՝ conda install -c bioconda pysam), նախքան կրկին տեղադրել pip neoepiscope- ը:

Համատեղելի հղումների անոտացիայի ֆայլեր (hg19, GRCh38 և/կամ մկնիկի mm9) ներբեռնելու և համապատասխան ընտրովի ծրագրերի տեղադրումները neoepiscope-ին (օրինակ՝ netMHCpan) կապելու համար դուք պետք է օգտագործեք մեր ներբեռնման գործառույթը: Գործարկեք հրամանը.

և արձագանքեք ձեր կարիքներին համապատասխան հրահանգներին:

Համոզվելու համար, որ ծրագրաշարը ճիշտ է աշխատում, կլոնավորեք այս պահեստը և ներսից գործարկեք.

Հղման ֆայլերի պատրաստում (նրանց համար, ովքեր օգտագործում են այլ հղումներ, բացի մարդկային hg19 կամ GRCh38 կամ մկնիկի mm9)

Եթե ​​դու չեն օգտագործելով մարդկային hg19 կամ GRCh38 կամ մկնիկի mm9 հղումներ մեր ներբեռնման ֆունկցիոնալությունից, դուք պետք է ներբեռնեք և պատրաստեք ձեր սեփական անոտացիոն ֆայլերը: Նախքան որևէ նեոէպիտոպեր կանչելը, գործարկեք նեոէպիսկոպը ինդեքսային ռեժիմում՝ նեոէպիտոպի կանխատեսման մեջ օգտագործվող տառադարձման տվյալների բառարաններ պատրաստելու համար.

neoepiscope index -g & ltGTF & gt -d & lt ՏԵIԵԿՈԹՅՈՆԸ HԱՆԿԱԱ D ԲԱՌԱՆՈԹՅՈՆՆԵՐԻ ԿԱՌԱՎԱՐՄԱՆ ՏԵREԵԿՈԹՅՈ &Ն & gt

-d, -թելադրում է թթու բառարաններ գրելու ուղին

Ապահովեք VCF- ի պատշաճ պատվիրումը

Սոմատիկ մուտացիաներից նեոէպիտոպներ կանչելու համար համոզվեք, որ ձեր VCF ֆայլում ուռուցքի նմուշի տվյալներով սյունակը նախորդում է սյունակին համապատասխան նորմալ նմուշի տվյալներով: Եթե ​​այն չի, գործարկեք neoepiscope-ը փոխանակման ռեժիմում՝ նոր VCF արտադրելու համար.

neoepiscope swap -i & ltINPUT VCF & gt -o & ltSWAPPED VCF & gt

-i, -VCF մուտքագրման ուղին

-o, -VCF- ի փոխանակման ելքային ուղի

Ավելացնել սերմերի տատանում (ըստ ցանկության)

Եթե ​​ցանկանում եք սերմնաբջիջների փոփոխություն ներառել ձեր նեոէպիտոպների կանխատեսման մեջ, միաձուլեք ձեր սոմատիկ և սերմնաբջջային VCF- ները նմուշի համար `նախքան տարբերակները փուլ առ փուլ փոխելը.

neoepiscope- ի միաձուլում -g & ltGERMLINE VCF & gt -s & ltSOMATIC VCF & gt -o & ltMERGED VCF & gt

-g, --germline ուղին դեպի germline VCF

-s, --սոմատիկ ուղի դեպի սոմատիկ VCF

-o, -միաձուլված VCF գրելու ելքային ուղի

-t, --tumor-id ուռուցքի ID (համընկնող նմուշ ուռուցքի BAM ֆայլի ընթերցված խմբի դաշտում)

Եթե ​​նախատեսում եք GATK- ի ReadBackedPhasing- ը օգտագործել հապլոտիպի փուլավորման համար (տես ստորև), համոզվեք, որ նշեք ուռուցքի ID- ն `-t դրոշի միջոցով: Այն պետք է համապատասխանի ձեր ուռուցքի BAM ֆայլի վերնագրի նմուշի անվանմանը (SM արժեքը կարդալ խմբի դաշտում):

Կանխատեսեք հապլոտիպի փուլային փուլ

Այնուհետև գործարկեք HapCUT2-ը ձեր միաձուլված կամ սոմատիկ VCF-ով և ձեր ուռուցքային BAM ֆայլով (համոզվեք, որ օգտագործեք --indels 1-ը, երբ աշխատում եք extractHAIRS-ը, եթե ցանկանում եք կանխատեսել նեոէպիտոպները, որոնք առաջանում են ներդիրներից և ջնջումներից): Նախքան նեոէպիտոպներ կանչելը, նախապատրաստեք ձեր HapCUT2 ելքը, որպեսզի ներառեք չփազային մուտացիաները որպես իրենց սեփական հապլոտիպեր և համապատասխանության դեպքում նշեք սերմնահեղուկի տարբերակները.

neoepiscope prep -v <VCF> -c <HAPCUT2 OUTPUT> -o <ՃԱՐԳԱՑՎԱԾ HAPCUT OUTPUT>

-v, --vcf ուղին դեպի VCF ֆայլ, որն օգտագործվում է HapCUT2 ելք ստեղծելու համար

-c, --hapcut2-ելքի ուղին դեպի սկզբնական HapCUT2 ելք

-o, -ելքային ֆայլ դեպի ելքային ուղի

-p, -դրոշի փուլային մուտքագրում VCF, ինչպես փուլային է GATK ReadBackedPhasing- ով

Այլապես, դուք կարող եք փուլ առ փուլ կատարել GATK- ի ReadBackedPhasing- ը ՝ օգտագործելով ձեր միաձուլված կամ սոմատիկ VCF- ը: Եթե ​​HapCUT2- ի փոխարեն GATK- ի հետ փուլային տարբերակներ եք դրել, համոզվեք, որ neoepiscope- ի նախապատրաստումը գործարկելիս օգտագործեք -p դրոշը ՝ ձեր ելքը ձևաչափելու համար.

neoepiscope prep -v & ltVCF & gt -o & lt ԿԱՐԳԱՎՈՐՎԱ ՀԱAPՈՅԹ ԵԼՔ & gt -p

Դուք կարող եք նաև կանխատեսել նեոէպիտոպներ ՝ առանց փուլ առնելու ՝ պատրաստելով ձեր միաձուլված կամ սոմատիկ VCF- ը.

neoepiscope prep -v & ltVCF & gt -o & lt ԿԱՐԳԱՎՈՐՎԱ ԴԵՊՔՈ O ԵԼՔ

neoepiscope call -b & ltGENOME BUILD & gt -c & ltPREPPED HAPCUT2 ԵԼՔ & gt [ընտրանքներ]

-x, --bowtie-index ուղի դեպի bowtie ինդեքս հղում գենոմի

-d, -թելադրում է ինդեքսային ռեժիմում ստեղծված թթու բառարաններ պարունակող գրացուցակ

-բ, -կառուցել, թե որ գենոմի կառուցվածքն է օգտագործվելու (մարդու hg19 կամ GRCh38 կամ մկնիկը mm9 անտեսում է -x և -d ընտրանքները)

-c, --merged-hapcut2- ելքի ուղի դեպի HapCUT2 ելք ՝ ճշգրտված նեոէպիսկոպի նախապատրաստմամբ

-v, --vcf ուղին դեպի VCF ֆայլ, որն օգտագործվում է HapCUT2 ելք ստեղծելու համար

-o, -ելքային ֆայլ դեպի ելքային ուղի

-f, --fasta արտադրանք լրացուցիչ fasta ֆայլի ելք

-k, --kmer-size kmer չափը նեոէպիտոպի կանխատեսման համար (կանխադրված 8-11 ամինաթթուներ)

-p, --affinity-predictor ծրագրակազմ՝ MHC պարտադիր կանխատեսումների համար օգտագործելու համար (լռելյայն MHCflurry v1՝ դասակարգման և հարաբերակցության միավորներով)

-a, --ալելային ալելներ՝ MHC-ի կապակցման կանխատեսումների համար օգտագործելու համար

-n, --no-affinity չեն գործարկում պարտադիր կապի կանխատեսումները, վերացնում է -p և -a տարբերակները

-g, --germline, թե ինչպես վարվել սերմնահեղուկի մուտացիաների հետ (լռելյայն ներառում է որպես ֆոնային տատանում)

-s, -սոմատիկ կերպով ինչպես վարվել սոմատիկ մուտացիաների հետ (լռելյայն ներառում է նեոէպիտոպների թվարկումը)

-u, -upstream -atgs թարգմանության վարում վերին հոսքի կոդոններից -(միայն «վեպ» (լռելյայն), «բոլորը», «ոչ», «հղում» միայն)

-i,

--nmd թվարկել նեոէպիտոպները անհեթեթության միջնորդավորված քայքայման տառադարձություններից

--pp թվարկեք նեոէպիտոպներ պոլիմորֆ պսևդոգեն տեքստերից

--igv թվարկել նեոէպիտոպներ IG V տառադարձություններից

--trv թվարկել նեոէպիտոպներ TR V տառադարձություններից

-թույլ չտալ թվարկել նեոէպիտոպներ տեքստերից ՝ առանց նշվող մեկնարկային կոդոնների

-- թույլ տալ-անդադար թվարկել նեոէպիտոպները տառադարձումներից առանց ծանոթագրված կանգառի կոդոնների

--rna-bam ճանապարհ դեպի վերջավորված RNA- հաջորդական հավասարեցման ֆայլ

--transcript-counts ուղին դեպի ֆայլ, որը պարունակում է յուրաքանչյուր տառադարձման ընթերցման հաշվարկ

--tpm-շեմային նվազագույն տառադարձման TPM, որը պահանջվում է նեոէպիտոպը պահպանելու համար

--Build տարբերակի օգտագործումը պահանջում է մեր ներբեռնման գործառույթի կիրառում ՝ մարդու hg19, մարդկային GRCh38 և/կամ մկնիկ mm9 պահանջվող տեղեկատու ֆայլերը ձեռք բերելու և ինդեքսավորելու համար: Եթե ​​օգտագործում եք այլընտրանքային գենոմի կառուցվածք, դուք պետք է ներբեռնեք ձեր սեփական bowtie index-ը և GTF ֆայլերը այդ կառուցվածքի համար և օգտագործեք neoepiscope index ռեժիմը՝ դրանք պատրաստելու համար --dicts և --bowtie-index տարբերակների հետ օգտագործելու համար:

Հապլոտիպի մասին տեղեկատվությունը պետք է ներառվի ՝ օգտագործելով -c/path/to/haplotype/ֆայլը: Սա HapCUT2 ելքի տեսքով, որը ստեղծվում է կամ ձեր սոմատիկ VCF- ից, կամ միավորված սերմնաբջիջից/սոմատիկ VCF- ից, որը պատրաստված է մեր նեոէպիսկոպի միաձուլման գործառույթով: HapCUT2 ելքը պետք է ճշգրտվի՝ օգտագործելով մեր neoepiscope նախապատրաստական ​​ֆունկցիոնալությունը՝ ապահովելու համար, որ փուլային տվյալների բացակայության մուտացիաները դեռ ներառված են վերլուծության մեջ:

Եթե ​​ցանկանում եք ձեր սոմատիկ VCF-ից դուրս հանել տարբեր ալելների հաճախականության տեղեկությունները, որպեսզի դրանք թողարկվեն համապատասխան էպիտոպներով, ներառեք դեպի սոմատիկ VCF ուղին, որն օգտագործել եք ձեր միաձուլված VCF-ն ստեղծելու համար՝ օգտագործելով -v /path/to/VCF:

Ելքային ֆայլը նշելու համար օգտագործեք -o/path/to/output_file: Եթե ​​ելքային ֆայլ նշված չէ, ելքը կգրվի ստանդարտ դուրս: Լռելյայնորեն, ֆայլում արտածվում են միայն նեոէպիտոպների տվյալները: Օգտագործելով –fasta տարբերակը, կկատարվի լրացուցիչ ֆայլ ՝ /path/to/output_file.fasta: Սա FASTA ֆայլ է, որը սահմանում է մուտացիայի ենթարկված յուրաքանչյուր տառադարձության ամբողջական սպիտակուցային հաջորդականությունները: FASTA-ի վերնագիրը կտա այն տառադարձության անվանումը, որից առաջացել է սպիտակուցը, որին հաջորդում է «v[#]» տառադարձության յուրաքանչյուր տարբերակի համար: Այս տարբերակը հասանելի է միայն ֆայլի վրա ելք գրելիս, այլ ոչ ստանդարտ դուրս:

Նեոէպիտոպների թվարկման կանխադրված քմեր չափը 8-11 ամինաթթու է, սակայն անհատական ​​տիրույթը կարող է ճշգրտվել `օգտագործելով -kmer չափի արգումենտը` ստորակետով առանձնացված էպիտոպոպի նվազագույն և առավելագույն չափը (օրինակ `--kmer չափ 8,20-ից մինչև ստանալ էպիտոպներ՝ 8-ից 20 ամինաթթուների երկարությամբ):

Հարաբերությունների կանխատեսման համար neoepiscope-ը ներկայումս աջակցում է MHCflurry v1, MHCnuggets v2, netMHC v4, netMHCpan v3 կամ v4, netMHCIIpan v3, netMHCII v2, PickPocket v1, netMHCstabpan v1 և PSSMHCpan v1-ի կանխատեսումները: Մեր ծրագրաշարը pip- ով տեղադրելիս MHCflurry և MHCnuggets ավտոմատ կերպով տեղադրվում կամ թարմացվում են: NetMHC, netMHCpan, netMHCIIpan, netMHCII, PickPocket, netMHCstabpan կամ PSSMHCpan կամընտիր ինտեգրումը պետք է կատարվի այս ծրագրաշարի ձեր սեփական տեղադրումից ՝ օգտագործելով մեր ներբեռնման գործառույթը (տե՛ս վերևում ՝ «Նեոէպիսկոպի տեղադրում»): Նկատի ունեցեք, որ gawk-ը կարող է պահանջվել այս լրացուցիչ գործիքների օգտագործման համար: Խնդրում ենք նկատի ունենալ, որ MHCflurry- ը և MHCnuggets- ը պահանջում են TensorFlow- ի օգտագործումը, որը սահմանափակ համատեղելիություն էր python v3.7- ի հետ: Եթե ​​ցանկանում եք օգտագործել այս գործիքները, խնդրում ենք օգտագործել python v3.6 կամ ավելի ցածր՝ neoepiscope-ը գործարկելու համար:

Neoepiscope-ի համար մերձավորության կանխատեսման լռելյայն ծրագրաշարը MHCflurry v1 է: Պարտադիր կանխատեսման ծրագրակազմի անհատական ​​փաթեթ նշելու համար օգտագործեք -p փաստարկը յուրաքանչյուր ծրագրաշարի համար, որին հաջորդում են նրա անունը, տարբերակը և գնահատման ցանկալի արդյունքը (օրինակ ՝ -p mhcflurry 1 հարազատությունը, աստիճանը -p mhcnuggets 2 հարազատությունը): Պարտադիր կապի կանխատեսումներից հրաժարվելու համար օգտագործեք --no-affinity հրամանի տող տարբերակը:

Սերմնաբջիջների և սոմատիկ մուտացիաների հետ կարելի է զբաղվել տարբեր եղանակներով: Դրանք կարող են ամբողջությամբ բացառվել (օրինակ. -միջնագծի բացառումը), ներառվել որպես ֆոնային տատանում `հղումային տեքստը անհատականացնելու համար (օրինակ. -գերմանական ֆոն), կամ ներառվել որպես նեոէպիտոպների թվարկման տարբերակներ (օրինակ` սոմատիկ ներառյալ): --Germline- ի կանխադրված արժեքը հետնաշերտն է, իսկ --somatic- ի կանխադրված արժեքը ներառում է:

Տեքստերի համար սկզբնական կոդոնի ընտրությունը կարող է իրականացվել նաև ճկունությամբ: Լռելյայն,-upstream-atgs արգումենտի արժեքը ոչ մի է, որը սահմանում է սղագրման համար հղման մեկնարկային ծածկագրի նախընտրելի օգտագործումը, կամ դրա այլընտրանքային հոսանքի ներքևի մոտակա ATG- ն `խախտված հղման մեկնարկային կոդոնի դեպքում: Այլապես,-upstream-atgs վեպի օգտագործումը թույլ է տալիս օգտագործել նոր ATG- ն ՝ հղման մեկնարկային կոդոնի վերևում, խափանված մեկնարկային կոդոնի դեպքում: Ավելի քիչ պահպանողական --upstream-atgs-ը բոլորն օգտագործում են ամենավերին հոսքի ATG-ը՝ անկախ դրա նորությունից: Պահպանողական տարբերակի համար --upstream-atgs հղումը պահանջում է օգտագործել միայն հղման մեկնարկային կոդոնը՝ կանխելով նեոէպիտոպների թվարկումը տառադարձությունից, եթե հղման մեկնարկային կոդոնը խաթարված է:

Լռելյայնորեն, neoepiscope-ը միայն թվարկում է նեոէպիտոպները սպիտակուցի կոդավորման տառադարձումներից՝ ծանոթագրված սկզբի և վերջակետի կոդոններով: Այնուամենայնիվ, նշելով -nmd, --pp, --igv և/կամ --trv դրոշները, դուք կարող եք լրացուցիչ թվարկել նեոէպիտոպներ անհեթեթ միջնորդավորված քայքայման սղագրություններից, պոլիմորֆ պսևդոգեն տեքստերից, իմունոգլոբուլինի փոփոխական տեքստերից և/կամ T բջիջների ընկալիչներից: փոփոխական տառադարձումներ, համապատասխանաբար: Հետագա ճկունության համար կարող եք ավելացնել-թույլ չսկսող և/կամ-անթույլատրելի ՝ թվագրման համար նեոէպիտոպներ թվարկելու համար ՝ առանց նախնական և/կամ դադարեցվող կոդոնների համապատասխանաբար:

Գոյություն ունի նեոէպիտոպների արտահայտման քանակականացման երկու տարբերակ՝ 1) տառադարձության ընթերցման քանակի տրամադրում TPM-ում տառադարձման մակարդակի արտահայտությունը հաշվարկելու համար, կամ 2) ՌՆԹ-ի հավասարեցում տրամադրում՝ աղբյուրի մուտացիայի ուղղակի ընթերցման մակարդակի աջակցությունը հաշվարկելու համար: Երկու տարբերակները կարող են օգտագործվել միաժամանակ: Տառատեսակի մակարդակի արտահայտությունը հաշվարկելու համար օգտագործեք –transcript-counts տարբերակը և տրամադրեք ներդիրից առանձնացված ֆայլի ուղին առաջին սյունակում տառադարձման նույնացուցիչներով և երկրորդ սյունակում կարդալ հաշվարկներով (օր. ՝ ելքը HTseq- ի htseq- հաշվից ծրագիր): Սա կապահովի TPM- ի արժեքը (երը) այն տառադարձման համար, որի հետ կապված է նեոէպիտոպը: Նեոէպիտոպները վատ արտահայտված տեքստերից լրացուցիչ զտելու համար կարող եք օգտագործել -tpm-threshold տարբերակը `TPM- ի նվազագույն պահանջ սահմանելու համար: Մուտացիայի մակարդակի արտահայտությունը հաշվարկելու համար կարող եք ապահովել զուգավորված RNA-seq BAM հավասարեցման ֆայլ: Սա կապահովի մուտացիային աջակցող ընթերցումների քանակը, մուտացիայի դիրքն ընդգրկող ընթերցումների թիվը և այդ մուտացիան ապահովող մուտացիան ընդգրկող ընթերցումների տոկոսը: ՆՇՈՄ. Մուտացիայի մակարդակի արտահայտությունը պահանջում է տեղադրել samtools և ձեր PATH- ում:

Neoepitope զանգերի ելք

neoepiscope- ի ելքը TSV ֆայլ է, որը կամ լռելյայն գրված է ստանդարտի վրա, կամ --output ընտրանքով անվանված ֆայլը: 1 -ին սյունակում նշվում է նեոէպիտոպների հաջորդականությունը: 2 -րդ սյունակում նշվում է այն քրոմոսոմը, որի վրա առաջանում է աղբյուրի մուտացիան, իսկ 3 -րդ սյունակում ՝ մուտացիայի դիրքն այդ քրոմոսոմի վրա: 4 -րդ սյունակում նշված են այդ դիրքում գտնվող նուկլեոտիդային հաջորդականությունը ( * ներդիրների համար), իսկ 5 -րդ սյունակում `այդ դիրքում գտնվող այլընտրանքային նուկլեոտիդային հաջորդականությունը ( * ջնջումների համար): 6 -րդ սյունակում նշված է տարբերակի տեսակը `V SNV/MNV- ների համար, I- ը` ներդիրների համար, և D- ը `ջնջումների համար: 7 -րդ սյունակում նշվում է այդ մուտացիայի VAF- ը (առկայության դեպքում), իսկ 8 -րդ սյունակում `SNVs/MNVs- ից բխող նեոէպիտոպների զուգավորված նորմալ էպիտոպը: 9 -րդ սյունակում նշվում են նեոէպիտոպի կամ դրա ծագման տառադարձման հետ կապված նախազգուշացումները (օրինակ, եթե սկզբնական կոդն ընդհատվել է և օգտագործվել է այլընտրանքային կոդ), 10 -րդ սյունակում ՝ արտագրության Ensembl- ի նույնացուցիչը (ներ) ը ( ներ) նեոէպիտոպի ծագումը, իսկ 11 -րդ սյունակում նշվում է ծագման տառադարձման (ներ) ի տառադարձման տեսակը (տեսակները): 12 -րդ սյունակում նշվում են ծագման տառադարձության (տառերի) հետ կապված ցանկացած գեների Ensembl- ի նույնացուցիչ (ներ) ը, իսկ 13 -րդ սյունակում `գենի անունը (ներ) ը: 14-րդ սյունակում թվարկվում են TPM(ներ) արտահայտման մակարդակները տառադարձության(ների) համար, որոնք կապված են այդ էպիտոպի հետ: 15-րդ սյունակում նշվում է աղբյուրի մուտացիային աջակցող RNA- հաջորդականությունների ընթերցումը: 16-րդ սյունակում նշվում է աղբյուրի մուտացիայի դիրքը լուսաբանող RNA- հատվածի ընթերցումների թիվը: 17 -րդ սյունակը թվարկում է ընթերցումների տոկոսը, որը ծածկում է աղբյուրի մուտացիայի դիրքը, որն աջակցում է այդ մուտացիային: 18 -րդ սյունակում թվարկված են էպիտոպի հետ կապված IEDB նույնացուցիչ (ներ) ը, եթե դա հայտնի հաջորդականություն է, և նշված են համապատասխան պեպտիդային փոփոխություններ: Եթե ​​MHC-ի կապակցման որևէ կանխատեսում իրականացվել է նեոէպիտոպների համար, ապա հետևյալ սյունակները ցույց են տալիս նեոէպիտոպի կապակցման կապերը այդ HLA ալելի/կապող կանխատեսման գործիքի համակցության համար, ինչպես նշված է (օրինակ, mhcnuggets_HLA-A*02:01_affinity-ը ներկայացնում է այդ neo-ի nM-ի կապակցման կապը: ալել HLA-A*02:01, ինչպես կանխատեսել է MHCnuggets-ը):

Եթե ​​-fasta տարբերակը նշված էր, fasta ֆայլը նույնպես կգրվի -output ընտրանքով նշված ֆայլում, լրացուցիչ .fasta ընդլայնմամբ: Հաջորդականության անունները կլինեն տառադարձման նույնացուցիչներ, որին հաջորդում է _vX, որտեղ X- ը տարբերակի համար է:Հերթականությունները ամինաթթուների հաջորդականություններն են, որոնք ստացվում են այդ տառադարձության թարգմանությունից:


Bamgineer. մոդելավորված ալելներին հատուկ պատճենների թվի տարբերակների ներմուծում էքսոմի և նպատակային հաջորդականության տվյալների հավաքածուներում

Սոմատիկ պատճենների թվերի տատանումները (CNVs) վճռորոշ դեր են խաղում մարդու բազմաթիվ քաղցկեղների զարգացման մեջ: Հաջորդ սերնդի հաջորդականության տվյալների լայն հասանելիությունը հնարավորություն է տվել մշակել ալգորիթմներ՝ CNV պրոֆիլները հաշվողականորեն եզրակացնելու տվյալների մի շարք տեսակներից, ներառյալ էքսոմի և թիրախային հաջորդականության տվյալները, որոնք ներկայումս քաղցկեղի գենոմիկայի տվյալների ամենատարածված տեսակներն են: Այնուամենայնիվ, այս գործիքների համակարգային գնահատումը և համեմատությունը մնում է դժվար `հիմնավորված ճշմարտության մասին տեղեկատուների բացակայության պատճառով: Այս կարիքը լուծելու համար մենք մշակել ենք Bamgineer՝ Python-ում գրված գործիք՝ օգտագործողի կողմից սահմանված հապլոտիպային փուլային ալելների համար նախատեսված կրկնօրինակների թվի իրադարձությունները գոյություն ունեցող Երկուական հավասարեցման քարտեզագրման (BAM) ֆայլում՝ կենտրոնանալով նպատակային և էքսոմների հաջորդականության փորձերի վրա: Որպես մուտքագրում, այս գործիքը պահանջում է կարդալ հավասարեցման ֆայլ (BAM ձևաչափ), գենոմի չհամընկնող կոորդինատների ցանկեր `ձեռքբերումների և կորուստների ներդրման համար (մահճակալի ֆայլ) և կամընտիր ֆայլ, որը սահմանում է հայտնի հապլոտիպերը (vcf ձևաչափ): Գործողության ժամանակը բարելավելու համար Bamgineer- ը զուգահեռաբար ներկայացնում է ցանկալի CNV- ներ `հերթագրման և զուգահեռ մշակման միջոցով տեղական մեքենայի կամ բարձրորակ հաշվիչ կլաստերի վրա: Որպես սկզբունքի ապացույց, մենք կիրառեցինք Bamgineer- ը արյան բարձր նմուշից մի բարձր ծածկույթով (միջին ՝ 220X) էկզոմի հաջորդական ֆայլով ՝ մոդելավորելով ուռուցքի 10 տեսակներից 3 օրինակելի ուռուցքների պատճենների թվային պրոֆիլներ ուռուցքի բջջայնության 5 մակարդակներում (20 -100%, ընդհանուր 150 BAM ֆայլ): Էկզոմի տվյալներից դուրս իրագործելիությունը ցուցադրելու համար մենք ներմուծեցինք 5-գենային բջիջներից զերծ ԴՆԹ-ի թիրախային գրադարանի ընթերցանությունը՝ EGFR ամպլիֆիկացումները նմանակելու համար շրջանառվող ուռուցքային ԴՆԹ-ին (10, 1, 0.1 և 0.01%) համահունչ հաճախականությամբ՝ պահպանելով բազմամոդալ ներդիրի չափը: սկզբնական տվյալների բաշխում. Մենք ակնկալում ենք, որ Bamgineer- ը կօգտագործի CNV կանչերի ալգորիթմների մշակման և համակարգված չափանիշների կիրառումը `օգտվողների կողմից` օգտագործելով տարբեր ծրագրերի համար տեղական արտադրության տվյալները: Աղբյուրի կոդը ազատորեն հասանելի է http://github.com/pughlab/bamgineer կայքում:

Շահերի բախման մասին հայտարարություն

Հեղինակները հայտարարել են, որ մրցակցող շահեր գոյություն չունեն:

Ֆիգուրներ

Նկար 1. Bamgineer հայեցակարգային ակնարկ:

Նկ 1. Bamgineer հայեցակարգային ակնարկ:

Հապլոյպին հատուկ CNV- ները մոդելավորվել են կրկնակի զույգ ընթերցումների միջոցով: Կարմիր և կապույտ գույները…

Նկար 2. Ալելային հատուկ CNV- ի օրինակ…

Նկար 2. Ալելային հատուկ CNV զանգերի օրինակ, որոնք առաջացել են փոփոխված bam ֆայլերից:

Քրոմոսոմի տեսքով 0,33: Գ) Գենոմի լայնությամբ (ձախ) և քրոմոսոմի տեսքով (աջ) 36 իրադարձությունների համար (21 ձեռքբերում և 25 կորուստ), որոնք վերցված են գենոմի ատլասից `միզապարկի ուրոթելիալ քաղցկեղի (BLCA) 100% ուռուցքի պարունակության համար: Ինչպես և սպասվում էր խորության հարաբերակցությունը և BAF- երը համապատասխանաբար մոտավորապես 0.5 և զրո են:

Նկար 3. Log2 հարաբերակցությունը մոդելավորված օրինակից…

Նկար 3. Log2 հարաբերակցությունը մոդելավորված օրինակելի ուռուցքներից `մաքրության տարբեր մակարդակներով:

Նկար 4. Exome- լայն ընդօրինակված պատճենի համարի պրոֆիլներ…

Նկար 4. Էքսոմի լայնածավալ մոդելավորված պատճենների թվային պրոֆիլները մի շարք ուռուցքային մաքրությունների արդյունքում ակնկալվում են…

Նկար 5. Մոդելացված ցածր հաճախականության CNV-ներ…

Նկար 5. Ցածր հաճախականության CNV-ների մոդելավորումը շրջանառվող ուռուցքային ԴՆԹ-ի տվյալների մեջ տալիս է ակնկալվող ալելային հարաբերակցություններ…

160 և 330 bp), սկզբնական ընթերցման զույգերի և ընթերցված զույգերի բաշխվածությունը ողջամտորեն համահունչ է (Երկկողմանի KS թեստ՝ 0.11: p-արժեք՝ 0.81, մենք նշում ենք աննշան անհամապատասխանություններ երկրորդ գագաթնակետի հարաբերական ինտենսիվության մեջ: շուրջը


Ընդհանուր ընտրանքներ

Հետևյալ ընտրանքները ընդհանուր են բազմաթիվ bcftools հրամանների համար: Տեսեք կոնկրետ հրամանների օգտագործումը `տեսնելու, թե դրանք կիրառելի են:

Վերահսկում է, թե ինչպես վերաբերվել գրառումներին կրկնօրինակ դիրքերով և սահմանում է համատեղելի գրառումներ բազմաթիվ մուտքային ֆայլերում: Այստեղ «համատեղելի» ասելով մենք նկատի ունենք գրառումները, որոնք գործիքներով պետք է համարվեն նույնական: Օրինակ ՝ գծերի խաչմերուկներ կատարելիս ցանկությունը կարող է լինել նույնական համարել բոլոր համապատասխան կայքեր ունեցող կայքերը ( bcftools isec -c բոլորը ), կամ միայն համապատասխան տարբերակի տիպի կայքեր ( bcftools isec -c snps indels ), կամ միայն բոլոր ալելներով նույնական կայքեր ( bcftools isec -c ոչ ոք ).

Եթե ​​երկրորդ սյունակը չկա, ապա ենթադրվում է «F» սեռը: Հետ bcftools զանգահարել -C եռյակ , Սպասվում է PED ֆայլ: Ծրագիրը անտեսում է առաջին սյունակը, իսկ վերջինը ցույց է տալիս սեռը (1=տղամարդ, 2=իգական), օրինակ.

Bcftools ծանոթագրություն [ԸՆՏՐՈԹՅՈՆՆԵՐ] ՖԱՅԼ

Ավելացնել կամ հեռացնել ծանոթագրություններ:

Bcftools- ը զանգում է [ՏԱՐԲԵՐԱԿՆԵՐ] ՖԱՅԼ

Այս հրամանը փոխարինում է առաջինին bcftools դիտում զանգահարող Սկզբնական ֆունկցիոնալության մի մասը ժամանակավորապես կորել է htslib- ի տակ անցման գործընթացում, բայց հետագայում կավելացվի ժողովրդական պահանջով: Callingանգահարելու սկզբնական մոդելը կարող է վկայակոչվել տարբերակ.

Ֆայլի ձևաչափի ընտրանքներ.

Մուտքային/ելքային ընտրանքներ.

Համաձայնություն/զանգի տարբերակներ.

Bcftools cnv [ԸՆՏՐՈԹՅՈՆՆԵՐ] ՖԱՅԼ

Պատճենել համարի տատանումների կանչը, պահանջում է VCF ծանոթագրություն Illumina- ի B- ալելների հաճախականության (BAF) և Log R հարաբերակցության ինտենսիվության (LRR) արժեքներով: ՀՄՄ-ն հաշվի է առնում պատճենի հետևյալ համարը. CN 2 (նորմալ), 1 (մեկ օրինակի կորուստ), 0 (ամբողջական կորուստ), 3 (մեկ օրինակի շահույթ):

Ընդհանուր ընտրանքներ.

HMM ընտրանքներ.

Bcftools concat [ՏԱՐԲԵՐԱԿՆԵՐ] ՖԱՅԼ 1 ՖԱՅԼ 2 […]

Միացրեք կամ միացրեք VCF/BCF ֆայլերը: Բոլոր աղբյուր ֆայլերը պետք է ունենան նույն նմուշի սյունակներ, որոնք հայտնվում են նույն հերթականությամբ: Կարող է օգտագործվել, օրինակ, քրոմոսոմային VCF- ները մեկ VCF- ի մեջ միացնելու համար, կամ SNP VCF- ի և indel VCF- ի միավորելը մեկի մեջ: Մուտքային ֆայլերը պետք է դասավորված լինեն ըստ chr- ի և դիրքի: Ֆայլերը պետք է տրվեն ճիշտ հերթականությամբ ՝ ելքի վրա տեսակավորված VCF արտադրելու համար, եթե դա չի կատարվում -a,-թույլ-համընկնումներ տարբերակը նշված է. –Naive տարբերակով ֆայլերը միանում են առանց նորից սեղմվելու, ինչը շատ արագ է:

Bcftools կոնսենսուս [ՏԱՐԲԵՐԱԿՆԵՐ] ՖԱՅԼ

Ստեղծեք կոնսենսուսային հաջորդականություն՝ կիրառելով VCF տարբերակները հղումային արագ ֆայլի վրա: Լռելյայնորեն, ծրագիրը կկիրառի բոլոր ALT տարբերակները հղում fasta-ի վրա՝ համաձայնության հաջորդականությունը ստանալու համար: Օգտագործելով -օրինակ (և, ըստ ցանկության, -հապլոտիպ ) տարբերակը կկիրառի գենոտիպի (հապլոտիպ) զանգեր FORMAT/GT- ից: Նկատի ունեցեք, որ ծրագիրը չի գործում որպես պարզունակ տարբերակի զանգահարող և անտեսում է ալելային խորության մասին տեղեկությունները, ինչպիսիք են INFO/AD կամ FORMAT/AD: Դրա համար հաշվի առեք setGT միացնել.

ընտրեք FORMAT/GT դաշտից որն օգտագործելու համար (ծածկագրերն աննշան են)

առաջին/երկրորդ ալելը փուլային գենոտիպերի համար և IUPAC կոդը՝ չփուլացված գենոտիպերի համար

Bcftools փոխակերպում [ԸՆՏՐՈԹՅՈՆՆԵՐ] ՖԱՅԼ

VCF մուտքագրման ընտրանքներ.

VCF ելքային ընտրանքներ.

GEN/SAMPLE փոխակերպում.

GVCF փոխակերպում.

HAP/SAMPLE փոխակերպում.

HAP/LEGEND/SAMPLE փոխակերպում.

TSV փոխակերպում.

Bcftools csq [ԸՆՏՐՈԹՅՈՆՆԵՐ] ՖԱՅԼ

Հապլոտիպի հետևանքների կանխատեսող կանխատեսումը, որը ճիշտ է վարում համակցված տարբերակները, ինչպիսիք են MNP- ները, որոնք բաժանված են բազմաթիվ VCF գրառումների վրա, SNP- ները բաժանված են ինտրոնով (բայց հարակից զուգակցված տեքստում) կամ մոտակա շրջանակը փոխող ինդելներով, որոնք իրականում համադրությամբ չեն փոխում շրջանակը:

Ելքային VCF-ը նշում է INFO/BCSQ և FORMAT/BCSQ պիտակով (կարգավորելի է տարբերակ): Վերջինս INFO/BCSQ- ի ինդեքսների մի փոքր դիմակ է `միահյուսված հապլոտիպերով: Տե՛ս ստորև բերված օգտագործման օրինակները՝ %TBCSQ փոխարկիչը օգտագործելու համար հարցում այս bitmask-ից ավելի մարդու համար ընթեռնելի ձև հանելու համար: Բիթմասկի կառուցումը սահմանափակում է այն հետևանքների քանակը, որոնց կարելի է անդրադառնալ մեկ նմուշի համար FORMAT/BCSQ պիտակներում: Լռելյայն սա 15 է, բայց եթե ավելին են պահանջվում, տես -Incsq տարբերակ.

Inputրագիրը մուտքագրման համար պահանջում է VCF/BCF ֆայլ, fasta ձևաչափի հղման գենոմ ( -fasta-ref ) և գենոմային առանձնահատկությունները GFF3 ձևաչափով, որը կարելի է ներբեռնել Ensembl կայքից ( -gff-annot ) և թողարկում է ծանոթագրված VCF/BCF ֆայլ: Ներկայումս աջակցվում են միայն Ensembl GFF3 ֆայլերը:

Լռելյայնորեն, մուտքային VCF-ը պետք է փուլային լինի: Եթե ​​փուլը անհայտ է կամ մասամբ հայտնի է, ապա --փուլ տարբերակը կարող է օգտագործվել՝ ցույց տալու համար, թե ինչպես վարվել չփուլացված տվյալների հետ: Այլապես, հապլոտիպի մասին տեղյակ զանգերը կարող են անջատվել --տեղական-csq տարբերակ.

Եթե ​​մեկ հապլոտիպում հայտնաբերվեն հակասական (համընկնող) տարբերակներ, ապա նախազգուշացում կհրապարակվի, և կանխատեսումները հիմնված կլինեն վերլուծության միայն առաջին տարբերակի վրա:

Խորհրդանշական ալելները չեն ապահովվում: Դրանք թողնելու են աննկատ ելքային VCF- ում և անտեսված են կանխատեսման վերլուծության համար:

ինչպես վարվել անփոփոխ հետերոզիգոտ գենոտիպերի հետ.

BCSQ ծանոթագրության օրինակներ.

Bcftools զտիչ [ՏԱՐԲԵՐԱԿՆԵՐ] ՖԱՅԼ

Կիրառեք ֆիքսված շեմի զտիչներ:

Bcftools gtcheck [ ԸՆՏՐՈԹՅՈՆՆԵՐ ] [ -գ genotypes.vcf.gz ] query.vcf.gz

Ստուգում է նմուշի ինքնությունը: Րագիրը կարող է գործել երկու ռեժիմով: Եթե տրված է տարբերակ ՝ նմուշների ինքնությունը query.vcf.gz ստուգվում է նմուշների մեջ ֆայլը: Առանց տարբերակ, նմուշների բազմակի նմուշների խաչաձև ստուգում query.vcf.gz կատարվում է.

-s, --նմուշներ [ qry | gt ]: 'LIST'. Հարցման նմուշների ցանկ կամ նմուշներ: Եթե ​​ոչ մեկը ոչ էլ տրված են, համեմատվում են ընտրանքային զույգերի բոլոր հնարավոր համադրությունները

-S, --samples-file [ qry | gt ]: 'FILE' ֆայլ հարցումով կամ նմուշներ համեմատելու համար: Եթե ​​ոչ մեկը ոչ էլ տրված են, համեմատվում են բոլոր հնարավոր նմուշային զույգերի համակցությունները

Bcftools ինդեքս [ ԸՆՏՐՈԹՅՈՆՆԵՐ ] in.bcf | in.vcf.gz

Ստեղծում է ինդեքս bgzip սեղմված VCF/BCF ֆայլերի համար՝ պատահական մուտքի համար: CSI (կոորդինատների տեսակավորված ինդեքս) ստեղծվում է լռելյայն: CSI ձևաչափն աջակցում է քրոմոսոմների ինդեքսավորմանը մինչև 2^31 երկարությունը: TBI (tabix index) ինդեքսային ֆայլերը, որոնք աջակցում են մինչև 2^29 քրոմոսոմի երկարություններին, կարող են ստեղծվել ՝ օգտագործելով -t/--tbi տարբերակ կամ օգտագործելով tabix ծրագիրը փաթեթավորված է htslib- ով: Ինդեքսի ֆայլը բեռնելիս bcftools- ը նախ կփորձի CSI- ն, ապա TBI- ն:

Ինդեքսավորման ընտրանքներ.

Վիճակագրության ընտրանքներ.

Bcftools isec [ ՏԱՐԲԵՐԱԿՆԵՐ ] A.vcf.gz B.vcf.gz […]

Ստեղծում է VCF ֆայլերի խաչմերուկներ, միություններ և լրացումներ: Կախված տարբերակներից, ծրագիրը կարող է մեկից (կամ ավելի) ֆայլերից գրառումներ կատարել, որոնք ունեն (կամ չունեն) համապատասխան գրառումներ մյուս ֆայլերում նույն դիրքով:

BITMAP ելքային դիրքերը առկա են այս շատ (=), այս շատ կամ ավելի (+), այս շատ կամ քիչ (-) կամ ճիշտ նույնը (

) ֆայլեր -ո, -ելք ՖԱՅԼ տեսնել Ընդհանուր ընտրանքներ . Երբ մի քանի ֆայլ են թողարկվում, դրանց անունները վերահսկվում են միջոցով -էջ փոխարենը. -O,-ելքային տիպ բ | u | զ | v տեսնել Ընդհանուր ընտրանքներ -p, -նախածանց DIR եթե տրված է, համապատասխանաբար ենթաբաժանեք մուտքային ֆայլերից յուրաքանչյուրին: Տես նաեւ . -r, -մարզեր քր | chr:pos | chr: -ից-ից | chr:-ից- [,…] տեսնել Ընդհանուր ընտրանքներ -R, --regions-file ֆայլը տեսնել Ընդհանուր ընտրանքներ -t, -թիրախներ քր | chr: pos | chr: -ից-ից | chr: --- ից [,…] տեսնել Ընդհանուր ընտրանքներ -T, --targets-file ֆայլը տեսնել Ընդհանուր ընտրանքներ -w, -գրել LԱՆԿ 1-ի վրա հիմնված ինդեքսների տեսքով ելքային մուտքային ֆայլերի ցանկ: Հետ -էջ և ոչ , բոլոր ֆայլերը գրված են:

Օրինակներ.

Ստեղծեք երկու հավաքածուի խաչմերուկ և լրացումներ ՝ ելքը խնայելով dir/*

Filտել կայքերը A- ում (պահանջել INFO/MAF & gt = 0.01) և B (պահանջել INFO/dbSNP), բայց ոչ C- ում և ստեղծել խաչմերուկ ՝ ներառելով միայն այն կայքերը, որոնք զտիչների կիրառումից հետո հայտնվում են ֆայլերից առնվազն երկուսում:

Հանել և գրել գրառումներ A- ից, որոնք կիսում են ինչպես A- ն, այնպես էլ B- ն ՝ օգտագործելով ալելների ճշգրիտ համընկնում

Քաշեք գրառումները, որոնք մասնավոր են A- ին կամ B- ին ՝ համեմատելով միայն դիրքի հետ

Տպեք գրառումների ցանկը, որոնք առկա են A և B, բայց ոչ C և D տառերում

Bcftools- ը միաձուլվում է [ ՏԱՐԲԵՐԱԿՆԵՐ ] A.vcf.gz B.vcf.gz […]

Միավորել մի քանի VCF/BCF ֆայլեր չհամընկնող նմուշային հավաքածուներից՝ մեկ բազմակի նմուշային ֆայլ ստեղծելու համար: Օրինակ, ֆայլը միացնելիս A.vcf.gz պարունակող նմուշներ S1 , S2 եւ S3 և ֆայլ B.vcf.gz պարունակող նմուշներ S3 եւ S4 , ելքային ֆայլը կպարունակի անունով հինգ նմուշ S1 , S2 , S3 , 2: S3 եւ S4 .

Նկատի ունեցեք, որ օգտագործողի պարտականությունն է ապահովել, որ նմուշի անունները եզակի լինեն բոլոր ֆայլերում: Եթե ​​դրանք չլինեն, ծրագիրը դուրս կգա սխալմամբ, եթե չկա տարբերակը - ուժային նմուշներ տրված է. Նմուշի անունները կարող են տրվել նաև հստակ ՝ օգտագործելով - տպել-վերնագիր եւ --use-header ընտրանքներ.

Նկատի ունեցեք, որ միայն տարբեր ֆայլերի գրառումները կարող են միավորվել, ոչ միևնույն ֆայլից: «Ուղղահայաց» միաձուլման համար նայեք bcftools concat կամ bcftools նորմ -մ փոխարենը.

Bcftools mpileup [ ՏԱՐԲԵՐԱԿՆԵՐ ] -զ ref.fa in.bam [ in2.bam […]]

Ստեղծեք VCF կամ BCF, որը պարունակում է գենոտիպի հավանականություն մեկ կամ բազմակի հավասարեցման (BAM կամ CRAM) ֆայլերի համար: Սա հիմնված է բնօրինակի վրա samtools mpileup հրաման (հետ կամ ընտրանքներ), որոնք արտադրում են գենոտիպի հավանականություն VCF կամ BCF ձևաչափով, բայց ոչ տեքստային կույտային ելք: Այն mpileup mpileup+bcftools զանգի խողովակաշարում օգտագործելիս samtools- ի և bcftools- ի անհամատեղելի տարբերակների օգտագործման արդյունքում առաջացած սխալներից խուսափելու համար հրամանը փոխանցվել է bcftools- ին:

Անհատները նույնականացվում են SM պիտակներից @RG վերնագրի տողերում: Բազմաթիվ անհատներ կարող են միավորվել մեկ հավասարեցման ֆայլում, ինչպես նաև մեկ անհատ կարող է բաժանվել մի քանի ֆայլերի: Եթե ​​նմուշի նույնացուցիչները բացակայում են, յուրաքանչյուր մուտքային ֆայլ դիտվում է որպես մեկ նմուշ:

Նկատի ունեցեք, որ մուտքագրված ֆայլում գտնվելու վայրը նշելու երկու ուղղանկյուն եղանակ կա տարածաշրջան եւ -տ պաշտոններ . Առաջինը օգտագործում է (և պահանջում է) ինդեքս ՝ պատահական մուտք գործելու համար, իսկ երկրորդը հոսում է ֆայլի բովանդակությամբ ՝ զտելով նշված շրջանները ՝ առանց ինդեքս պահանջելու: Երկուսը կարող են օգտագործվել համատեղ: Օրինակ, քրոմոսոմ 20 -ում գեների տեղաբաշխումը պարունակող BED ֆայլը կարող է ճշգրտվել օգտագործելով -ր 20 -տ ճր20.մահճակալ , այսինքն ՝ ինդեքսն օգտագործվում է 20 -րդ քրոմոսոմը գտնելու համար, այնուհետև այն զտվում է BED ֆայլում թվարկված շրջանների համար: Նաև նշեք, որ տարբերակը կարող է շատ ավելի դանդաղ լինել, քան -տ բազմաթիվ տարածաշրջանների հետ և կարող է պահանջել ավելի շատ հիշողություն, երբ մշակվում են բազմաթիվ տարածաշրջաններ և հավասարեցման բազմաթիվ ֆայլեր:

Մուտքի ընտրանքներ

Ելքի ընտրանքներ

SNP/INDEL գենոտիպային հավանականության հաշվարկման տարբերակներ

Օրինակներ.

Callանգահարեք SNP և կարճ INDEL- ներ, այնուհետ նշեք ցածր որակի կայքեր և կայքեր, որոնց ընթերցման խորությունը գերազանցում է սահմանը: (Ընթերցման խորությունը պետք է ճշգրտվի միջին ընթերցման միջինից մոտ երկու անգամ, քանի որ կարդալու ավելի բարձր խորքերը սովորաբար ցույց են տալիս խնդրահարույց տարածքներ, որոնք հաճախ հարստանում են արտեֆակտների համար): -C50 mpileup, եթե քարտեզագրման որակը գերագնահատված է չափազանց անհամապատասխանություններ պարունակող ընթերցումների համար: Այս տարբերակի կիրառումը սովորաբար օգնում է BWA-backtrack- ի հավասարեցումներին, բայց ոչ մյուս համընկնողներին:

Bcftools նորմ [ ՏԱՐԲԵՐԱԿՆԵՐ ] file.vcf.gz

Ձախը հավասարեցրեք և նորմալացրեք ինդելները, ստուգեք, արդյոք REF ալելները համապատասխանում են հղմանը, բաժանեք բազմալեզու կայքերը բազմաթիվ տողերի, վերականգնեք բազմալեզուները բազմաթիվ տողերից: Ձախ հավասարեցումը և նորմալացումը կկիրառվեն միայն այն դեպքում, եթե -fasta-ref տարբերակը տրամադրվում է.

Bcftools [plugin ԱՆՈՒՆ |+ ԱՆՈՒՆ ] [ԸՆՏՐՈԹՅՈՆՆԵՐ] ՖԱՅԼ — [PLUGIN OPTIONS]

Տարբեր կոմունալ ծառայությունների ընդհանուր շրջանակ: Հավելվածները կարող են օգտագործվել այնպես, ինչպես սովորական հրամանները, որոնց անունները նախածանցված են «+» - ով: Պլագինների մեծամասնությունն ընդունում է երկու տեսակի պարամետր՝ ընդհանուր ընտրանքներ, որոնք համօգտագործվում են բոլոր պլագինների կողմից, որին հաջորդում է բաժանարարը, և պլագիններին հատուկ ընտրանքների ցանկ: Այս կանոնից կան որոշ բացառություններ, որոշ հավելումներ չեն ընդունում ընդհանուր տարբերակները և իրականացնում են իրենց սեփական պարամետրերը: Հետևաբար, խնդրում ենք ուշադրություն դարձնել օգտագործման օրինակներին, որոնցով գալիս է յուրաքանչյուր հավելված:

VCF մուտքագրման ընտրանքներ.

VCF ելքային ընտրանքներ.

Լրացուցիչ ընտրանքներ.

Թվարկեք բոլոր առկա հավելումները:

Լռելյայն, համապատասխան համակարգի գրացուցակները որոնվում են տեղադրված հավելումների համար: Դուք կարող եք դա անտեսել՝ սահմանելով BCFTOOLS_PLUGINS միջավայրի փոփոխականը երկու կետով առանձնացված դիրեկտորիաների ցանկի վրա, որոնք պետք է որոնվեն: Եթե ​​BCFTOOLS_PLUGINS- ը սկսվում է հաստ կետից, ավարտվում է հաստ կետով կամ պարունակում է հարակից հաստ կետեր, համակարգի դիրեկտորիաները նույնպես որոնվում են այդ դիրեկտորիաների ցուցակում:

-v, -բառախօս տպել վրիպազերծման մասին տեղեկությունները` վրիպազերծելու պլագինների ձախողումը -V, --տարբերակ տպել տարբերակի տողը և դուրս գալ

Բաշխման հետ եկող հավելումների ցանկը.

անցկացնում է հիմնական ասոցիացիայի թեստ ՝ մեկ վայրում կամ տարածաշրջանում, և ստուգում է նոր ալելների և գենոտիպերի առկայությունը նմուշների երկու խմբում: Ավելացնում է INFO- ի հետևյալ ծանոթագրությունները.

  • PASSOC .. Ֆիզերի գենոտիպային ասոցիացիայի ճշգրիտ փորձարկման հավանականությունը (REF vs non-REF allele)
  • FASSOC .. ոչ-REF ալելի համամասնությունը ստուգումներում և դեպքերում
  • NASSOC .. control-ref, control-alt, case-ref և case-alt ալելների քանակը
  • NOVELAL .. թվարկում է նմուշներ նոր ալելով, որոնք չեն դիտարկվել վերահսկման խմբում
  • NOVELGT .. թվարկում է նոր գենոտիպով նմուշներ, որոնք չեն նկատվում հսկիչ խմբում

սահմանել տարբեր INFO պիտակներ: Այս տարբերակում աջակցվող պիտակների ցանկը.

  • INFO/AC Number:A Տեսակ:Integer .. Ալելների քանակը գենոտիպերում
  • INFO/AC_Hom համարը:A Տիպը:Ամբողջ թիվ .. Ալելները հաշվում են հոմոզիգոտ գենոտիպերում
  • INFO/AC_Het Number:A Տեսակ:Integer .. Ալելների թվերը հետերոզիգոտ գենոտիպերում
  • INFO/AC_Hemi Number: A Type: Integer .. Allele counts in hemizygous genotypes
  • INFO/AF Number: A Type: Float .. Allele frequency
  • INFO/AN Թիվ. 1 Տեսակ. Ամբողջ .. Ալելների ընդհանուր թիվը կոչվող գենոտիպերում
  • ՏԵFԵԿՈԹՅՈ /ՆՆԵՐ/ExcHet համարը ՝ A տիպ ՝ բոց .. Փորձեք ավելցուկային հետերոզիգոզությունը 1 = լավ, 0 = վատ
  • ՏԵFԵԿՈԹՅՈՆՆԵՐ/ՎԵՐ ENDԻՆ Թիվը ՝ 1 Տեսակ ՝ Ամբողջ .. Տարբերակի վերջնական դիրքը
  • INFO/F_MISSING Թիվ:1 Տեսակ:Float .. Բացակայող գենոտիպերի մասնաբաժինը
  • INFO/HWE համարը ՝ A տեսակը ՝ բոց .. HWE թեստ (PMID: 15789306) 1 = լավ, 0 = վատ
  • ՏԵFԵԿՈԹՅՈ /ՆՆԵՐ/MAF համարը ՝ A տեսակը ՝ բոց .. Փոքր ալիքների հաճախականություն
  • INFO/NS Number: 1 Type: Integer .. Data with sample sample
  • INFO/TYPE Համար. Տեսակ՝ String .. Գրառման տեսակը (REF, SNP, MNP, INDEL և այլն)
  • FORMAT/VAF համարը ՝ A տեսակը ՝ float .. Ընթերցումների մի մասը ՝ այլընտրանքային ալելով, պահանջում է FORMAT/AD կամ ADF+ADR
  • FORMAT/VAF1 համարը `1 Տեսակ` բոց .. Նույնը, ինչ FORMAT/VAF- ը, բայց բոլոր այլընտրանքային ալելների համար կուտակված
  • TAG = ֆունկցիա (TAG) համարը `1 Տեսակ` ամբողջական

Օրինակներ.

Պլագինների անսարքությունների վերացում.

Ստուգելու բաներ, եթե ձեր plugin- ը չի երևում bcftools plugin -l ելք:

  • Վազիր հետ տարբերակ՝ լայնածավալ ելքի համար. bcftools plugin -lv
  • Արդյո՞ք BCFTOOLS_PLUGINS միջավայրի փոփոխականն ընդգրկում է ճիշտ ուղին:

Plugins API:

Bcftools պոլիսոմիա [ ԸՆՏՐՈԹՅՈՆՆԵՐ ] file.vcf.gz

VCF- ներում հայտնաբերեք քրոմոսոմային պատճենների քանակը ծանոթագրությամբ Illumina- ի B- ալելների հաճախականության (BAF) արժեքներին: Նկատի ունեցեք, որ այս հրամանը լռելյայնորեն կազմված չէ, տես բաժինը GSL- ի հետ կամընտիր կազմում օգնության համար INSTALL ֆայլում:

Ընդհանուր ընտրանքներ.

Ալգորիթմի ընտրանքներ.

Bcftools հարցում [ ԸՆՏՐՈԹՅՈՆՆԵՐ ] file.vcf.gz [ file.vcf.gz […]]

VCF կամ BCF ֆայլերից արդյունահանում է դաշտեր և դուրս է բերում դրանք օգտագործողի կողմից սահմանված ձևաչափով:

Ձևաչափ:

Օրինակներ.

Bcftools գլխատող [ ԸՆՏՐՈԹՅՈՆՆԵՐ ] file.vcf.gz

Փոփոխել VCF/BCF ֆայլերի վերնագիրը, փոխել նմուշի անունները:

Bcftools roh [ ԸՆՏՐՈԹՅՈՆՆԵՐ ] file.vcf.gz

Հոմո/աուտոզիգոսության հոսքերի հայտնաբերման ծրագիր: Հաշվի են առնվում միայն երկէլելային կայքերը:

HMM մոդելը.

Ընդհանուր ընտրանքներ.

HMM ընտրանքներ.

Bcftools տեսակավորում [ ԸՆՏՐՈԹՅՈՆՆԵՐ ] file.bcf

Bcftools վիճակագրություն [ ԸՆՏՐՈԹՅՈՆՆԵՐ ] A.vcf.gz [ B.vcf.gz ]

Վերլուծում է VCF- ն կամ BCF- ն և արտադրում է տեքստային ֆայլի վիճակագրություն, որը հարմար է մեքենայի մշակման համար և կարող է գծագրվել ՝ օգտագործելով plot-vcfstats . Երբ տրվում է երկու ֆայլ, ծրագիրը ստեղծում է խաչմերուկի և լրացումների առանձին վիճակագրություն: Լռելյայնորեն համեմատվում են միայն կայքերը, / պետք է տրվի, որպեսզի ներառի նաև սյունակ -նմուշներ: Երբ հրամանի տողում նշվում է մեկ VCF ֆայլ, ապա տպագրվում են վիճակագրություններ ըստ ոչ հղման ալելների հաճախականության, խորության բաշխման, վիճակագրության որակի և մեկ նմուշի հաշվարկի, մեկ վիճակագրության և այլն: Երբ տրվում են երկու VCF ֆայլեր, այնուհետև տպագրվում են այնպիսի վիճակագրություններ, ինչպիսիք են համընկնումը (գենոտիպի համապատասխանությունը ոչ հղման ալելների հաճախականությամբ, գենոտիպի համապատասխանությունը ըստ նմուշի, ոչ հղումային անհամապատասխանություն) և հարաբերակցությունը: Մեկ կայքի անհամապատասխանությունը (PSD) նույնպես տպագրված է -խոսուն ռեժիմ.

Bcftools դիտում [ ԸՆՏՐՈԹՅՈՆՆԵՐ ] file.vcf.gz [ ՄԱՐ R […]]

Դիտեք, ենթաբազմություն և զտեք VCF կամ BCF ֆայլերը ըստ դիրքի և զտման արտահայտության: Փոխարկել VCF- ի և BCF- ի միջև: Նախկին bcftools ենթախումբ .

Ելքի ընտրանքներ

-ո, -ելք ՖԱՅԼ : ելքային ֆայլի անունը: Եթե ​​չկա, ապա լռելյայն է տպել ստանդարտ ելքով (stdout):

Ենթաբազմության ընտրանքներ.

Filտիչի ընտրանքներ.

Նկատի ունեցեք, որ ներքևում գտնվող ֆիլտրի ընտրանքները, որոնք վերաբերում են ալելների քանակի հաշվմանը, արագության համար նախ ստուգում են AC և AN արժեքները INFO սյունակում, որպեսզի խուսափեն VCF-ում բոլոր գենոտիպային (FORMAT/GT) դաշտերի վերլուծությունից: Սա նշանակում է, որ ֆիլտրը նման է -min-af 0.1 այն կհաշվարկվի INFO/AC- ից և INFO/AN- ից `առկայության դեպքում կամ FORMAT/GT- ով` այլ կերպ: Այնուամենայնիվ, այն չի փորձի օգտագործել որևէ այլ գոյություն ունեցող դաշտ, ինչպես օրինակ INFO/AF-ը: Դրա համար օգտագործեք -բացառել AF & lt0.1 փոխարենը.

Նաև նշեք, որ պետք է զգույշ լինել, երբ նմուշի ենթահամակարգավորումն ու զտումը կատարվում են մեկ հրամանով, քանի որ ներքին գործողությունների կարգը կարող է ազդել արդյունքի վրա: Օրինակ, ի -i/-e ֆիլտրումն իրականացվում է նախքան նմուշի հեռացումը, բայց զտումը կատարվում է դրանից հետո, և ոմանք բնածին երկիմաստ են, օրինակ `ալելների հաշվարկը կարող է իրականացվել INFO սյունակից, երբ առկա է, բայց հաշվվում է թռիչքի ժամանակ` բացակայության դեպքում: Հետևաբար, խստորեն խորհուրդ է տրվում հստակ ձևակերպել պահանջվող կարգը՝ նման հրամանները բաժանելով երկու քայլի: (Համոզվեք, որ օգտագործեք -Այ դու տարբերակ խողովակաշարերի ժամանակ)

Bcftools օգնություն [ ՀՐԱՄԱՆ ] | bcftools -օգնություն [ ՀՐԱՄԱՆ ]

Displayուցադրեք օգտագործման կարճ հաղորդագրություն ՝ նշելով առկա bcftools հրամանները: Եթե ​​տրված է նաև հրամանի անվանումը, օրինակ ՝ bcftools- ի օգնությամբ կարելի է դիտել, այդ հատուկ հրամանի օգտագործման մանրամասն հաղորդագրությունը ցուցադրվում է:

Bcftools [ -շրջադարձ | -վ ]

Ցուցադրել տարբերակների համարները և հեղինակային իրավունքի մասին տեղեկությունները bcftools-ի և bcftools-ի կողմից օգտագործվող կարևոր գրադարանների համար:

Bcftools [ --միայն տարբերակ ]

Ցուցադրել bcftools-ի ամբողջական տարբերակի համարը մեքենայաընթեռնելի ձևաչափով:


Լրացուցիչ ֆայլ 1:

Լրացուցիչ Նկարներ S1-S5.

Լրացուցիչ ֆայլ 2. Աղյուսակ S1

Հյուսվածքային մակարդակի ամփոփ վիճակագրություն հապլոտիպի մակարդակի AE տվյալների համար: Աղյուսակում նշված նմուշի չափը, արտահայտված գեների քանակը (սահմանվում է որպես > = 0,1 TPM գեներ առնվազն 1 անհատի մոտ), phASER տվյալների հետ գեների քանակը (սահմանվում է որպես > = 8 ընթերցում ունեցող գեն առնվազն 1 անհատի մոտ), մեդիանային թիվը նմուշներ յուրաքանչյուր գենի համար՝ phASER տվյալների հետ, և եթե հյուսվածքն օգտագործվել է GTEx v8 eQTL քարտեզագրման համար:

Լրացուցիչ ֆայլ 3. Աղյուսակ S2

Նմուշի շեմային և ալելային անհավասարակշռության վիճակագրություն հապլոտիպի մակարդակի AE տվյալների համար: Աղյուսակ, որտեղ տողերն են 49 GTEx հյուսվածքներից յուրաքանչյուրը, որտեղ eQTL- եր են կոչվել, և սյունակներում նշվում է հապլոտիպի մակարդակի AE տվյալներով գեների թիվը `1-ից մինչև 300 (minXXX) նվազագույն շեմերով: Օրինակ, min1-ը թվարկում է գեների քանակը, որոնք ունեն AE տվյալներ առնվազն 1 նմուշից: Աղյուսակն ունի երեք թերթ, առաջինը (բոլոր_տվյալները) ներկայացնում է վիճակագրություն, որը ստեղծվել է հապլոտիպի մակարդակի AE բոլոր տվյալների հիման վրա, երկրորդը (sig_imb_fdr05) ՝ հաշվելով միայն ալելային անհավասարակշռության զգալի դեպքերը (երկվանիչ թեստ ընդդեմ 50/50, գենի մակարդակի FDR & lt 5% ), և վերջապես (sig_imb_fdr05_no_het) ՝ հաշվելով միայն էական անհավասարակշռությամբ դեպքերը, երբ անհատը հետերոզիգոտ չէ որևէ գագաթի համար (FDR & lt 5%) կամ անկախ (փոխարինում էջ & lt 1e-4) eQTLs ցանկացած գենետիկական GTEx հյուսվածքի վրա:


Դիտեք տեսանյութը: Fetch All the Contacts and Create VCard.vcf using Swift. CNContactFetchRequest (Դեկտեմբեր 2021).