Տեղեկատվություն

Միկրոզանգվածների գծային գենի արտահայտման բացասական արժեքը

Միկրոզանգվածների գծային գենի արտահայտման բացասական արժեքը


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Ես սկսում եմ օգտագործել միկրոզանգվածներ, և միգուցե սա հիմար հարց է.

Օգտագործելով Illumina միկրոզանգվածները, գենի գծային արտահայտությունը կարող է բացասական լինել: Իսկ գուցե որոշ արտեֆակտներ ներդրվե՞լ են:

Եվ, այս դեպքում, ինչպե՞ս դրանք ուղղել: Սանդղակո՞վ (ավելացնելով նվազագույն բացասական արժեքի բացարձակ արժեքը) թե՞ հատակով (բացասական արժեքները վերածելով զրոյի):

Շնորհակալություն


Ես անձամբ ծանոթ չեմ Illumina զանգվածներին, բայց այստեղ կարող եմ որոշ նշումներ տալ: Այս հղումը թուղթ է, որը հատուկ նկարագրում է զանգվածի որակի վերահսկումը: Այս ներկայացումը նկարագրում է կենսահաղորդիչի ինտենսիվության հաշվարկը:

Պատասխանը այո է՝ երբեմն բացասական թվեր կգտնեք։ Նրանք պետք է հազվագյուտ լինեն: Ինտենսիվությունները թվարկվում են սկաներից, որն ըստ էության վերցնում է բշտիկի ֆլուորեսցենցիայի պատկերը ապակու սլայդի վրա և փորձում է հանել ֆոնային ազդանշանը:

Ֆոնը ազդանշանի բնորոշ մակարդակն է, որը դուք տեսնում եք բշտիկի վրա, որի հետ կապված ԴՆԹ-ի նմուշ չկա: Դուք կստանաք որոշ պիքսելներ, որոնք մի փոքր լուսավորվում են նույնիսկ այնտեղ:

Արտահայտման միկրոզանգվածներում սա կատարյալ համակարգ չէ, քանի որ յուրաքանչյուր բշտիկ ունի տարբեր նուկլեոտիդային հաջորդականություն: Յուրաքանչյուր ուլունք ունի ԴՆԹ-ի որոշակի հաջորդականություն, ունի ոչ սպեցիֆիկ կապ, որը սահիկի վրա բավականին յուրահատուկ է: Այսինքն, բշտիկի օլիգոմերը կարող է ամուր կապվել ձեր նմուշի ԴՆԹ -ի հետ, որը տարբեր աստիճանի դրա հակառակ լրացումը չէ:

Կարծում եմ, որ այն, ինչ տեղի ունեցավ, այն է, որ կլինեն մի քանի դեպք, երբ դուք կարող եք գտնել մի ուլունք, որն ունի ավելի քիչ ֆլուորեսցենտություն, քան սահիկի ֆոնային հսկիչները: Հնարավոր է, որ զոնդը ունի նախագծման թերություն, բայց ես ընդհանուր առմամբ ենթադրում էի, որ բացասական թիվը նշանակում է, որ այդ օլիգոյի համար նմուշում չկա հայտնաբերելի նպատակային cDNA:

Ես երևի այդ թիվը չէի փոխի զրոյի, բայց երևի որոշ դեպքերում կարող էիր արդարացնել քեզ: Տարբերությունների մեծամասնության փորձերը հարաբերակցության լոգարիթմն են, ուստի այդ դեպքերում զրոյը մեծ թիվ չէ:

@Luke- ի մեկնաբանությունները լավ են ասված:

Կարծում եմ, որ բացասական արժեքները դեռևս կարող են ազդանշան ներկայացնել, քանի որ հաջորդականությունից կախված էֆեկտների տարբերությունը մասշտաբավորման և տարբերությունների փորձերի համար: Բայց ես հակված էի ամեն դեպքում դրանք համարել որպես զրո ազդանշան: Հավանաբար կան գեներ, որոնք անընդհատ արտահայտում են հայտնաբերման շեմը կամ դրանից ցածր, ինչը զրո տեղեկատվություն չէ, ուստի թիվը որոշակի արժեք ունի:


Տառադարձություն

Mic Microarray (SAM) մեթոդի և փաթեթի նշանակության վերլուծություն

SAM- ը ոչ պարամետրային, փոխակերպման վրա հիմնված մեթոդ է, որը հատուկ առաջարկվում է միկրոզանգվածի տվյալների վերլուծության համար (Tusher et al., 2001): Այն հաշվարկում է կեղծ հայտնաբերման էմպիրիկ տոկոսադրույքը (FDR) ՝ դասի պիտակների պատահական փոփոխությամբ: Փոխակերպումը առաջացնում է զրոյական բաշխում, քանի որ ենթադրվում է, որ պատահականությունը վերացնում է բոլոր կենսաբանական ազդեցությունները: Հետևաբար, այն հնարավորություն է տալիս վերահսկելու կեղծ դրականները տարբեր շեմերի ներքո, երբ մի քանի գեներ միաժամանակ չափվում են զանգվածում: SAM փաթեթը կարող է կարգավորել ինչպես զուգավորված, այնպես էլ ոչ զուգավորված տվյալներ: Այն գործարկվում է R վիճակագրական փաթեթի վերևում և ունի Excel ինտերֆեյս `օգտագործելով Excel plug-in:


Microarray Expression Data Analysis References

Օլիգոնուկլեոտիդային չիպերի, խայտաբղետ զանգվածների կամ օգտագործվող ցանկացած տեխնոլոգիայի կողմից ստացված գենային արտահայտման հումքի տվյալների չափն ու բարդությունը ստեղծում են տվյալների վերլուծության և տվյալների կառավարման դժվարին խնդիրներ: Սահմանափակ կերպով այս մարտահրավերները կարող են բավարարվել գոյություն ունեցող ծրագրային համակարգերով և վերջնական օգտագործողների ձեռքում գտնվող վերլուծության մեթոդներով: Այնուամենայնիվ, մենք համոզված ենք, որ շատ ավելի ակտիվ գիտական ​​ջանքեր են պահանջվում: Մենք ակնկալում ենք, որ լայնորեն սահմանված բիոինֆորմատիկան կներառի փորձարարական նախագծման վիճակագրական և կենսաչափական հարցեր, տվյալների վերլուծություն, գրաֆիկա և մոդելավորում, ինչպես նաև հաշվողական հարցեր, որոնք վերաբերում են տարբեր ուսումնական առաջադրանքների արդյունավետ ալգորիթմներին, ինչպիսիք են դասակարգումը և կլաստերավորումը:

Microarray տվյալները կարող են վերլուծվել մի քանի մոտեցումների միջոցով (Claverie, 1999): Կլաստերավորման մեթոդները (այսինքն ՝ առանց հսկողության ուսուցումը) լայնորեն կիրառվում են և ունակ են միկրոկառուցվածքների հավաքածուից բացահայտելու համակարգված արտահայտչական ձևեր (օրինակ ՝ Eisen et al. 1998 Getz et al. 2000 Tibshirani et al. 2000 Dudoit, Fridlyand et al. 2000 Kerr և Չերչիլ 2000 ա): Կլաստերացման ստանդարտ մեթոդների օգտագործումը առավել նպատակահարմար է, երբ միկրոզանգվածները ծագում են բջիջների որոշ ընդհանուր տիպից, օրինակ `ընդհանուր վերահսկվող խաչի կենդանիների ընդհանուր հյուսվածքի տեսակից: Լրացումները կարող են անհրաժեշտ լինել, երբ տատանումների այլ աղբյուրներ ազդում են միկրոզանգվածների վրա (van der Laan and Bryan 2000): Դասակարգման մեթոդները (այսինքն ՝ վերահսկվող ուսուցումը) շատ օգտակար են դարձել գենային արտահայտման ձևերը որոշելու համար, որոնք կարող են փոխկապակցված լինել հիվանդության որակական ֆենոտիպերի հետ (օրինակ ՝ Golub et al. 1999) և գեները դասակարգելու համար ՝ ըստ նրանց գործառական դերի (Brown et al. 2000): Բազմաչափ վիճակագրական վերլուծության հարակից մեթոդները, ինչպիսիք են եզակի արժեքի տարրալուծումը (Alter et al. 2000 West et al. 2000) կամ բազմաչափ մասշտաբը, կարող են արդյունավետ լինել ուսումնասիրվող օբյեկտների չափերը նվազեցնելու համար:

Ստեղծվում են վիճակագրական մեթոդներ, որոնք հաշվի են առնում տատանումների բազմաթիվ աղբյուրներ, երբ փորձում են միավորել բազմաթիվ միկրոզանգվածների տեղեկատվությունը և բացահայտել գեները, որոնք ցուցադրում են բջիջների տեսակների միջև էական տարբերակիչ արտահայտություն: Մոտեցումներից մեկն այն է, որ համապատասխան կերպով փոխակերպված արտահայտության չափումը տարրալուծվի որպես տատանումների տարբեր աղբյուրների ազդեցությունների գծային համակցություն (Kerr et al. 2000): Սա հիմնականում ANOVA է միկրոզանգերի համար: Երկու խմբի համեմատության համատեքստում կրկնօրինակման Dudoit-ի հետ, Yang et al. (2000 թ.) առաջարկել են փոխադարձ փորձարկման և p-արժեքի ճշգրտման օգտագործումը բազմակի փորձարկման խնդիրը հաշվի առնելու համար: Լին և այլք: (2001) նկարագրում է ոչ պարամետրիկ մեթոդ, որը հարմար է ցածր առատության տառադարձումների համար դիֆերենցիալ արտահայտությունը բացահայտելու համար: Այլապես, խառնուրդի մոդելային մոտեցումը կարող է օգտագործվել ուղղակիորեն գնահատելու համար, որ տվյալ գենն իսկապես արտահայտված է (Lee et al. 2000) կամ հավանականությունը, որ գենը իսկապես տարբերվում է երկու պայմանների միջև (Newton et al. 2001 Efron et ալ. 2001): Նման վիճակագրական հաշվարկներով հայտնաբերված արտահայտման ֆունկցիոնալ օրինաչափությունները կհաստատվեն լաբորատոր փորձաքննությամբ՝ բացահայտումները ստուգելու համար (տես Nadler et al. 2000 թ.):

Չնայած մինչ այժմ կենսաինֆորմատիկայի հետազոտությունների մեծ մասում վերլուծության մեթոդները կենտրոնական մտահոգություն էին ներկայացնում, փորձնական նախագծման հարցը կրիտիկական է: Կրկնօրինակման օգտագործումը, օրինակ, վերահսկվող փորձերի ժամանակ կարող է զգալիորեն բարելավել տարբեր արտահայտված գեների բացահայտման ուժը (Kerr and Churchill 2000b, Lee et al. 2000): Միկրոզանգվածի աջակցության հայտերի մեր ներքին վերանայումը ներառում է փորձնական նախագծման նկատառումների մանրազնին ուսումնասիրություն:

Microarray վերլուծությունը սովորաբար օգտագործում է ֆոնային ճշգրտված արտահայտության ինտենսիվություն, (PM-MM Affymetrix չիպերի համար): Այնուամենայնիվ, դա կարող է խնդիրներ ստեղծել բացասական ճշգրտված արժեքների հետ, քանի որ տեղեկամատյան փոխակերպումը հաճախ կիրառվում է այդ ճշգրտված արժեքների նկատմամբ: Սա դրդել է ժամանակավոր ընթացակարգերի (տես ՝ Roberts et al. 2000): Այնուամենայնիվ, ցածր արտահայտման գեների կամայական վերաբերմունքը անբավարար է, քանի որ դրանք կարող են լինել ամենահետաքրքիրը, օրինակ. տառադարձման գործոններն ու ընկալիչները: Փոխարենը Lin et al. (2001 թ.) կողմ է արտահայտվել ֆոնի վրա ճշգրտված արտահայտության մոտավոր նորմալ միավորների փոխակերպմանը, որը թույլ է տալիս օգտագործել բոլոր տվյալները (տես նաև Efron et al. 2001): Այս նորմալ միավորները, ըստ երևույթին, ունեն կլաստերացման ավելի լավ հատկություններ և լավ են վարվում դիֆերենցիալ արտահայտման վերաբերյալ եզրակացության համար:

Տվյալների վերլուծությամբ բացահայտված գեների արտահայտման ձևերը միայն սկիզբն է: Շատ դեպքերում ավելի մեծ կենսաբանական ըմբռնում կարելի է ձեռք բերել՝ օգտագործելով արտահայտչական տվյալները հաջորդականության տվյալների հետ (Craven et al. 2000), ուղու տվյալների (Zien et al. 2000) և կենսաբժշկական տեքստի աղբյուրների (Shatkay et al. 2000) հետ: Բացի այդ, այն կարող է ներառել կանխատեսող մոդելների կառուցում տվյալների տարբեր աղբյուրներից (Craven et al. 2000) և տեքստի և վեբ տվյալների շահագործման ավտոմատացված մեթոդների մշակում (Craven and Kumlien, 1999 Shavlik et al. 1999):


Oncomine 3.0. Գեներ, ուղիներ և ցանցեր քաղցկեղի գենի արտահայտման 18,000 պրոֆիլների հավաքածուում:

Միչիգանի համալսարանի բժշկական դպրոցի պաթոլոգիայի ամբիոն, Էն Արբոր, MI 48109-0940, ԱՄՆ:

ԴՆԹ -ի միկրոզանգվածները լայնորեն կիրառվել են քաղցկեղի սղագրության վերլուծության համար, սակայն նման տվյալների մեծամասնությունը հեշտությամբ մատչելի կամ համեմատելի չեն: Ավելին, մի քանի կարևոր վերլուծական մոտեցումներ են կիրառվել միկրոզանգվածային վերլուծության համար, սակայն դրանց կիրառումը հաճախ սահմանափակ է: Այս սահմանափակումները հաղթահարելու համար մենք մշակեցինք Oncomine, կենսաինֆորմատիկայի նախաձեռնություն, որն ուղղված է կենսաբժշկական հետազոտությունների համայնքին քաղցկեղի տրանսկրիպցոմային տվյալների հավաքագրմանը, ստանդարտացմանը, վերլուծությանը և առաքմանը: Մեր վերլուծությունը բացահայտել է գեները, ուղիները և ցանցերը, որոնք ապակարգավորված են քաղցկեղի գեների արտահայտման 18000 միկրոզանգվածներում, որոնք ներառում են քաղցկեղի տեսակների և ենթատեսակների մեծամասնությունը: Այստեղ մենք տրամադրում ենք նախաձեռնության թարմացում, նկարագրում ենք տվյալների բազան և վերլուծության մոդուլները և ընդգծում մի քանի ուշագրավ դիտարկումներ: Այս համապարփակ վերլուծության արդյունքները հասանելի են http://www.oncomine.org կայքում:

Հուսալիության և վերարտադրելիության խնդիրները ԴՆԹ-ի միկրոզանգվածի չափումների մեջ:

Դոկտոր Սորին Դրահիչին հրապարակել է հիանալի ակնարկ: Microarray պատմություն, տեսակներ, տեխնոլոգիա, կիրառություն: Կենսաբանական նշաններ և ախտորոշիչ գործիք: ՊՇՌ-ի հետ հարաբերակցությունը. Հարաբերակցություններն ավելի հուսալի են, քան արտահայտման մակարդակը: Սփայկ-ին փորձերի որոգայթները, զոնդերի համընկնումը, ԴՆԹ-ՌՆԹ հիբրիդացում, միաձուլման տարբերակներ, ծալում և խաչաձև հիբրիդացում: Հղումները հակիրճ են, բայց հիանալի:

Միտումներ Genet. 2006 փետրվարի 22 (2): 101-9: Epub 2005 Dec 27. Հղումներ


3. Դիմում փորձարարական տվյալների վրա

(i) Տվյալների նկարագրություն

BE-ի կատարումը BN-ի և BL-ի համեմատ վերլուծելու համար մենք օգտագործեցինք երկու տվյալների հավաքածուներ, որոնք ստեղծվել էին նախորդ երկգույն cDNA միկրոզանգվածի ուսումնասիրության մեջ, որն իրականացվել էր բակտերիայում σ B գործոնով կարգավորվող գեները բացահայտելու համար: Listeria monocytogenes (Կազմիերչակ et al., Հղում Kazmierczak, Mithoe, Boor and Wiedmann 2003): Այդ ուսումնասիրության մեջ ան L. monocytogenes sigB զրոյական մուտանտ (որին բացակայում է σ B սպիտակուցը) և ծնողական շտամ ՝ անձեռնմխելի sigB գենը (վայրի տիպի) ենթարկվել է երկու սթրեսային վիճակի, մասնավորապես՝ օսմոտիկ սթրեսի և ստացիոնար փուլի, որպեսզի նույնականացնեն գեները տառադարձության մակարդակներով, որոնք ազդում են sigB ջնջում այս երկու պայմաններում: Սթրեսի յուրաքանչյուր պայմանի համար երկու անկախ RNA մեկուսացված (կենսաբանական կրկնօրինակներ) ինչպես վայրի, այնպես էլ վայրի համար sigB մուտանտի բջիջները փոխանակվում էին ընդհանուր առմամբ չորս զանգվածով մեկ սթրեսի պայմաններում: Յուրաքանչյուր զանգված ներառում էր 211 փորձնական գեն և մի շարք ոչ հիբրիդացնող և նորմալացման մի շարք վերահսկիչներ (մանրամասների համար տե՛ս Կազմիերչակ et al., Հղում Kazmierczak, Mithoe, Boor and Wiedmann 2003) խայտաբղետ է եռակի: (Անգվածի մեջ ներառված (166) գեները ճանաչվել են Hidden Markov Model- ի խթանողի որոնումների արդյունքում, որոնց նախորդել է ենթադրյալ σ B- ից կախված խթանողը, մինչդեռ որոշ գեներ (36) ներառվել են վիրուսության կամ սթրեսային արձագանքման մեջ նրանց ներգրավվածության մասին նախորդ հաղորդումների պատճառով: Քանի որ σ B- ն գենի արտահայտման դրական կարգավորիչ է, որն առանձնահատուկ կարևորություն ունի սթրեսային արձագանքման և վիրուլենտության գեները կարգավորելու համար, այս երկու փորձերի գեների մեծ մասը ակնկալվում է, որ վայրի տեսակի շտամում ավելի բարձր տառադարձման մակարդակ են ցուցադրում, քան sigB ջնջման լարվածություն:

Նրանց վերլուծության մեջ ՝ Կազմիերչակը et al. (Reference Kazmierczak, Mithoe, Boor and Wiedmann 2003) բոլոր առանձին բծերը համարեցին կրկնություններ ՝ յուրաքանչյուր գենի համար առաջացնելով 24 տվյալների միավոր (3 կետ մեկ գենի համար × 4 զանգված × 2 ալիք մեկ զանգվածի համար), այսինքն ՝ տեխնիկական կրկնությունների միջև հարաբերակցությունը հաշվի չի առնվել: Նրանք զեկուցել են 211 թեստային գեներից 208 -ի վերաբերյալ, քանի որ երեք գեն երկու անգամ հայտնաբերվել են: Մինչև վերլուծությունը կատարվել է խաչմերուկի միջին նորմալացումը (առանց ֆոնային ուղղման) և հատակը: Microarrays (SAM) ծրագրի նշանակության վերլուծությունը (Տուշեր et al., Reference Tusher, Tibshirani and Chu 2001) նույնականացրել են 51 (25%) և 41 (20%) գեներ `առնվազն 1 · 5 անգամ տարբեր վիճակագրական նշանակություն ունեցող արտահայտություններով` համապատասխանաբար օսմոտիկ սթրեսի և ստացիոնար փուլի պայմաններում:

Նախքան 211 գեների երկու տվյալների հավաքածուի մեր վերլուծությունը, մենք իրականացրել ենք ֆոնի ուղղում և նորմալացում: Միջին ֆոնի լուսարձակումների ինտենսիվությունը սովորաբար խորհուրդ է տրվում ֆոնային աղմուկը շտկելու համար `ծայրահեղությունների նկատմամբ դրանց ամրության պատճառով: Այնուամենայնիվ, մենք օգտագործեցինք ֆոնի միջին ինտենսիվությունը, քանի որ միջին ֆոնային ինտենսիվությունների բաշխումը բիմոդալ բաշխում ուներ, որտեղ որոշ բծեր զրոյական ֆոն ունեին, իսկ մյուսները գտնվում էին ինտենսիվության ավելի բարձր տիրույթում (2 8 -ից բարձր) (հնարավոր է ՝ պայմանավորվածության կամ սահմանափակումների պատճառով օգտագործված լազերային սկաները):

Տվյալների համար ֆոնային ուղղման երկու ընթացակարգեր տեղին էին թվում: Առաջինը ՝ նորմալ-ցուցիչ կոնվոլյացիայի ֆոնի ուղղման մոդելը (NeBC) (կատարվում է 100-ի օֆսեթով), որը ներառում է նորմալ և ցուցիչ բաշխումների համախմբման համապատասխանեցում առաջին պլանի ինտենսիվություններին ՝ օգտագործելով ֆոնային ինտենսիվությունները որպես կովարիացիա (կոչվում է նաև normexp մեթոդը Smyth, Reference Smyth, Gentleman, Carey, Dudoit, Irizarry and Huber 2005): Օգտագործված երկրորդ ընթացակարգը բազմապատկիչ ֆոնի ուղղումն էր (MBC): Սա նոր մոտեցում է, որը ենթադրում է ինտենսիվության ընթերցումների լոգարիթմական փոխակերպում նախքան հետին ֆոնի ուղղումը և պարզվում է (մի շարք օրինակների միջոցով), որ գերազանցում է հավելյալ ֆոնի ուղղմանը և ոչ մի ֆոնի ուղղում (Չժանգ et al., Reference Zhang, Zhang and Wells 2006): Քանի որ MBC- ն հաղորդվում է, որ ավելի քիչ կեղծ դրական է տալիս, քան սովորական հավելյալ ֆոնի ուղղումը (hanանգ et al., Reference Zhang, Zhang and Wells 2006) և քանի որ դրա կատարումը երբեք չի հակադրվել NeBC- ի հետ, մենք մեր ուսումնասիրության մեջ օգտագործեցինք (և համեմատեցինք) ֆոնի ուղղման երկու մոդելները:

Տվյալների համար համապատասխան նորմալացումը Լոուեսի նորմալացումն էր (Cleveland & Devlin, Reference Cleveland and Devlin 1988), հետին պլանի և նորմալացման վերահսկման կետերի կշռումով, որոնք հայտնի են որպես ոչ DE (http://bioconductor.org/packages): /1.8/bioc/vignettes/limma/inst/doc/usersguide.pdf): Երկու ֆոնի ուղղման ընթացակարգերի (NeBC և MBC) կիրառումը սթրես-պայմանների տվյալների հավաքածուներից յուրաքանչյուրի համար (օսմոտիկ սթրես և անշարժ փուլ) ապահովել է ընդհանուր չորս իրական մոդել-տվյալների հավաքածուներ, որոնք օգտագործվում են մեր վերլուծություններում:

(ii) արդյունքները

Բոլոր չորս մոդելային տվյալների հավաքածուներում նորմալացված և ֆոնային շտկված մատյան2 գեների արտահայտման արժեքների հարաբերակցությունը վայրի և մուտանտի բջիջներում (Յ gij) բաշխված էին ասիմետրիկ զրոյի շուրջ և մեծապես թեքված դեպի աջ: Սա սպասելի էր, քանի որ ստուգված գեների մեծ մասում ակնկալվում էր բարելավում: Ուստի ողջամիտ էր ենթադրել, որ DE գեների միջին արտահայտությունների բաշխումը հետևում է EVD- ին: Հետևաբար, BE մեթոդը կարող է կիրառվել դիֆերենցիալ արտահայտման մասին եզրակացության համար:

ԲԿ-ի ինտեգրման մեթոդաբանության կարևորագույն խնդիրը, որը ընկած է BE մեթոդի հիմքում, կրկնությունների քանակի որոշումն է, որոնք կարող են ապահով կերպով օգտագործվել որպես եզրակացության հիմք: Մենք օգտագործեցինք 50 000 կրկնություն, քանի որ դրանք ապահովում էին BE- ի մոտավոր վիճակագրության ողջամիտ ճշգրտությունը: Ձեռք բերված MCSE- ները տարբերվում էին տարբեր գեների և մոդելային տվյալների հավաքածուների համար: Ստացված MCSE- ների միջինները, որին հաջորդում են փակագծերի միջակայքերը, եղել են 0 · 05 (0 · 01–0 · 42) և 0 · 03 (0 · 01–0 · 82) ՝ NeBC և MBC մեթոդները, համապատասխանաբար, և 0 · 38 (0 · 02–0 · 92) և 0 · 18 (0 · 02–0 · 52) ստացիոնար փուլերի տվյալների հավաքածուների համար ՝ համապատասխանաբար NeBC և MBC մեթոդներով: Բոլոր չորս մոդելային տվյալների հավաքածուներում MCSEs- ը ամենացածրն էին (& lt0 · 1) գեների համար, որոնց արժեքը BE վիճակագրական արժեքը 0-ի սահմաններում էր:

Յուրաքանչյուր մոդելի համար տվյալների հավաքածուի համար մոտեցվել են գենին հատուկ BN, BL և BE վիճակագրությունը: Բացահայտված DE գեների կենսաբանական նշանակությունը կարևոր է: Հետևաբար, Նկար 1-ի չորս մոդելային տվյալների հավաքածուներից յուրաքանչյուրի համար մենք ցույց ենք տալիս BN, BL և BE վիճակագրության արժեքները, գծված գծային մոդելների հակադրությունների գնահատիչների դեմ () և Կազմիերչակի նախորդ արդյունքների դեմ et al. (Հղում Kazmierczak, Mithoe, Boor and Wiedmann 2003): Յուրաքանչյուր մոդել-տվյալների հավաքածուում BE- ի վիճակագրությամբ շատ ցածր դասավորված գեները 1-ից ցածր են: Միևնույն ժամանակ, BN- ի վիճակագրությունը բարձր է դասել գեների որոշ շատ ցածր փոփոխություններ `սխալ առաջարկելով սխալ կարգավորում: BL վիճակագրությունը տվել է երկիմաստ արդյունքներ՝ բարձր արժեքներով գեների մեծ մասի համար, մասնավորապես՝ ստացիոնար փուլային տվյալների համար: Հարկ է նշել, որ BN-ի և BE-ի վիճակագրության մոտարկման համար մենք ֆիքսել ենք pDE-ները Կազմիերչակում հաղորդվածների հետ: et al. (Հղում Kazmierczak, Mithoe, Boor and Wiedmann 2003): PDE- ների տարբեր արժեքների ամրագրումը կփոխի BN- ն և BE- ն ընդդեմ. ծալովի փոփոխման սյուժեներ: PDE- ի նվազումը հողամասերը կտեղափոխի աջ և ներքև, մինչդեռ pDE- ի ավելացումը հողամասերը կտեղափոխի ձախ և վեր ՝ x- և յ- կացիններ, համապատասխանաբար.

Նկար. 1. The BN (Lonnstedt & amp Speed, Reference Lonnstedt and Speed ​​2002 Smyth, Reference Smyth 2004), BL (Bhowmick et al., Reference Bhowmick, Davison, Goldstein and Ruffieux 2006) և Bayes EVD խառնուրդի էմպիրիկ մոդելի (BE) վիճակագրությունը գծագրված է գեների մակարդակում գծային մոդելների համապատասխանող կոնտրաստային գնահատողների դեմ, «alpha_g» (նշվում է ինչպես տեքստում), որը նույնպես թարգմանվել է ծալովի: փոփոխություններ (FC) և հակառակ Կազմիերչակի հաղորդած արդյունքների et al. (Հղում Kazmierczak, Mithoe, Boor and Wiedmann 2003): «K» և հարակից իրավունքը յ-առանցքները ցույց են տալիս, թե արդյոք Kazmierczak et al. (Հղում Kazmierczak, Mithoe, Boor and Wiedmann, 2003) հաղորդում է գենը որպես DE («այո») կամ ոչ («ոչ»): «NeBC» = նորմալ-ցուցիչ կոնվոլյացիայի ֆոնի ուղղման մեթոդ: «MBC» = ֆոնի բազմապատկման ուղղման մեթոդ: Երկու հորիզոնական գծված գծերը (փակում են ստվերված տարածքը) ցույց են տալիս OT-ի 5-րդ և 95-րդ տոկոսները BE-ի վիճակագրության համար, որը գնահատվում է FDR-ի համար՝ ամրագրված 0-ի վրա: «FNR=(,)»-ը նշանակում է կեղծ բացասական ցուցանիշ (5-րդ և 95-րդ տոկոսը)՝ կապված OT.

Աղյուսակ 1-ում ներկայացված են տվյալների բնութագրերը և հիպերպարամետրերի արժեքները, որոնք գնահատվել են չորս մոդել-տվյալների հավաքածուներից յուրաքանչյուրի համար: BL մեթոդի ոչ միանշանակ արդյունքները, հավանաբար, պայմանավորված են, գոնե մասամբ, շատ բարձր գնահատված հավանականությամբ, որ գենը DE է (w=1 Աղյուսակ 1): BN, BL և BE մեթոդների միջև շեղումների նախորդ բաշխումները բավականին կայուն են թվում, բացառությամբ BL մեթոդի համար գնահատված սանդղակի պարամետրի մոտավորապես կրկնակի արժեքի `համեմատած BN և BE մեթոդների հետ: Հակառակ դրան, նախորդ շեղումները էականորեն տարբերվում են ֆոնային ուղղման մեթոդների միջև ՝ ավելի նեղ լինելով MBC- ով ուղղված տվյալների համար, ինչը կարող է բացատրել MBC- ից հետո BN, BL և BE վիճակագրության ավելի հարթ գծագրերը: Բացի այդ, հետաքրքիր է, որ տեխնիկական կրկնօրինակների միջև հարաբերակցությունը հակված է ավելի բարձր լինել NeBC-ից հետո, քան MBC-ն, ինչը ցույց է տալիս այս երկու ընթացակարգերի միջև եղած տարբերությունը:

Աղյուսակ 1. Մոդելային պարամետրերի և հիպերպարամետրերի սահմանումներ էմպիրիկ Bayes EVD խառնուրդի մոդելում (BE) և Lonnstedt & amp Speed ​​(Reference Lonnstedt and Speed ​​2002) մոդելները ՝ փոփոխված Smyth (Reference Smyth 2004) (BN) և Bhowmick et al. (Հղում Bhowmick, Davison, Goldstein and Ruffieux 2006) (BL)

a NeBC=նորմալ-էքսպոնենցիալ կոնվուլյացիայի ֆոնի ուղղման մեթոդ բ MBC=բազմապատկիչ ֆոնի ուղղման մեթոդ գ DE = տարբերակված արտահայտված դ EVD = ծայրահեղ արժեքի բաշխում ե IG = հակադարձ գամմա բաշխում զ N=նորմալ բաշխում է L=Լապլասի բաշխում ժ w= հավանականությունը, որ գենը գնահատվում է որպես BL մեթոդի մաս (նշեք, որ BN և BE վիճակագրությունը օգտագործում է ֆիքսված, օգտագործողի կողմից սահմանված pDE):

BE- ի վիճակագրության մեջ օպտիմալ շեմի (OT) բնական ընտրությունը, որից բարձր գենը կարելի է համարել DE, 0 է: Վիճակագրական թեստի մեկնաբանման կանոն ընտրելու բնորոշ մոտեցումն է վերահսկել I տիպի սխալի հավանականությունը ՝ պահպանելով որոշակի հզորություն: Խելամիտ, հզոր և հեշտ մեկնաբանվող (Վերհովեն et al., Reference Verhoeven, Simonsen and McIntyre 2005) I տիպի սխալը վերահսկելու մեթոդը, երբ կատարվում են բազմաթիվ վիճակագրական թեստեր, կեղծ հայտնաբերման արագությունն է (FDR) (Benjamini & Hochberg, Reference Benjamini and Hochberg 1995): FDR- ը DE- ի ընտրված գեների սխալների ակնկալվող մասն է: Քանի որ ցածր FDR- ն հաճախ գալիս է ցածր զգայունության կամ հզորության գնով (այսինքն ՝ բարձր կեղծ բացասական դրույքաչափով (FNR)), դրանք պետք է համատեղ վերահսկվեն (Pawitan et al., Reference Pawitan, Michiels, Koscielny, Gusnanto and Ploner 2005): Որովհետեւ Կազմիերչակը et al. (Reference Kazmierczak, Mithoe, Boor and Wiedmann 2003) հաշվի առնելով այն գեները, որոնք նախապես ընտրվել էին իրենց ակնկալվող դիֆերենցիալ արտահայտման համար, մենք ընտրեցինք FDR = 0, այսինքն ՝ ոչ մի կեղծ դրական բան ընդունելի չէր: BE- ի OT- ն (դրա 5-րդ և 95-րդ տոկոսները) որոշվել է մոդելային տվյալների հավաքածուի յուրաքանչյուրի համար մոդելավորման վերլուծության միջոցով (ենթադրելով, որ ԿDՄԻ-ում հաղորդված pDE- ները et al. (Reference Kazmierczak, Mithoe, Boor and Wiedmann 2003) ճշմարիտ են), և ցուցադրված է նկ. 1 -ում ՝ հարակից FNR- ի հետ միասին: Գեները, որոնց BE- ի վիճակագրությունը OT- ի 95 -րդ տոկոսից բարձր էր, կարելի է բարձր վստահությամբ համարել DE: OT- ի 5 -րդ և 95 -րդ տոկոսային միավորների միջև BE վիճակագրություն ունեցող գեները, ամենայն հավանականությամբ, DE են: BE- ն իսկապես բարձր էր (OT- ի 95 -րդ տոկոսից բարձր) որոշ գեներ, որոնք նախկինում չճանաչված էին Կազմիերչակի կողմից et al. (Հղում Kazmierczak, Mithoe, Boor and Wiedmann 2003), մինչդեռ գեներից մի քանիսը նախկինում որպես DE հաղորդում էին Kazmierczak-ի կողմից et al. (Reference Kazmierczak, Mithoe, Boor and Wiedmann 2003) ցածր են դասվել (OT- ի 5 -րդ տոկոսից ցածր): Այնուամենայնիվ, BE մեթոդի գտածոները վավերացվել են այլ անկախ ուսումնասիրությունների կողմից `գեների մեծ մասի համար, որոնց համար BE մեթոդի արդյունքը տարբերվում է Կազմիերչակի հաղորդածներից et al. (Հղում Kazmierczak, Mithoe, Boor and Wiedmann 2003) (մշակված է Հավելվածում):


Երկու պայմանների վերլուծություն կրկնօրինակներով

Գիտական ​​փորձերը սովորաբար կրկնվում են `փորձարարական սխալի ազդեցությունը մեղմելու համար: Միկրոազանգերի փորձարկումները կարող են նաև օգուտ քաղել նմուշների կրկնությունից `պատահական տատանումների կամ աղմուկի ազդեցությունը նվազեցնելու համար: Կրկնվող միկրոզանգվածային փորձերի ժամանակ մենք կարող ենք ընտրել կա՛մ մեկ բջիջի տեսակի կամ հյուսվածքի նոր նմուշառում, կա՛մ նմանատիպ բջիջների տեսակներից կամ հյուսվածքներից: Նախկին ռազմավարությունը մեղմացնում է «չիպերի աղմուկի» խնդիրը, կամ տատանումները ՝ կապված միկրոզանգվածների արտադրության տատանումների և դրանց հիբրիդացման հետ: Վերջին ռազմավարությունը մեղմացնում է «կենսաբանական աղմուկի» խնդիրը կամ տատանումները ՝ կապված տարբեր կենսաբանական նմուշների փոփոխականության հետ:

Չիպերի աղմուկի վերաբերյալ վերջերս կատարված ուսումնասիրությունը ցույց է տալիս, որ միկրոզանգվածի փորձերի միջև կարող է էական փոփոխականություն լինել, նույնիսկ եթե նմուշները վերցվում են նույն աղբյուրից 42: Իրականում, այս ուսումնասիրությունը ուսումնասիրեց ոչ միայն չիպ-չիպ-ի տատանումներ, այլ ներ-չիպային տատանումներ `կիրառելով մեկ նմուշ հատուկ cDNA զանգվածի վրա` նույն սահիկի երեք տեղերում 288 բիծ տպված երեք կրկնությամբ: Հեղինակները փորձը նախագծել են այնպես, որ 288 կետերից ճիշտ 32-ը պետք է արտահայտվեն: Երեք կրկնությունների վերաբերյալ նրանց վերլուծությունը ցույց տվեց, որ բծերից 55, 36 և 58 -ը, կարծես, արտահայտված են, և որ երեք կրկնությունների մեջ զգալի անհամապատասխանություն կա:

Որքան էլ զգալի լինի չիպերի աղմուկը, կենսաբանական աղմուկը, հավանաբար, ավելի մեծ կլինի: Վերջերս կատարված ուսումնասիրություններից 46-ը գնահատել են տեղ-տեղ, սահիկ-սահել և կենդանուց-կենդանուն փոփոխականություն մկների լյարդի հյուսվածքների համար: Այս ուսումնասիրությունը չափել է կետից կետ փոփոխականությունը՝ դիտելով նույն սլայդի վրա կրկնվող բծերը և պարզել է, որ փոփոխության գործակիցը (ստանդարտ շեղումը բաժանված է միջինի վրա) 8–18%՝ կախված կոնկրետ գենից: Սահիկ-սահիկ փոփոխականությունը նման էր 15%-ին: Սակայն կենդանիներից կենդանիների փոփոխականությունն ավելի մեծ էր՝ տատանվում էր 18-60%-ի սահմաններում՝ կախված կոնկրետ գենից:

Շատ հարցեր, որոնք մենք քննարկել ենք երկու նմուշի դեպքում, օրինակ՝ կողմնակալության ուղղումը, մնում են կարևոր կրկնվող փորձերի համար, թեև մենք դրանք հետագայում չենք քննարկելու: Հաճախ երկու նմուշի մեթոդները կարող են ընդհանրացվել կրկնվող փորձերը վարելու համար: Օրինակ, մենք կարող ենք ընդլայնել կողմնակալության ուղղման մեթոդները `նորմալացնելով մի շարք Ն նմուշներ, այլ ոչ թե մեկ նմուշ մյուսի դեմ: Այս դեպքում լուծումը ներառում է նորմալացման կորի կամ գծի տեղադրում Ն-ծավալային տարածք:

Կրկնվող նմուշների համեմատություն

Երկու պայմանների նմուշները կարող են համեմատվել ՝ օգտագործելով տ-թեստ 39: The տ-թեստը չափում է երկու ընտրանքային միջոցների միջև եղած տարբերությունը `հիմնվելով փոփոխականության կամ ստանդարտ սխալի վրա` ընտրանքային միջոցի մեջ: Բանաձևեր տ-թեստը կարելի է գտնել վիճակագրության դասագրքերում երկու դեպքում `հավասար շեղում և անհավասար շեղում նմուշների երկու հավաքածուների միջև: Անհավասար շեղման ենթադրությունը, կարծես, ավելի տեղին կլինի գենային արտահայտման վերլուծության համար, հատկապես, եթե ակտիվ գեները գենային արտահայտման ավելի մեծ փոփոխականություն ունեն, քան ոչ ակտիվները:

Բացի այդ, կա տարբերակ տ- զուգակցված նմուշների թեստ: Այս տարբերակը կարող է կիրառելի բիոպսիայի համապատասխան նմուշների վրա, այսինքն, երբ նորմալ և ուռուցքային հյուսվածքները ստացվում են նույն հիվանդից: Նման նմուշներ կարելի է ստանալ վիրաբուժական ուռուցքի հեռացման կենտրոնից և եզրերից: Համապատասխան նմուշների առավելությունն այն է, որ դրանք վերացնում են հիվանդների կամ կենդանիների միջև փոփոխականությունը և դրանով իսկ համեմատությունները դարձնում ավելի զգայուն:

The տ- թեստը ենթադրում է, որ կրկնվող տվյալները ունեն հիմքում ընկած նորմալ բաշխում: Այս ենթադրությունը որոշ չափով ողջամիտ է, հատկապես, եթե կրկնվող նմուշները համեմատաբար միատարր են: Նկատի ունեցեք, որ այստեղ նորմալության ենթադրությունը տարբերվում է նորմալության ենթադրությունից, որը մենք նախկինում քննարկել էինք երկու նմուշի դեպքում: Այդ քննարկման ժամանակ մենք դիտարկեցինք հարաբերական արտահայտման արժեքների բաշխումը տարատեսակ գեների վրա տվյալ նմուշում, այլ ոչ թե տվյալ գենի համար միատարր կրկնօրինակ նմուշների վրա: Շատ դեպքերում մենք ունենք համեմատաբար քիչ կրկնվող նմուշներ, և նորմալ լինելը դժվար է միայն տվյալների մի քանի կետերում 39: Հետևաբար, մենք հաճախ ընդունում ենք նորմալության ենթադրությունը, քանի որ հակառակն ապացուցելը դժվար է:

Եթե ​​նորմալության ենթադրությունը, այնուամենայնիվ, ուժի մեջ է, ապա տվիճակագրությունը կարելի է համեմատել համապատասխանի հետ տբաշխումը որոշելու ա էջ արժեքը: Այնուամենայնիվ, մենք պետք է զգույշ լինենք հանձնարարության հարցում էջ արժեքներ այն տվյալների համար, որոնք ենթարկվել են նորմալացման կամ կողմնակալության ուղղման: Այս պրոցեդուրաները փորձում են նմուշներում արտահայտման մակարդակները մոտավորապես նույնը դարձնել՝ դրանով իսկ արհեստականորեն նվազեցնելով փոփոխականության քանակը: Իր հերթին, փոփոխականության ավելի ցածր արժեքները հանգեցնում են ավելի բարձր տ արժեքներ և մեծ թվով կեղծ դրական արդյունքներ:

Դեռ պարզ չէ, թե ինչպես լավագույնս հանձնարարել էջ արժեքները տվյալների նորմալացումից հետո կամ երբ նորմալ ենթադրությունը չի գործում: Հնարավորություններից մեկը վերընտրանքի մեթոդի կիրառումն է, որը հիմնված է փոխակերպման թեստի վրա 45: Apermutation test-ը ստեղծում է bootstrap նմուշներ՝ պատահականորեն վերաբաշխելով կատեգորիաների պիտակները: Օրինակ, ենթադրենք, որ տվյալները ստացված են չորս ուռուցքային և չորս նորմալ նմուշներից: Յուրաքանչյուր bootstrap նմուշում, յուրաքանչյուր գենի համար, մենք ստեղծում ենք չորս ուռուցքային պիտակների և չորս նորմալ պիտակների փոխարկում և այդ պիտակները վերագրում ենք արժեքներին՝ նախքան հաշվարկելը: տ վիճակագրական Extremeայրահեղության բաշխումը տ վիճակագրությունը ցույց է տալիս համապատասխանը էջ նշանակելու նշանակություն: Այս տեսակի վերլուծությունները ներկայումս ուսումնասիրվում են մի քանի հետազոտողների կողմից:

Ոչ պարամետրային մեթոդներ

The տ-թեստը պարամետրային մոտեցման օրինակ է, քանի որ այն կախված է որոշակի պարամետրերից, ինչպիսիք են հիմքում ընկած նորմալ բաշխումների շեղումները: Մենք կարող ենք նաև դիտարկել խնդրի ոչ պարամետրիկ մոտեցում, որտեղ մենք չենք ենթադրում, որ տվյալները հետևում են բաշխման որևէ տիպի: Ոչ պարամետրային թեստում մենք փոխարինում ենք քանակական արտահայտության արժեքները շարքերով կամ ճիշտ-սխալ գնահատականներով և օգտագործում ենք այս նոր արժեքները որոշ վիճակագրություն հաշվարկելու համար:

Ստանդարտ ոչ պարամետրային թեստը, որն օգտագործվել է միկրոզանգվածի տվյալները վերլուծելու համար, Mann-Whitney թեստն է: Այս թեստում մենք խմբավորում ենք երկու նմուշների արժեքները և հաշվարկում յուրաքանչյուր նմուշից ստացվող դասակարգումների գումարը: Եթե ​​այս վարկանիշային գումարի վիճակագրությունը փոքր կամ ավելի մեծ է, քան մենք կակնկալեինք զրոյական վարկածի ներքո, ապա նմուշները վիճակագրորեն տարբերվում են միմյանցից այս գենի համար: Շարքեր օգտագործելու փոխարեն, մենք կարող ենք հաշվարկել աստիճանների գումարի վիճակագրությունը `օգտագործելով տվյալների ճշմարիտ -կեղծ համեմատություններ, մասնավորապես` 1 -ին և 2 -րդ ընտրանքների արժեքների բոլոր զույգերը գնահատելով:

Դասակարգումը և զույգերի ձևակերպումը մաթեմատիկապես համարժեք են: Այնուամենայնիվ, զույգ ձևակերպումը հատկապես տեղին է Affymetrix զանգվածների համար: Affymetrix ծրագրակազմը օգտագործում է սեփականության ալգորիթմ ՝ զոնդերի զույգերի զույգերը դատելու համար, ինչը հանգեցնում է որակական տարբերության զանգի, որն ընդունում է հինգ հնարավոր արժեքներից մեկը. Մենք կարող ենք օգտագործել այս որակական կանչերը Mann-Whitney թեստի զույգ ձևակերպման մեջ՝ վարկանիշային գումարի վիճակագրությունը հաշվարկելու համար:

Մեր հաստատությունում մենք օգտագործել ենք Ման -Ուիթնիի մեթոդը `գերարտահայտված գեները բացահայտելու համար: Կապտոպրիլի ազդեցությունը սրտի գենի արտահայտման վրա որոշելու փորձի ընթացքում իմ գործընկերները ուսումնասիրեցին առնետների սրտի հյուսվածքը, որոնցում սրտամկանի ինֆարկտը (ՄԻ) վիրահատական ​​վիրահատության ենթարկվեց 47: Վեց նմուշ վերցված էին կապտոպրիլով բուժված առնետներից, իսկ վեցը չմշակված առնետներից: Բացի այդ, եղել է նաև վեց նմուշ վերահսկիչ առնետներից, որոնք ստացել են միայն կեղծ վիրահատություն: MI- նմուշների կեղծ նմուշների զույգ համեմատությունը `օգտագործելով Mann -Whitney մեթոդը, հայտնաբերեց 37 գեն, որոնք զգալիորեն առաջացել էին, իսկ վեցը` զգալիորեն ճնշվել: Կապտոպրիլով բուժվող ՄԻ նմուշների մեկ այլ զույգ համեմատությունը չբուժված ՄԻ նմուշների հետ ցույց տվեց, որ 37 գեներից տասը հակադարձել են գենի արտահայտման իրենց փոփոխությունները:

Ման-Ուիթնիի մեթոդով բացահայտված գենային արտահայտման փոփոխությունները հաստատվել են TaqMan հաջորդականության դետեկտորի միջոցով քանակական PCR- ի միջոցով ՝ ցույց տալով, որ Մանն-Ուիթնիի մեթոդը տալիս է մի քանի կեղծ-դրական արդյունքներ: Այնուամենայնիվ, քանի որ տարբերությունների կանչերը որակական են և որոշ չափով պահպանողական, Mann -Whitney մեթոդը, ըստ երևույթին, համեմատաբար անզգայուն է գենի արտահայտման իրական փոփոխությունները բացահայտելու համար:

Պայմանների ենթատեսակների հայտնաբերում

Կրկնօրինակ նմուշներ իրականացնելիս մեզ կարող է հետաքրքրել ոչ միայն փոփոխականության նվազեցումը, այլև այն ուսումնասիրելը: Մենք կարող ենք ցանկանալ իմանալ, օրինակ, արդյոք մենք կարող ենք հայտնաբերել ենթատիպեր կրկնվող նմուշների մեջ: Չնայած մեր կրկնօրինակված նմուշներն ի սկզբանե ընտրվել են նման լինելու համար, դրանք իրականում կարող են լինել տարասեռ ՝ բաղկացած երկու կամ ավելի ենթատեսակներից: Տվյալներից նախկինում անհայտ ենթատիպերի հայտնաբերումը օրինակի չվերահսկվող ճանաչման օրինակ է, որի համար կլաստերային վերլուծությունը նախատիպային մեթոդ է: Կլաստերային վերլուծությունը լայնորեն կիրառվել է միկրոզանգվածի տվյալների վրա 30, սովորաբար գեների ենթախմբերը բացահայտելու համար, այլ ոչ թե նմուշները: Այնուամենայնիվ, վերջին ուսումնասիրությունները սկսել են օգտագործել կլաստերային վերլուծություն՝ նմուշների ենթախմբերը բացահայտելու համար: This type of cluster analysis is useful in identifying candidate genes, because some genes are expressed only in particular tissue subtypes. Knowing these subtypes allows us to refine our search for genes of interest.

There are several methods for performing cluster analysis and many have already been applied to microarray data for clustering genes, including hierarchical clustering 16 , 48 , 49 , k-means clustering 50-52 , and self-organizing maps 53 , 54 . In addition, new types of cluster analysis techniques are being developed specifically for microarray data 55 , 56 . Cluster analysis methods differ along several attributes 57 . They can be either hierarchical or partitional, depending on the type of structure that they impose on the data. A hierarchical classification organizes the data into a dendrogram or tree structure, whereas a partitional method organizes the data into a single collection of groups. A hierarchical clustering specifies a sequence of nested partitions and we can obtain a single partition by cutting the dendrogram at a particular level.

Clustering algorithms can also be distinguished by whether they operate in an agglomerative or a divisive fashion. An agglomerative algorithm starts with each individual data element in its own cluster and then combines them to form larger clusters. In contrast, a divisive algorithm starts with the entire set of data in a single cluster and then subdivides the cluster to form smaller clusters. In order to perform a clustering analysis, we need to assess the similarity of two samples. Specifically, we require some function that takes two expression signatures (as defined in Figure 1) and produces some distance measure. The goal of cluster analysis is to produce clusters where this distance measure is small within clusters and large between clusters.

One example of sample clustering is a recent analysis of adult lymphoid malignancy 58 . In this analysis, researchers studied 96 samples of normal and malignant lymphocytes, including samples from patients with diffuse large B-cell lymphoma (DLBCL), follicular lymphoma (FL), and chronic lymphocytic leukaemia (CLL). Although these lymphomas are known to be distinct clinically, they were considered to be a single set of replicate samples for cluster analysis.

Hierarchical clustering of the data showed that FL and CLL samples were relatively similar to normal B-cells. However, DLBCLs had higher expression of several genes, especially those involved in cellular proliferation. Lower levels of the dendrogram revealed the presence of two distinct subtypes of DLBCLs, according to their expression signatures. One subtype had an expression signature similar to germinal centre B-cells and the other resembled activated peripheral blood B-cells. Interestingly, these subtypes of DLBCLs appeared to correlate with clinical outcome, with patients with germinal centre-like DLBCL having better survival rates than those with activated B-cell-like DLBCL.


Discussion and conclusions

Սիլիկոյում analysis gives reliable guidelines on algorithms’ performance in line with the results obtained on real data sets: ARACNE performs well for steady-state data and can be applied also when few experiments are available, as compared with the number of genes, but it is not suited for the analysis of short time-series data. This is to be expected owing to the requirement of statistically independent experiments. Banjo is very accurate, but with a very low sensitivity, on steady-state data when more than 100 different perturbation experiments are available, independently of the number of genes, whereas it fails for time-series data. Banjo (and Bayesian networks in general) is a probabilistic algorithm requiring the estimation of probability density distributions, a task that requires large number of data points. NIR works very well for steady-state data, also when few experiments are available, but requires knowledge on the genes that have been perturbed directly in each perturbation experiment. NIR is a deterministic algorithm, and if the noise on the data is small, it does not require large data sets, as it is based on linear regression. Clustering, although not a reverse-engineering algorithm, can give some information on the network structure when a large number of experiments is available, as confirmed by both սիլիցիումի մեջ and experimental analysis, albeit with a much lower accuracy than the other reverse-engineering algorithms.

The different reverse-engineering methods considered here infer networks that overlap for about 10% of the edges for small networks, and even less for larger networks. Interestingly, if all algorithms agree on an interaction between two genes (an edge in the network), this interaction is not more likely to be true than the ones inferred by a single algorithm. Therefore it is not a good idea to ‘trust’ an interaction more just because more than one reverse-engineering algorithm finds it. Indeed, the different mathematical models used by the reverse-engineering algorithms have complementary abilities, for example ARACNE may correctly infer an interaction that NIR does not find and vice versa hence in the intersection of the two algorithms, both edges will disappear causing a drop in sensitivity without any gain in accuracy (PPV). Taking the union of the interactions found by all the algorithms is not a good option, as this will cause a large drop in accuracy. This observation leads us to conclude that it should be possible to develop better approaches by subdividing the microarray dataset in smaller subsets and then by applying the most appropriate algorithm to each microarray subset. How to choose the subsets and how to decide which is the best algorithm to use are still open questions.

A general consideration is that the nature of experiments performed in order to perturb the cells and measure gene expression profiles can make the task of inference easier (or harder). From our results, ‘local’ perturbation experiments, that is, single gene overexpression or knockdown, seem to be much more informative than ‘global’ perturbation experiments, that is, overexpressing tens of genes simultaneously or submitting the cells to a strong shock.

Time-series data allow one to investigate the dynamics of activation (inhibition) of genes in response to a specific perturbation. These data can be useful to infer the direct molecular mediators (targets) of the perturbation in the cell ( Bansal et al, 2006 ), but trying to infer the network among all the genes responding to the perturbation from time-series data does not yield acceptable results. Reverse-engineering algorithms using time-series data need to be improved. One of the reasons for the poor performance of time-series reverse-engineering algorithms is the smaller amount of information contained in time-series data when compared with steady-state data. Time-series are usually measured following the perturbation of one or few genes in the cell, whereas steady-state data are obtained by performing multiple perturbations to the cell, thus eliciting a richer response. One way to improve performance in the time-series case is to perform more than one time-series experiment by perturbing different genes each time, but this may be expensive another solution could be to perform only one perturbation experiment but with a richer dynamics, for example the perturbed gene should be overexpressed and then allowed to return to its endogenous level, while measuring gene expression changes of the other genes. Richer dynamics in the perturbation will yield richer dynamics in the response and thus more informative data.

Gene network inference algorithms are becoming accurate enough to be practically useful, at least when steady-state gene expression data are available, but efforts must be directed in assessing algorithm performances. In a few years, gene network inference will become as common as clustering for microarray data analysis. These algorithms will become more ‘integrative’ by exploiting, in addition to expression profiles, protein–protein interaction data, sequence data, protein modification data, metabolic data and more, in the inference process ( Workman et al, 2006 ).


Prediction of radiation sensitivity using a gene expression classifier

The development of a successful radiation sensitivity predictive assay has been a major goal of radiation biology for several decades. We have developed a radiation classifier that predicts the inherent radiosensitivity of tumor cell lines as measured by survival fraction at 2 Gy (SF2), based on gene expression profiles obtained from the literature. Our classifier correctly predicts the SF2 value in 22 of 35 cell lines from the National Cancer Institute panel of 60, a result significantly different from chance (P = 0.0002). In our approach, we treat radiation sensitivity as a continuous variable, significance analysis of microarrays is used for gene selection, and a multivariate linear regression model is used for radiosensitivity prediction. The gene selection step identified three novel genes (RbAp48, RGS19, and R5PIA) of which expression values are correlated with radiation sensitivity. Gene expression was confirmed by quantitative real-time PCR. To biologically validate our classifier, we transfected RbAp48 into three cancer cell lines (HS-578T, MALME-3M, and MDA-MB-231). RbAp48 overexpression induced radiosensitization (1.5- to 2-fold) when compared with mock-transfected cell lines. Furthermore, we show that HS-578T-RbAp48 overexpressors have a higher proportion of cells in G2-M (27% versus 5%), the radiosensitive phase of the cell cycle. Finally, RbAp48 overexpression is correlated with dephosphorylation of Akt, suggesting that RbAp48 may be exerting its effect by antagonizing the Ras pathway. The implications of our findings are significant. We establish that radiation sensitivity can be predicted based on gene expression profiles and we introduce a genomic approach to the identification of novel molecular markers of radiation sensitivity.


Քննարկում

Our goal was to explore the relationship between microarray expression data and the expression data reported in the literature because in our daily work both of these data sources are used as complementary sources of information. From the therapeutic point of view, for example, every DEG in disease is a potential point of intervention or target. Thus, the sole use of microarray data or of the literature could lead to missing out on potential targets that appear in one source and not the other. For instance, EGFR does not appear upregulated in the PS microarray dataset, while it is one of the most frequently mentioned upregulated genes in the PS literature dataset. On the other hand, defensin beta 4B (DEFB4B) does not appear in the PS literature dataset despite showing the second-highest level of overexpression in the PS microarray dataset.

Our strategy for gathering microarray data was to select one dataset for each disease of interest, each dataset created with the same platform to avoid variability across manufacturers. For literature data, our approach was to gather a representative sample of the literature, rather than to create an exhaustive representation. We, moreover, focused on abstracts, rather than on full text articles, due to limited full text availability. Thus, the true number of statements regarding differential expression in the literature is larger than what is reported here.

The fact that more literature results were oriented towards overexpression than underexpression, unlike in microarray data, indicates a scientific bias towards reporting overexpression. This bias could be related to the fact that most drugs are inhibitors and therefore an overexpressed gene is more likely to represent a potential target. Since, in principle, downregulation may have as much functional importance in disease as upregulation, this bias could be distorting in our understanding of diseases.

We also noted that popular genes tend to be more often described in the literature as overexpressed in disease, an effect that is much milder or non-existent for overexpressed genes from microarray data. This could explain partially why differential expression similarities between diseases are higher within the literature in comparison to microarray data. The quest for higher research impact could be one of the drivers for the additional attention paid to popular genes [31,32,33], leading to further amplification of their presumed biological importance beyond actual biological evidence.

Our analysis also hints that our perception of the level of similarity between certain diseases could be biased by general properties of the diseases that are not reflected in the expression data. Thus, PS and AD, which share anatomical location, appear more similar in the literature than UC and AD, contrary to what is reflected in microarray data.

We also found that microarray data and the literature can produce divergent views of the pathological mechanisms driving diseases depending on the fold-change cutoff. For FC > 0, the functional classes associated to overexpressed genes in the literature can be very different from those associated to microarray data. As the threshold for FC increases, the similarity between the literature and microarray data increases, which is then reflected in higher LR+ values and overlapping functional classes.

One explanation for the divergences between microarray data and the literature comes obviously from the differences in experimental settings. Expression data from the literature stem from a variety of sources involving methods such as immunohistochemistry, flow cytometry, in situ hybridization, RT-PCR, next-generation sequencing--and also microarrays. Each of these sources differs in level of granularity and molecule measured (e.g. mRNA vs. protein). On the other hand, even though all microarray data in our study came from the same platform from the same manufacturer, and each dataset was created within a single research study, microarray data variability has been shown to be a challenge for reproducibility [34,35,36,37].

Moreover, because experiments in the literature can be more fine-grained than microarray studies, it is possible that a gene might be found to be upregulated in some parts of a diseased tissue and downregulated in others, confounding the simplified representation used here and hampering comparisons with microarray data.

One additional aspect not considered in this study was the historical dimension. High-throughput techniques have been gaining in popularity only recently therefore older publications would have been less affected by findings coming from high-throughput studies.


Նյութեր եւ մեթոդներ

A graphical representation of the performed analyses, depicting interrelations, is provided in Supplementary Fig. S5. All figures can be reproduced using the R script available at http://www.combine.rwth-aachen.de/index.php/resources.html.

Datasets and annotation

The Lukk dataset 4 , consisting of 5372 samples from the Affymetrix Human U133A microarray platform, and the corresponding sample annotation was downloaded in preprocessed form from ArrayExpress (http://www.ebi.ac.uk/arrayexpress/, accession number E-MTAB-62). The own dataset consisting of 7100 samples from the Affymetrix Human U133Plus 2.0 platform was compiled based on 108 public datasets from the Gene expression omnibus (GEO) database (http://www.ncbi.nlm.nih.gov/geo/, Supplemental Table S1). The raw data (CEL-files) were downloaded and preprocessed with Affymetrix Power Tools (http://www.affymetrix.com/estore/partners_programs/programs/developer/tools/powertools.affx) using the robust multi-array average (RMA) normalization method. The preprocessed dataset can be downloaded from http://www.combine.rwth-aachen.de/index.php/resources.html. The sample annotation was performed manually based on the description in the GEO database. Cancer cell lines and tissues were classified according to their primary tissue, leading to a less detailed distinction as in the Lukk dataset. This explains the reduced number of groups (192 instead of 369) in the own dataset compared to the Lukk dataset. In the latter, different cell lines and histologically different cancer tissues from the same primary site are classified into separate groups. The own dataset contains 213 արհեստական ​​պայմաններում (trans-) differentiated or teratoma samples which were not associated with any of the 192 groups.

Comparison of PCA results

Principal components analysis of the Lukk and the own dataset were calculated in R version 3.1.2 using the prcomp function of the վիճակագրություն փաթեթ. Subsequently, we compared the first three PCs of both datasets in order to determine whether they span similar spaces. For this analysis, we mapped the probes of the two platforms using the getBM function of the biomaRt package in R and performed linear regression analysis (R function lm of package վիճակագրություն) to explain the expression pattern of PCs 1 to 4 from the own dataset by the first three (first five, or first ten) PCs of the Lukk dataset. The resulting R 2 values were reported as similarity measure of the two spaces.

The selection of a subset of samples from the own dataset with similar sample distribution as the Lukk dataset was performed in the following way. We used all 482 hematopoietic samples in the own dataset and randomly selected 74 brain, 163 cell line, 40 incompletely differentiated, 48 muscle, and 587 other samples. These numbers were chosen to match the proportion of samples in each of these large-scale groups to the respective proportion in the Lukk dataset.

The investigation of the effect of reduced numbers of liver or liver cancer samples in the own dataset was performed on the complete dataset with only the number of liver (cancer) samples reduced. Thus, we used all 6825 non-liver samples together with the specified number of liver (cancer) samples and performed a PCA on the dataset. PCs 1–3 did not change significantly with increasing number of liver samples (data not shown). Therefore, we focused on the differences in the liver-specific PC 4.

Correlation analyses

The Pearson correlation of gene expression patterns between the 369 groups of the Lukk dataset as well as the 192 groups of the own dataset (Fig. 2a,d) was calculated between the vectors pointing from the overall mean of the entire dataset to the respective group mean. For the residual correlation after PCA-based decomposition (Fig. 2b,e), the residual vectors pointing from the three dimensional PCA space to the respective group means were used instead.

Within-group correlation was calculated in the same way between individual samples within one specific group. These calculations were performed for all groups that contain at least 10 samples. Depicted are the mean correlation values for each group (Fig. 2c,f).

Information ratio

The information ratio is described in detail in 3 and will be only briefly described here. The general idea is to decompose the expression data into two data matrices of the same size as the original data, one representing the projection onto the first three PCs and one representing the residual expression. For each of the two generated data matrices, the log-p-value between two groups, e.g. two different tissues, is calculated for each gene and plotted against the p-value of the original dataset. It is thus assessed which part of the expression difference between the two groups is captured by the first three PCs or the residual space, respectively. Strongly negative log-p-values are associated with high information content in the respective subspace. The p-values from the projected and residual space are then summarized into a single number ranging from 0 to 1, indicating whether most information is contained in the projected space (low IR values) or in the residual space (high IR values) 3 . This number can be interpreted as the proportion of group-specific information that is contained in the residual space.

Analysis of sample subsets

For the analysis of sample subsets we also used the decomposition into the projected and residual data matrices. We then concentrated on the residual data matrix and performed a PCA on the respective subset of data, i.e. the cancer subset or the brain subset. PCA successively identifies the direction of largest variability in the space orthogonal to the already identified directions. Therefore, it would not make sense to perform PCA on the complete residual matrix, since this would exactly identify the fourth, fifth, and all further PCs from the original dataset. However, performing PCA on a subset of data can reveal different directions. In our case, the first two PCs of this subset analyses had a clear biological meaning (Fig. 4) as opposed to the fourth PC of the original complete dataset (Supplemental Fig. S1). Thus, performing PCA on subsets of data can reveal additional biologically relevant dimensions.

Validation of the biological relevance of the newly identified dimensions was then performed using our own dataset. As a first step, the own data was projected onto the first three PCs of the Lukk dataset (Supplementary Fig. S3, Fig. 4b). In order to do this, probesets of the two different microarray platforms were matched using the biomaRt package in R. Afterwards, the mean value for each gene (from our own dataset) was subtracted and the data were orthogonally projected onto the three PCs of the Lukk dataset using scalar products between the loading vector of each PC and the gene expression vectors. In a second step, we concentrated on subsets of the own dataset that correspond to the two subsets from the Lukk dataset, i.e. consisting of colorectal, liver, and ovarian cancer samples, as well as hypothalamus, cerebral cortex, and cerebellum samples. For both of these subsets the residual expression matrix was determined by subtracting the information that is contained in the three PCs of the Lukk dataset. Afterwards, the residual expression vectors were projected onto the respective first two “residual subset PCs” that were identified based on the subset analysis of the Lukk dataset (Fig. 4b insets).

PhysioSpace analyses

For the PhysioSpace analyses the tissue-specific expression patterns that were determined based on the Human body index dataset (GEO accession GSE7307) were used 7 . Each individual sample of the Lukk dataset was compared to the overall mean of the Lukk dataset and the expression difference was projected onto the PhysioSpace as described in the original publication 7 . This results in 93 scores per sample that are associated with tissue specific expression. Eight of these scores were selected for visualization (Fig. 6) to exemplify the ability to detect additional clusters of samples that were partially not detectable by PCA.

Color-coding in Fig. 6 was performed according to the sample annotation provided by Lukk et al. 4 We detected some samples that were annotated as “kidney”, but which showed a low “kidney score” in the PhysioSpace (Fig. 6c). In addition, some samples annotated as “kidney” seemed to be similar to liver. We then went back to the original source of these samples (GEO accession GSE2004) and detected that these samples were wrongly annotated in the Lukk dataset (Fig. 6c).

In a similar way, we could detect that two samples annotated as “embryonic stem cell” in the Lukk dataset actually underwent an արհեստական ​​պայմաններում differentiation for 5 or 14 days (ArrayExpress accession E-MEXP-303, Fig. 6d).