Characteristics of gut microbiota of obese people and machine learning model
摘要: 【背景】 腸道菌群與人體健康之間的關(guān)系吸引了越來(lái)越多的關(guān)注,成為目前熱門(mén)的研究熱點(diǎn)。【目的】 基于美國(guó)腸道計(jì)劃公開(kāi)數(shù)據(jù)庫(kù),對(duì)肥胖和健康人群腸道菌群進(jìn)行比較分析,解析肥胖人群腸道菌群特征,并基于腸道菌群建立機(jī)器學(xué)習(xí)模型預(yù)測(cè)人群肥胖的狀態(tài),為基于腸道菌群干預(yù)肥胖提供理論基礎(chǔ)。【方法】 從公開(kāi)數(shù)據(jù)庫(kù)中獲取美國(guó)腸道計(jì)劃中的腸道菌數(shù)據(jù),經(jīng)過(guò)篩選得到1 655個(gè)健康(18.5 < BMI < 25)和898個(gè)肥胖(BMI > 30)成年人的腸道菌群數(shù)據(jù)。針對(duì)α多樣性,進(jìn)行了Wilcox秩和檢驗(yàn)分析并通過(guò)Logsitic回歸判定α多樣性與肥胖之間的關(guān)系;對(duì)Unweighted UniFrac、Weighted UniFrac和Bray-Curtis三種β多樣性距離進(jìn)行主成分分析(principal component analysis,PCA),探索肥胖與健康人群在腸道菌群組成上的差異;對(duì)于物種差異,進(jìn)行Wilcox秩和檢驗(yàn)探索差異菌屬;通過(guò)PICRUSt分析預(yù)測(cè)可能的代謝通路,同時(shí)與腸道菌群進(jìn)行相關(guān)性分析。利用Scikit-Learn軟件包基于屬水平的腸道菌群數(shù)據(jù)建立肥胖分類(lèi)機(jī)器學(xué)習(xí)模型,并進(jìn)行網(wǎng)絡(luò)搜索確定最佳模型參數(shù)?!窘Y(jié)果】 經(jīng)過(guò)Wilcox秩和檢驗(yàn),發(fā)現(xiàn)肥胖人群的α多樣性都較健康人群顯著下降,Logistic回歸表明α多樣性與人體肥胖狀態(tài)有相關(guān)性。經(jīng)過(guò)基于Weighted UniFrac、Unweighted UniFrac和Bray-Curtis三種距離的PCA,肥胖和健康人群的腸道菌群結(jié)構(gòu)上無(wú)明顯差異;在門(mén)水平上,肥胖人群中的Firmicutes和Bacteroidetes比值較低,在屬水平上共發(fā)現(xiàn)57個(gè)在兩組之間具有顯著性差異的屬,其中肥胖人群中的Ruminococcus相對(duì)豐度較高,而Prevotella、Akkermansia和Methanobacteriales的相對(duì)豐度較低;PICRUSt預(yù)測(cè)的代謝通路有63個(gè)代謝通路在兩組之間具有顯著差異;梯度提升回歸樹(shù)對(duì)于基于腸道菌群預(yù)測(cè)肥胖人群效果最好,受試曲線(xiàn)下與坐標(biāo)軸圍成的面積(area under curve,AUC)值可以達(dá)到0.769,測(cè)試集精度可以達(dá)到0.725?!窘Y(jié)論】 基于大規(guī)模的腸道菌群數(shù)據(jù)揭示了肥胖人群腸道菌群的特征,將機(jī)器學(xué)習(xí)運(yùn)用到肥胖預(yù)測(cè)上面,為精準(zhǔn)膳食、精準(zhǔn)醫(yī)療提供新的研究思路和理論基礎(chǔ)。
Abstract: [Background] The relationship between gut microbiota and human health has attracted much attention and became a popular research area. [Objective] To explore the feature of gut microbiota of obese people based on the American Gut Project. To provide a theoretical basis for the intervention of obesity based on gut microbiota by constructing machine learning models to predict the status of people obesity. [Methods] Total of 1 665 normal samples (18.5 < BMI < 25) and 898 (BMI > 30) obese samples were downloaded from the website of the American Gut Project (AGP). The Wilcox rank-sum analysis was performed to explore the alteration of alpha-diversity between the obese and normal group. In addition, the logistic regression was performed to explore the correlation between alpha-diversity of gut microbiota and obese. For beta-analysis, we performed the principal component analysis (PCA) to explore the difference in the structure of gut microbiota between obese and normal groups. For the phylogenetic profiles, we performed the Wilcox rank-sum analysis to detect any significantly different taxa between the two groups. The PICRUSt analysis was used to predict the pathway based on the 16S rRNA gene sequences. Then, the Wilcox rank-sum analysis was used to detect the significantly different pathway between the two groups. To find the correlation between these significantly different pathways and genus, we performed the correlation analysis. Finally, we used the Scikit-Learn packages in python to construct the machine learning model and used the AUC value as the standard to justify the performance of each model. [Results] The decreasing trend of alpha-diversity in the obese population compared to the healthy population was observed after the Wilcox rank-sum analysis. In addition, the correlation between the alpha-diversity and the statues of obese was confirmed using the logistics regression. As for the beta-diversity, we did not observe the significant difference of the structure of gut microbiota after PCA based on three beta-diversity distance matrix including Weighted UniFrac, Unweighted UniFrac and Bray-Curtis. For the phylum, the high relative abundance of Bacteroidetes and the low relative abundance of Firmicutes was observed in the obese group. Besides, a total of 57 genera was significantly different between the two groups after the Wilcox rank-sum analysis. The genus of Ruminococcus increased in the obese groups, but the genus of Prevotella, Akkermansia and Methanobacteriales decreased in the obese group. All the pathway which predicted by the PICRUSt analysis were performed the Wilcox-rank-sum analysis between two groups and a total of 63 significantly different pathways was observed. The gradient boosted regression tree (GBDT) had the best performance with the AUC value (0.769) and test precise (0.725) among other models. [Conclusion] This study revealed the feature of gut microbiota of obese population based on a large-scale data sets. Besides, this study also constructed the machine learning models based on gut microbiota to predict the status of obese, which provide the new idea and theory basis of personalized medicine and diet.
隨著肥胖的發(fā)生率越來(lái)越高,肥胖不再僅僅是個(gè)人健康問(wèn)題,同時(shí)也是一個(gè)嚴(yán)峻的社會(huì)問(wèn)題。有研究估計(jì),全球的超重人群[身體質(zhì)量指數(shù)(body mass index,BMI)在25.0-30.0之間]有10億多人,肥胖人群(BMI > 30.0)有3億多人[1],而這一數(shù)字隨著人們生活的水平提高將會(huì)越來(lái)越高。尤其在發(fā)展中國(guó)家,肥胖和超重人群的增長(zhǎng)更為迅速[2]。在中國(guó),有26.9% (25.7-28.1)男性和31.1% (29.7-32.5)女性的體重超重[3]。肥胖不僅對(duì)人們的生活造成諸多不便之處,同時(shí)也會(huì)增加罹患其他疾病的風(fēng)險(xiǎn),如心腦血管疾病、Ⅱ型糖尿病、冠心病等[3]。
腸道菌群對(duì)于人體的健康具有不可忽視的作用,近年來(lái)吸引了越來(lái)越多的研究者關(guān)注。一般來(lái)講,正常人體腸道內(nèi)微生物的數(shù)量大概在1011-1012之間[4-5]。人出生時(shí)就開(kāi)始從周?chē)h(huán)境中獲得腸道微生物[6-7],之后這些微生物便定殖在人體腸道中,與人體機(jī)能的正常運(yùn)轉(zhuǎn)息息相關(guān)。腸道中微生物的數(shù)量是人體細(xì)胞總和的10倍左右[5]。近年來(lái),國(guó)內(nèi)外許多研究已經(jīng)表明腸道菌群與宿主的消化、營(yíng)養(yǎng)、代謝和免疫等方面之間存在一定聯(lián)系,腸道菌群的紊亂與很多疾病之間存在關(guān)聯(lián)。比如,有大量的研究表明腸道菌群的紊亂與腸易激綜合征[8-9]、炎癥性腸炎[10-11]、結(jié)腸癌[12-13]、肥胖[14]和Ⅱ型糖尿病[15]之間具有一定的相關(guān)性。
肥胖與腸道菌群之間潛在的聯(lián)系近年來(lái)引起了許多研究者的關(guān)注。許多研究表明,腸道菌群的紊亂可能是造成肥胖的一個(gè)重要原因[6-7, 16]。有研究發(fā)現(xiàn)肥胖人群腸道中的Firmicutes/Bacteroidetes比值較低[17-18],然而有些研究卻發(fā)現(xiàn)相反的結(jié)果,如Mai等[19]的研究并未發(fā)現(xiàn)Firmicutes/Bacteroidetes比值與BMI之間存在著關(guān)聯(lián)。因此,關(guān)于Firmicutes和Bacteroidetes在肥胖人群腸道菌群中豐度的變化還需進(jìn)一步研究。在屬水平上,Schwiertz等[17]報(bào)道了在肥胖人群腸道中的Methanobrevibacter相對(duì)豐度較健康人群有所降低。
本研究從美國(guó)腸道計(jì)劃的公開(kāi)數(shù)據(jù)庫(kù)中選取健康和肥胖的成年人腸道菌群樣本。在樣本量較大的基礎(chǔ)上,從α多樣性、β多樣性、物種差異以及代謝功能等多方面系統(tǒng)地解析肥胖人群腸道菌群的特征,并基于腸道菌群數(shù)據(jù)建立了肥胖機(jī)器學(xué)習(xí)分類(lèi)模型,為以后進(jìn)一步了解肥胖與腸道菌群的關(guān)系提供基礎(chǔ)。同時(shí),通過(guò)更為深入地認(rèn)識(shí)肥胖人群腸道菌群特征以及建立機(jī)器學(xué)習(xí)模型,以期為基于腸道菌群來(lái)干預(yù)肥胖提供新的理論和方法。
1 材料與方法1.1 腸道數(shù)據(jù)來(lái)源
所用的數(shù)據(jù)來(lái)源于美國(guó)腸道計(jì)劃的公開(kāi)數(shù)據(jù)集[20],從中篩選出最終有效測(cè)序序列在1 250以上的腸道菌群樣本。之后,再?gòu)闹懈鶕?jù)BMI選取1 655個(gè)健康人群樣本和898個(gè)肥胖人群樣本。健康人群樣本的定義為:BMI在18.5-25.0之間,一年內(nèi)無(wú)抗生素藥物服用史、無(wú)炎癥性腸炎和糖尿病病史;肥胖人群的定義為BMI在30以上。α多樣性指數(shù)(Chao1指數(shù)、Observed otus指數(shù)、PD whole tree指數(shù)和Shannon指數(shù)),β多樣性(Unweighted和Weighted UniFrac距離)和OTU表均源于美國(guó)腸道計(jì)劃基于QIIME分析平臺(tái)得來(lái)。
1.2 數(shù)據(jù)分析方法
數(shù)據(jù)分析主要基于R 3.4.4平臺(tái),利用Wilcox秩和檢驗(yàn)對(duì)肥胖與健康人群的α多樣性、屬水平物種、預(yù)測(cè)代謝通路進(jìn)行差異分析。Logistic回歸用來(lái)檢驗(yàn)α多樣性與人體肥胖狀態(tài)的關(guān)聯(lián)。主成分分析(principal component analysis,PCA)用來(lái)比較分析基于3種不同β多樣性距離在兩組之間的差異,其中Bray-Curtis距離是利用Vegan軟件包[21]基于屬水平的OTU表計(jì)算得來(lái)。預(yù)測(cè)的代謝通路由PICRUSt軟件[22]結(jié)合KEGG數(shù)據(jù)庫(kù)[23]進(jìn)行預(yù)測(cè)注釋?zhuān)⑼ㄟ^(guò)R語(yǔ)言中Psych軟件包中的corr.test數(shù)進(jìn)行相關(guān)性分析。
1.3 機(jī)器學(xué)習(xí)模型建立方法
機(jī)器學(xué)習(xí)模型使用基于Python的Scikit-Learn機(jī)器學(xué)習(xí)平臺(tái)[24]而建立。選用核支持向量機(jī)、隨機(jī)森林、梯度提升回歸樹(shù)和Back propagation (BP)神經(jīng)網(wǎng)絡(luò)4種不同的機(jī)器學(xué)習(xí)算法進(jìn)行模型的建立,并使用網(wǎng)格搜索方法確定最佳參數(shù)。由于每個(gè)模型的參數(shù)種類(lèi)繁多,取值范圍大,將每個(gè)參數(shù)都考慮在內(nèi)顯然是不現(xiàn)實(shí)的,因此只選擇對(duì)于每個(gè)模型中影響最重要的參數(shù)進(jìn)行網(wǎng)絡(luò)搜索來(lái)確定最佳模型的參數(shù)。
影響核支持向量機(jī)性能最重要的參數(shù)是C和Gamma,其中C是懲罰函數(shù),其值決定了模型對(duì)于誤差的容忍程度。C值越大,則模型對(duì)于誤差的容忍度越差,模型容易過(guò)擬合;反之,模型容易欠擬合。Gamma值是徑向基函數(shù)(radial basis function, RBF)核自帶的一個(gè)參數(shù),主要隱含地決定了新特征的分布,Gamma值越大,支持向量越少,反之則支持的向量越多,而支持向量的數(shù)量會(huì)影響模型的復(fù)雜程度。
隨機(jī)森林是由許多個(gè)決策樹(shù)集合而來(lái)的,因此影響隨機(jī)森林的重要參數(shù)有決策樹(shù)的數(shù)目(n_estimators)和單顆決策樹(shù)可以使用的最大特征數(shù)目(max_features)。一般對(duì)于隨機(jī)森林而言,決策樹(shù)的數(shù)目總是越多越好,但是過(guò)多的決策樹(shù)會(huì)增加模型的復(fù)雜程度及造成計(jì)算開(kāi)銷(xiāo)過(guò)大。同樣地,單顆決策樹(shù)可以使用的最大特征越大,模型的效果越好,但是會(huì)造成決策樹(shù)的多樣性較低和計(jì)算開(kāi)銷(xiāo)過(guò)大。
梯度提升回歸樹(shù)需要調(diào)整的參數(shù)是決策樹(shù)的數(shù)目(n_estimators)和學(xué)習(xí)率(learn_rate)。與隨機(jī)森林不同,梯度提升回歸樹(shù)的性能并不強(qiáng)依賴(lài)于決策樹(shù)的數(shù)目,決策樹(shù)的數(shù)目不是越大越好。學(xué)習(xí)率是指梯度提升回歸樹(shù)中每顆決策樹(shù)對(duì)前一決策樹(shù)誤差的矯正程度,學(xué)習(xí)率越大,模型矯正效果越好,但同時(shí)也會(huì)增加計(jì)算開(kāi)銷(xiāo)。
BP神經(jīng)網(wǎng)絡(luò)選擇三層結(jié)構(gòu),其最主要的參數(shù)就是隱含層的節(jié)點(diǎn)數(shù)目。主要參考以下幾個(gè)經(jīng)驗(yàn)公式確定:
(1) (2) (3)其中,M為隱含層的節(jié)點(diǎn)數(shù),k為訓(xùn)練網(wǎng)絡(luò)的樣本數(shù),n是輸入層的節(jié)點(diǎn)數(shù),m為輸出層的節(jié)點(diǎn)數(shù),a為取值在[0, 10]之間的常數(shù)。
最終確定了每個(gè)模型的超參數(shù)空間。其中,SVM的超參數(shù)空間為:C=[0.1, 2],Gamma=[0.1, 2];對(duì)于隨機(jī)森林而言,n_estimators的取值分別為100、1 000、10 000,max_features的取值范圍分別為auto、log2、sqrt;對(duì)于梯度提升回歸樹(shù),n_estimators的取值與隨機(jī)森林相同,learn_rate的取值范圍為[0.1, 1],步長(zhǎng)為0.1。神經(jīng)網(wǎng)絡(luò)的隱含層取值分別為11、46、64。
本研究通過(guò)使用Scikit-Learn中將腸道菌群的數(shù)據(jù)劃分為兩部分,其中70%的樣本用于模型的訓(xùn)練,30%樣本用于模型的驗(yàn)證,并采用受試曲線(xiàn)下與坐標(biāo)軸圍成的面積(area under curve,AUC)值作為評(píng)判模型好壞的標(biāo)準(zhǔn)[25]。
2 結(jié)果與分析2.1 α多樣性分析
本研究中采用了Observed otus、Chao1、Shannon和PD whole tree四種α多樣性指數(shù)。其中,Observed otus和Chao1主要用來(lái)表示某一群落中的物種豐富度,Shannon指數(shù)則反映群落中的物種的穩(wěn)定性,PD whole tree主要反映物種進(jìn)化上的多樣性。通過(guò)Wilcox秩和檢驗(yàn)分析,4種α多樣性指數(shù)在肥胖人群腸道中都顯著降低(P < 0.01),表明肥胖人群中腸道微生物的豐富度和穩(wěn)定性都顯著低于健康人群(圖 1A)。

為了探究α多樣性指數(shù)是否與肥胖存在關(guān)聯(lián),利用Logistic回歸分析4種α多樣性與肥胖的關(guān)聯(lián)性(圖 1B)。結(jié)果表明,PD whole tree與人體的肥胖情況存在著強(qiáng)烈的相關(guān)性,表明腸道菌群多樣性的變化與肥胖存在關(guān)聯(lián)。
2.2 β多樣性分析
本研究中使用了3種不同的β多樣性距離:Unweighted UniFrac、Weighted UniFrac和Bray-Curtis距離。其中UniFrac距離的計(jì)算需要各個(gè)OTU的系統(tǒng)進(jìn)化樹(shù),通過(guò)計(jì)算進(jìn)化樹(shù)各物種的系統(tǒng)發(fā)育關(guān)系來(lái)計(jì)算樣本間的距離。Unweighted UnFrac和Weighted UniFrac距離的差別在于有無(wú)考慮不同環(huán)境樣本的相對(duì)豐度。Bray-Curtis距離主要基于OTU表的計(jì)數(shù)統(tǒng)計(jì),從而比較兩個(gè)群落微生物組成上的差異。通過(guò)PCA分析,我們發(fā)現(xiàn)肥胖人群和健康人群的腸道菌群在組成上沒(méi)有顯著的差異,說(shuō)明兩組人群的腸道菌群在結(jié)構(gòu)上相似(圖 2)。

2.3 肥胖和健康人群腸道菌群物種差異
門(mén)水平上,肥胖人群的腸道菌群中Firmicutes門(mén)的相對(duì)豐度小于健康人群,Bacteroidetes門(mén)的相對(duì)豐度大于健康人群。分別計(jì)算兩組人群中的Firmicutes/Bacteroidetes比值并進(jìn)行Wilcox秩和檢驗(yàn),發(fā)現(xiàn)肥胖人群腸道中的Firmicutes/Bacteroidetes比值小于健康人群(圖 3A)。

屬水平上,通過(guò)Wilcox秩和檢驗(yàn),并通過(guò)FDR對(duì)P值進(jìn)行矯正,從共2 038個(gè)屬中找出57個(gè)具有顯著差異(P < 0.01)的菌屬,將其中相對(duì)豐度排名前10的菌屬通過(guò)R語(yǔ)言中的ggplot2可視化,如圖 3B所示,可以看出Bacteroides屬(肥胖組:28.71%;健康組:24.27%),Blautia屬(肥胖組:3.01%;健康組:2.37%)和Parabacteroides屬(肥胖組:2.71%;健康組:2.17%)在肥胖人群腸道中的相對(duì)豐度較高,而Prevotella屬(肥胖組:3.83%;健康組:5.71%)和Faecalibacterium屬(肥胖組:6.53%;健康組:7.21%)的相對(duì)豐度在肥胖人群腸道中較低。除此之外,有可能作為下一代益生菌的Akkermansia屬在肥胖人群腸道中的含量也較低,其在肥胖人群腸道中的平均相對(duì)豐度為1.72%,而在健康人群腸道中的平均相對(duì)豐度為1.94%;Methanobrevibacter屬在肥胖人群腸道中的相對(duì)豐度也較低,僅為0.036%,而其在健康人群腸道中平均相對(duì)豐度為0.049%。
2.4 肥胖和健康人群腸道菌群代謝通路差異
利用PICRUSt分析軟件基于屬水平的OTU表進(jìn)行代謝通路的預(yù)測(cè)分析,并使用第三層級(jí)進(jìn)行注釋。經(jīng)過(guò)Wilcox秩和檢驗(yàn)并通過(guò)FDR矯正P值,得到67個(gè)具有極顯著差異的代謝通路(P < 0.01)。之后,將這67個(gè)的代謝通路與2.3節(jié)具有顯著差異的菌屬使用斯皮爾曼相關(guān)性系數(shù)進(jìn)行相關(guān)性分析(圖 4),其中紅色代表代謝通路和菌屬之間存在正相關(guān),藍(lán)色代表負(fù)相關(guān),白色部分則代表沒(méi)有顯著的相關(guān)性。經(jīng)過(guò)相關(guān)性分析發(fā)現(xiàn),Akkermansia屬與Fluorobenzoate degradation、Steroid biosynthesis、Caffeine metabolism和Fatty acid elongation in miochaondiras等代謝通路具有較強(qiáng)的相關(guān)性。同樣,Methanobrevibacter屬與Bile secretion和Various types of N-glycan biosynthesis等代謝通路具有較強(qiáng)的相關(guān)性。

2.5 基于腸道菌群的肥胖人群預(yù)測(cè)模型
首先使用了Scikit-Learn軟件包中的核支持向量機(jī)、隨機(jī)森林、梯度提升回歸樹(shù)和BP神經(jīng)網(wǎng)絡(luò)4種機(jī)器學(xué)習(xí)算法的默認(rèn)參數(shù)建立基線(xiàn)模型作為后續(xù)網(wǎng)絡(luò)搜索的依據(jù)。發(fā)現(xiàn)其中梯度提升回歸樹(shù)的模型性能較好,其AUC值達(dá)到0.769,測(cè)試集精度達(dá)到0.725。
通過(guò)Scikit-Learn中的網(wǎng)格搜索,我們將4種模型的超參數(shù)空間中所有的參數(shù)組合進(jìn)行遍歷,并使用五折交叉驗(yàn)證保證結(jié)果的可靠性,同時(shí)對(duì)模型調(diào)整參數(shù)前后的測(cè)試集精度和AUC值進(jìn)行比較(圖 5)。結(jié)果表明,梯度提升回歸樹(shù)的最佳性能是其默認(rèn)參數(shù),即Learning_rate為1,n_estimators為100;隨機(jī)森林的AUC值由0.639上升到0.754,測(cè)試集精度也由0.668提高到0.698,其對(duì)應(yīng)的最佳參數(shù)組合為,n_estimators為10 000,max_features為L(zhǎng)og2。核支持向量機(jī)經(jīng)過(guò)網(wǎng)格搜索后,發(fā)現(xiàn)其最佳參數(shù)為其默認(rèn)參數(shù),即C=1,Gamma=1,其AUC值為0.707,測(cè)試集精度為0.656。BP神經(jīng)網(wǎng)絡(luò)隱含層的最佳節(jié)點(diǎn)數(shù)為11,AUC值由0.615上升到0.641,測(cè)試集精度由0.632上升到0.64。

如圖 6所示,4種模型的受試者工作特征(receiver operating characteristic,ROC)都將隨機(jī)猜測(cè)的ROC曲線(xiàn)包含在內(nèi),證明了基于腸道菌群用來(lái)預(yù)測(cè)人體肥胖狀況的可行性。同時(shí),可以看出梯度提升回歸樹(shù)和隨機(jī)森林的AUC曲線(xiàn)都將BP神經(jīng)網(wǎng)絡(luò)和核支持向量機(jī)的ROC曲線(xiàn)包含在內(nèi),說(shuō)明這兩種基于決策樹(shù)的模型效果好于BP神經(jīng)網(wǎng)絡(luò)和核支持向量機(jī)。梯度提升回歸樹(shù)和隨機(jī)森林的ROC曲線(xiàn)有交叉,兩者的AUC值也相差不大,難以從ROC曲線(xiàn)上判斷兩個(gè)模型的優(yōu)劣。但是結(jié)合測(cè)試集的精度,梯度提升回歸樹(shù)的測(cè)試集精度(0.725)大于隨機(jī)森林的測(cè)試集精度(0.698)。由此得出結(jié)論,梯度提升回歸的模型性能在本研究中優(yōu)于其他3種模型,可以更為有效地基于腸道菌群預(yù)測(cè)肥胖。

3 討論與結(jié)論
肥胖作為常見(jiàn)的現(xiàn)象嚴(yán)重影響著人們的健康生活。腸道菌群作為人體一種新的“器官”,吸引了國(guó)內(nèi)外許多研究者的注意,很多研究都報(bào)道了肥胖與腸道菌群之間的關(guān)系。先前有研究報(bào)道,肥胖人群腸道菌群中Firmicutes門(mén)的含量較低,Bacteroidetes門(mén)的含量較高[17-18],與本研究中的報(bào)道一致。然而,有關(guān)肥胖人群腸道Firmicutes門(mén)和Bacteroidetes門(mén)的相對(duì)含量與健康人群相比的結(jié)論并不一致,有些研究甚至報(bào)道了相反的結(jié)果[7]。然而這些研究普遍存在著樣本量較低的問(wèn)題,說(shuō)服力有限。
基于3種不同β多樣性距離的PCA分析表明,肥胖人群和健康人群的腸道菌群在結(jié)構(gòu)上無(wú)明顯差異。但是,α多樣性指標(biāo)以及后續(xù)的物種差異性分析仍舊表明肥胖人群與健康人群的腸道菌群存在著一定程度的差異。尤其是Akkermansia屬對(duì)于維持人體健康具有重要的作用,有作為下一代益生菌的可能。在本次研究中,我們不僅觀測(cè)到了Akkermansia屬的相對(duì)豐度在肥胖人群腸道中較低。同時(shí),基于PICRUSt預(yù)測(cè)分析代謝通路,我們對(duì)腸道菌群影響肥胖的機(jī)制進(jìn)行了初步探索。通過(guò)構(gòu)建具有顯著差異的菌屬和代謝通路之間的相關(guān)性分析,發(fā)現(xiàn)了Akkermansia屬與許多與代謝功能有關(guān)的代謝通路具有很強(qiáng)的正相關(guān)性。這一發(fā)現(xiàn)為探索Akkermansia屬影響人體健康的機(jī)制提供了啟發(fā)。作為同樣和許多代謝通路具有較強(qiáng)相關(guān)性的Methanobrevibacter屬,本研究中發(fā)現(xiàn)Methanobrevibacter屬在肥胖人群腸道中的含量較低,這一結(jié)果與文獻(xiàn)[17, 26-27]報(bào)道一致。
基于分析結(jié)果,我們嘗試使用機(jī)器學(xué)習(xí)的方法構(gòu)建肥胖預(yù)測(cè)模型。通過(guò)系統(tǒng)地網(wǎng)絡(luò)參數(shù)搜索,我們發(fā)現(xiàn)基于腸道菌群的梯度提升回歸樹(shù)具有良好的性能。一般而言,AUC值大于0.75時(shí)模型的性能就較好,而在本次研究中梯度提升回歸樹(shù)的模型AUC值則達(dá)到了0.769,測(cè)試精度達(dá)到0.725。這表明基于腸道菌群可以預(yù)測(cè)人體健康肥胖狀況,揭示了腸道菌群的又一功能。不僅如此,這一模型的建立也為基于腸道菌群干預(yù)肥胖提供了重要參考。本文雖然針對(duì)肥胖進(jìn)行了機(jī)器學(xué)習(xí)模型的研究,但是基于腸道菌群同樣可以用來(lái)預(yù)測(cè)其他疾病。如Ren等[28]通過(guò)建立隨機(jī)森林機(jī)器學(xué)習(xí)模型發(fā)現(xiàn)腸道菌群可以作為診斷早期肝癌的工具,其模型的AUC值可達(dá)到0.806。Shah等[29]從公開(kāi)數(shù)據(jù)收集到509個(gè)樣本(79個(gè)結(jié)腸瘤樣本、195個(gè)結(jié)腸癌樣本和235個(gè)對(duì)照樣本)的腸道菌群數(shù)據(jù),采用隨機(jī)森林的方法建立起機(jī)器學(xué)習(xí)模型用于結(jié)腸瘤和結(jié)腸癌的分類(lèi),其中最佳模型的AUC值可達(dá)0.913。Loomba等[30]則針對(duì)非酒精性脂肪肝基于腸道菌群建立隨機(jī)森林模型進(jìn)行預(yù)測(cè),其模型AUC值達(dá)到了0.936。Eck等[31]通過(guò)建立一系列AUC值在0.85以上的機(jī)器學(xué)習(xí)模型,確定基于腸道菌群可以作為診斷炎癥性腸炎的可靠工具。He等[32]基于廣東腸道計(jì)劃,對(duì)于炎癥性腸炎、糖尿病、結(jié)腸癌等與代謝相關(guān)的疾病使用隨機(jī)森林建立機(jī)器學(xué)習(xí)模型,他們發(fā)現(xiàn)地域會(huì)影響基于腸道菌群預(yù)測(cè)疾病模型的精度,地域范圍越小則模型精度更高,從而揭示了地域可能是影響腸道菌群疾病預(yù)測(cè)模型準(zhǔn)確度的重要因素。上述一系列研究,不僅表明了腸道菌群在疾病預(yù)測(cè)方面具有巨大的潛力,同時(shí)也為日后的精準(zhǔn)膳食、精準(zhǔn)醫(yī)療提供了扎實(shí)的理論基礎(chǔ)。
總之,我們通過(guò)系統(tǒng)分析探究了肥胖人群和健康人群腸道菌群的差異,同時(shí)基于肥胖人群和健康人群腸道菌群的差異,利用機(jī)器學(xué)習(xí)的方法建立了腸道菌群肥胖預(yù)測(cè)模型并取得了良好的效果,為基于腸道菌群精準(zhǔn)膳食、精準(zhǔn)醫(yī)療提供了新思路。
REFERENCES
[1]Abelson P, Kennedy D. The obesity epidemic[J]. Science, 2004, 304(5676): 1413. DOI:10.1126/science.304.5676.1413
[2]Misra A, Vikram NK. Insulin resistance syndrome (metabolic syndrome) and obesity in Asian Indians: evidence and implications[J]. Nutrition, 2004, 20(5): 482-491. DOI:10.1016/j.nut.2004.01.020
[3]Gu DF, Reynolds K, Wu XG, et al. Prevalence of the metabolic syndrome and overweight among adults in China[J]. The Lancet, 2005, 365(9468): 1398-1405. DOI:10.1016/S0140-6736(05)66375-1
[4]Arumugam M, Raes J, Pelletier E, et al. Erratum: Enterotypes of the human gut microbiome[J]. Nature, 2011, 474(7353): 666.
[5]Qin JJ, Li RQ, Raes J, et al. A human gut microbial gene catalogue established by metagenomic sequencing[J]. Nature, 2010, 464(7285): 59-65. DOI:10.1038/nature08821
[6]Reinhardt C, Reigstad CS, B?ckhed F. Intestinal microbiota during infancy and its implications for obesity[J]. Journal of Pediatric Gastroenterology and Nutrition, 2009, 48(3): 249-256. DOI:10.1097/MPG.0b013e318183187c
[7]Ley RE, Turnbaugh PJ, Klein S, et al. Human gut microbes associated with obesity[J]. Nature, 2006, 444(7122): 1022-1023. DOI:10.1038/4441022a
[8]Ghoshal UC, Shukla R, Ghoshal U, et al. The gut microbiota and irritable bowel syndrome: friend or foe?[J]. International Journal of Inflammation, 2012, 2012: 151085.
[9]Jeffery IB, Claesson MJ, O'Toole PW, et al. Categorization of the gut microbiota: enterotypes or gradients?[J]. Nature Reviews Microbiology, 2012, 10(9): 591-592. DOI:10.1038/nrmicro2859
[10]Manichanh C, Borruel N, Casellas F, et al. The gut microbiota in IBD[J]. Nature Reviews Gastroenterology & Hepatology, 2012, 9(10): 599-608.
[11]Li QR, Wang CY, Tang C, et al. Molecular-phylogenetic characterization of the microbiota in ulcerated and non-ulcerated regions in the patients with crohn's disease[J]. PLoS One, 2012, 7(4): e34939. DOI:10.1371/journal.pone.0034939
[12]Arthur JC, Perez-Chanona E, Mühlbauer M, et al. Intestinal inflammation targets cancer-inducing activity of the microbiota[J]. Science, 2012, 338(6103): 120-123. DOI:10.1126/science.1224820
[13]Castellarin M, Warren RL, Freeman JD, et al. Fusobacterium nucleatum infection is prevalent in human colorectal carcinoma[J]. Genome Research, 2012, 22(2): 299-306. DOI:10.1101/gr.126516.111
[14]Clarke SF, Murphy EF, Nilaweera K, et al. The gut microbiota and its relationship to diet and obesity[J]. Gut Microbes, 2012, 3(3): 186-202. DOI:10.4161/gmic.20168
[15]Qin JJ, Li YR, Cai ZM, et al. A metagenome-wide association study of gut microbiota in type 2 diabetes[J]. Nature, 2012, 490(7418): 55-60. DOI:10.1038/nature11450
[16]Angelakis E, Armougom F, Million M, et al. The relationship between gut microbiota and weight gain in humans[J]. Future Microbiology, 2012, 7(1): 91-109. DOI:10.2217/fmb.11.142
[17]Schwiertz A, Taras D, Sch?fer K, et al. Microbiota and SCFA in lean and overweight healthy subjects[J]. Obesity, 2010, 18(1): 190-195. DOI:10.1038/oby.2009.167
[18]Collado MC, Isolauri E, Laitinen K, et al. Distinct composition of gut microbiota during pregnancy in overweight and normal-weight women[J]. The American Journal of Clinical Nutrition, 2008, 88(4): 894-899. DOI:10.1093/ajcn/88.4.894
[19]Mai V, McCrary QM, Sinha R, et al. Associations between dietary habits and body mass index with gut microbiota composition and fecal water genotoxicity: an observational study in African American and Caucasian American volunteers[J]. Nutrition Journal, 2009, 8: 49. DOI:10.1186/1475-2891-8-49
[20]McDonald D, Hyde E, Debelius JW, et al. American gut: an open platform for citizen science microbiome research[J]. mSystems, 2018, 3(3): e00031-18.
[21]Dixon P. VEGAN, a package of R functions for community ecology[J]. Journal of Vegetation Science, 2003, 14(6): 927-930. DOI:10.1111/j.1654-1103.2003.tb02228.x
[22]Langille MGI, Zaneveld J, Caporaso JG, et al. Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences[J]. Nature Biotechnology, 2013, 31(9): 814-821. DOI:10.1038/nbt.2676
[23]Kanehisa M, Goto S. KEGG: kyoto encyclopedia of genes and genomes[J]. Nucleic Acids Research, 2000, 28(1): 27-30. DOI:10.1093/nar/28.1.27
[24]Pedregosa F, Varoquaux G, Gramfort A, et al. Scikit-learn: machine learning in python[J]. Journal of Machine Learning Research, 2011, 12: 2825-2830.
[25]Bradley AP. The use of the area under the ROC curve in the evaluation of machine learning algorithms[J]. Pattern Recognition, 1997, 30(7): 1145-1159. DOI:10.1016/S0031-3203(96)00142-2
[26]Armougom F, Henry M, Vialettes B, et al. Monitoring bacterial community of human gut microbiota reveals an increase in Lactobacillus in obese patients and Methanogens in anorexic patients[J]. PLoS One, 2009, 4(9): e7125. DOI:10.1371/journal.pone.0007125
[27]Million M, Maraninchi M, Henry M, et al. Obesity-associated gut microbiota is enriched in Lactobacillus reuteri and depleted in Bifidobacterium animalis and Methanobrevibacter smithii[J]. International Journal of Obesity, 2012, 36(6): 817-825. DOI:10.1038/ijo.2011.153
[28]Ren ZG, Li A, Jiang JW, et al. Gut microbiome analysis as a tool towards targeted non-invasive biomarkers for early hepatocellular carcinoma[J]. Gut, 2019, 68(6): 1014-1023. DOI:10.1136/gutjnl-2017-315084
[29]Shah MS, DeSantis TZ, Weinmaier T, et al. Leveraging sequence-based faecal microbial community survey data to identify a composite biomarker for colorectal cancer[J]. Gut, 2018, 67(5): 882-891. DOI:10.1136/gutjnl-2016-313189
[30]Loomba R, Seguritan V, Li WZ, et al. Gut microbiome-based metagenomic signature for non-invasive detection of advanced fibrosis in human nonalcoholic fatty liver disease[J]. Cell Metabolism, 2017, 25(5): 1054-1062. DOI:10.1016/j.cmet.2017.04.001
[31]Eck A, de Groot EFJ, de Meij TGJ, et al. Robust microbiota-based diagnostics for inflammatory bowel disease[J]. Journal of Clinical Microbiology, 2017, 55(6): 1720-1732. DOI:10.1128/JCM.00162-17
[32]He Y, Wu W, Zheng HM, et al. Regional variation limits applications of healthy gut microbiome reference ranges and disease models[J]. Nature Medicine, 2018, 24(10): 1532-1535. DOI:10.1038/s41591-018-0164-x
相關(guān)知識(shí)
Fermentation Characteristics and Intestinal Health Effects of Fiber Components
Detecting health misinformation in online health communities: Incorporating behavioral features into machine learning based approaches
Metagenomic analysis reveals the signature of gut microbiota associated with human chronotypes
Advances in research of polysaccharides on inflammatory diseases and gut microbiota
Topic Suggestions for Millions of Repositories
Advances in gut microbiota
Technology innovation to reduce health inequality in skin diagnosis and to improve patient outcomes for people of color: a thematic literature review and future research agenda
Section 3: Concepts of health and wellbeing
Research progress and potential mechanism of postbiotics in alleviating gastrointestinal diseases
Tackling Climate Change with Machine Learning
網(wǎng)址: Characteristics of gut microbiota of obese people and machine learning model http://www.u1s5d6.cn/newsview1754687.html
推薦資訊
- 1發(fā)朋友圈對(duì)老公徹底失望的心情 12775
- 2BMI體重指數(shù)計(jì)算公式是什么 11235
- 3補(bǔ)腎吃什么 補(bǔ)腎最佳食物推薦 11199
- 4性生活姿勢(shì)有哪些 盤(pán)點(diǎn)夫妻性 10428
- 5BMI正常值范圍一般是多少? 10137
- 6在線(xiàn)基礎(chǔ)代謝率(BMR)計(jì)算 9652
- 7一邊做飯一邊躁狂怎么辦 9138
- 8從出汗看健康 出汗透露你的健 9063
- 9早上怎么喝水最健康? 8613
- 10五大原因危害女性健康 如何保 7828