sasava

Metaproteômica microbiana: do processamento de amostras, coleta de dados até análise de dados

Wu Enhui, Qiao Liang*

Departamento de Química, Universidade Fudan, Xangai 200433, China

 

 

 

Os microrganismos estão intimamente relacionados às doenças e à saúde humana. Como compreender a composição das comunidades microbianas e suas funções é uma questão importante que precisa ser estudada com urgência. Nos últimos anos, a metaproteômica tornou-se um importante meio técnico para estudar a composição e função dos microrganismos. No entanto, devido à complexidade e alta heterogeneidade das amostras da comunidade microbiana, o processamento de amostras, a aquisição de dados de espectrometria de massa e a análise de dados tornaram-se os três principais desafios enfrentados atualmente pela metaproteômica. Na análise metaproteômica, muitas vezes é necessário otimizar o pré-tratamento de diferentes tipos de amostras e adotar diferentes esquemas de separação microbiana, enriquecimento, extração e lise. Semelhante ao proteoma de uma única espécie, os modos de aquisição de dados de espectrometria de massa em metaproteômica incluem o modo de aquisição dependente de dados (DDA) e o modo de aquisição independente de dados (DIA). O modo de aquisição de dados DIA pode coletar completamente as informações peptídicas da amostra e tem grande potencial de desenvolvimento. No entanto, devido à complexidade das amostras de metaproteoma, a sua análise de dados DIA tornou-se um grande problema que dificulta a cobertura profunda da metaproteómica. Em termos de análise de dados, o passo mais importante é a construção de um banco de dados de sequências proteicas. O tamanho e a completude da base de dados não só têm um grande impacto no número de identificações, mas também afetam a análise nos níveis de espécie e funcional. Atualmente, o padrão ouro para a construção de um banco de dados de metaproteoma é um banco de dados de sequências de proteínas baseado no metagenoma. Ao mesmo tempo, o método de filtragem de banco de dados público baseado em pesquisa iterativa também provou ter um forte valor prático. Do ponto de vista de estratégias específicas de análise de dados, os métodos de análise de dados DIA centrados em peptídeos ocuparam uma posição dominante absoluta. Com o desenvolvimento da aprendizagem profunda e da inteligência artificial, promoverá enormemente a precisão, cobertura e velocidade de análise da análise de dados macroproteômicos. Em termos de análise de bioinformática a jusante, uma série de ferramentas de anotação foram desenvolvidas nos últimos anos, que podem realizar anotação de espécies em nível de proteína, nível de peptídeo e nível de gene para obter a composição de comunidades microbianas. Comparada com outros métodos ômicos, a análise funcional de comunidades microbianas é uma característica única da macroproteômica. A macroproteômica tornou-se uma parte importante da análise multiômica de comunidades microbianas e ainda tem grande potencial de desenvolvimento em termos de profundidade de cobertura, sensibilidade de detecção e integridade de análise de dados.

 

01Pré-tratamento da amostra

Atualmente, a tecnologia metaproteômica tem sido amplamente utilizada na pesquisa do microbioma humano, solo, alimentos, oceano, lodo ativo e outros campos. Comparado com a análise do proteoma de uma única espécie, o pré-tratamento da amostra do metaproteoma de amostras complexas enfrenta mais desafios. A composição microbiana em amostras reais é complexa, a faixa dinâmica de abundância é grande, a estrutura da parede celular de diferentes tipos de microrganismos é muito diferente e as amostras geralmente contêm uma grande quantidade de proteínas hospedeiras e outras impurezas. Portanto, na análise do metaproteoma, muitas vezes é necessário otimizar diferentes tipos de amostras e adotar diferentes esquemas de separação, enriquecimento, extração e lise microbiana.

A extração de metaproteomas microbianos de diferentes amostras tem certas semelhanças, bem como algumas diferenças, mas atualmente falta um processo de pré-processamento unificado para diferentes tipos de amostras de metaproteoma.

 

02Aquisição de dados de espectrometria de massa

Na análise do proteoma shotgun, a mistura de peptídeos após o pré-tratamento é primeiro separada na coluna cromatográfica e depois entra no espectrômetro de massa para aquisição de dados após a ionização. Semelhante à análise de proteoma de espécie única, os modos de aquisição de dados de espectrometria de massa na análise de macroproteoma incluem o modo DDA e o modo DIA.

 

Com a iteração e atualização contínua dos instrumentos de espectrometria de massa, instrumentos de espectrometria de massa com maior sensibilidade e resolução são aplicados ao metaproteoma, e a profundidade de cobertura da análise do metaproteoma também é continuamente melhorada. Por muito tempo, uma série de instrumentos de espectrometria de massa de alta resolução liderados pelo Orbitrap tem sido amplamente utilizados no metaproteoma.

 

A Tabela 1 do texto original mostra alguns estudos representativos sobre metaproteômica de 2011 até o presente em termos de tipo de amostra, estratégia de análise, instrumento de espectrometria de massa, método de aquisição, software de análise e número de identificações.

 

03Análise de dados de espectrometria de massa

3.1 Estratégia de análise de dados DDA

3.1.1 Pesquisa de banco de dados

3.1.2de novoestratégia de sequenciamento

3.2 Estratégia de análise de dados DIA

 

04Classificação de espécies e anotação funcional

A composição das comunidades microbianas em diferentes níveis taxonómicos é uma das principais áreas de investigação na investigação do microbioma. Nos últimos anos, uma série de ferramentas de anotação foram desenvolvidas para anotar espécies em nível de proteína, nível de peptídeo e nível de gene para obter a composição de comunidades microbianas.

 

A essência da anotação funcional é comparar a sequência da proteína alvo com o banco de dados de sequências da proteína funcional. Usando bancos de dados de funções genéticas como GO, COG, KEGG, eggNOG, etc., diferentes análises de anotação funcional podem ser realizadas em proteínas identificadas por macroproteomas. As ferramentas de anotação incluem Blast2GO, DAVID, KOBAS, etc.

 

05Resumo e Perspectivas

Os microrganismos desempenham um papel importante na saúde e nas doenças humanas. Nos últimos anos, a metaproteômica tornou-se um importante meio técnico para estudar a função das comunidades microbianas. O processo analítico da metaproteômica é semelhante ao da proteômica uniespécie, mas devido à complexidade do objeto de pesquisa da metaproteômica, estratégias específicas de pesquisa precisam ser adotadas em cada etapa da análise, desde o pré-tratamento da amostra, aquisição de dados até a análise dos dados. Atualmente, graças ao aprimoramento dos métodos de pré-tratamento, à inovação contínua da tecnologia de espectrometria de massa e ao rápido desenvolvimento da bioinformática, a metaproteômica fez grandes progressos na profundidade de identificação e no escopo de aplicação.

 

No processo de pré-tratamento de amostras de macroproteoma, a natureza da amostra deve ser considerada primeiro. Como separar os microrganismos das células e proteínas ambientais é um dos principais desafios enfrentados pelos macroproteomas, e o equilíbrio entre a eficiência da separação e a perda microbiana é um problema urgente a ser resolvido. Em segundo lugar, a extracção de proteínas de microrganismos deve ter em conta as diferenças causadas pela heterogeneidade estrutural de diferentes bactérias. Amostras de macroproteoma na faixa de traços também requerem métodos específicos de pré-tratamento.

 

Em termos de instrumentos de espectrometria de massa, os principais instrumentos de espectrometria de massa passaram por uma transição de espectrômetros de massa baseados em analisadores de massa Orbitrap, como LTQ-Orbitrap e Q Exactive, para espectrômetros de massa baseados em analisadores de massa de tempo de voo acoplados à mobilidade iônica, como timsTOF Pro . A série timsTOF de instrumentos com informações de dimensão de mobilidade iônica possui alta precisão de detecção, baixo limite de detecção e boa repetibilidade. Eles gradualmente se tornaram instrumentos importantes em uma variedade de campos de pesquisa que requerem detecção por espectrometria de massa, como o proteoma, metaproteoma e metaboloma de uma única espécie. É importante notar que, por muito tempo, a faixa dinâmica dos instrumentos de espectrometria de massa limitou a profundidade da cobertura proteica da pesquisa do metaproteoma. No futuro, instrumentos de espectrometria de massa com maior faixa dinâmica poderão melhorar a sensibilidade e a precisão da identificação de proteínas em metaproteomas.

 

Para aquisição de dados de espectrometria de massa, embora o modo de aquisição de dados DIA tenha sido amplamente adotado no proteoma de uma única espécie, a maioria das análises atuais de macroproteoma ainda utiliza o modo de aquisição de dados DDA. O modo de aquisição de dados DIA pode obter totalmente as informações de íons fragmentados da amostra e, em comparação com o modo de aquisição de dados DDA, tem o potencial de obter totalmente as informações peptídicas da amostra de macroproteoma. No entanto, devido à alta complexidade dos dados do DIA, a análise dos dados do macroproteoma do DIA ainda enfrenta grandes dificuldades. Espera-se que o desenvolvimento da inteligência artificial e da aprendizagem profunda melhore a precisão e a integridade da análise de dados DIA.

 

Na análise de dados da metaproteômica, uma das etapas principais é a construção de um banco de dados de sequências proteicas. Para áreas de investigação populares, como a flora intestinal, podem ser utilizadas bases de dados microbianas intestinais, como IGC e HMP, e foram alcançados bons resultados de identificação. Para a maioria das outras análises metaproteômicas, a estratégia de construção de banco de dados mais eficaz ainda é estabelecer um banco de dados de sequências proteicas específicas da amostra com base em dados de sequenciamento metagenômico. Para amostras de comunidades microbianas com alta complexidade e grande faixa dinâmica, é necessário aumentar a profundidade do sequenciamento para aumentar a identificação de espécies de baixa abundância, melhorando assim a cobertura do banco de dados de sequências proteicas. Quando faltam dados de sequenciamento, um método de pesquisa iterativo pode ser usado para otimizar o banco de dados público. No entanto, a pesquisa iterativa pode afetar o controle de qualidade do FDR, portanto os resultados da pesquisa precisam ser verificados cuidadosamente. Além disso, ainda vale a pena explorar a aplicabilidade dos modelos tradicionais de controle de qualidade FDR na análise metaproteômica. Em termos de estratégia de busca, a estratégia de biblioteca espectral híbrida pode melhorar a profundidade de cobertura da metaproteômica DIA. Nos últimos anos, a biblioteca espectral prevista gerada com base em aprendizagem profunda mostrou desempenho superior em proteômica DIA. No entanto, os bancos de dados de metaproteoma geralmente contêm milhões de entradas de proteínas, o que resulta em uma grande escala de bibliotecas espectrais previstas, consome muitos recursos computacionais e resulta em um grande espaço de busca. Além disso, a semelhança entre sequências proteicas em metaproteomas varia muito, tornando difícil garantir a precisão do modelo de predição da biblioteca espectral, de modo que as bibliotecas espectrais previstas não têm sido amplamente utilizadas em metaproteômica. Além disso, novas estratégias de inferência e anotação de classificação de proteínas precisam ser desenvolvidas para serem aplicadas à análise metaproteômica de proteínas altamente semelhantes em sequência.

 

Em resumo, como tecnologia emergente de investigação de microbiomas, a tecnologia metaproteómica alcançou resultados de investigação significativos e também tem um enorme potencial de desenvolvimento.


Horário da postagem: 30 de agosto de 2024