Sep 10, 2023
두 단백질 접힘 사이의 은밀한 진화 경로 식별
네이처커뮤니케이션즈 볼륨
Nature Communications 14권, 기사 번호: 3177(2023) 이 기사 인용
317 액세스
15 알트메트릭
측정항목 세부정보
상동성 단백질 서열은 유사한 구조를 채택할 것으로 예상되지만 일부 아미노산 치환은 α-나선과 β-시트를 상호 변환할 수 있습니다. 이러한 접힘 전환은 진화의 역사에서 발생했을 수 있지만 뒷받침하는 증거는 (1) 서열화된 유전자의 풍부함과 다양성, (2) 실험적으로 결정된 단백질 구조의 양, (3) 통계적 방법의 기초가 되는 가정으로 인해 제한되었습니다. 상동성을 추론하다 여기에서 우리는 ~600,000개의 세균 반응 조절 단백질 계열에 다양한 통계적 방법을 적용하여 이러한 장벽을 극복했습니다. 우리는 그들의 상동 DNA 결합 하위 단위가 나선-회전-나선 대 α-나선 + β-시트(날개 나선)와 같은 다양한 구조를 가정한다는 것을 발견했습니다. 계통발생 분석, 조상 서열 재구성 및 AlphaFold2 모델은 아미노산 치환이 나선-회전-나선에서 날개 나선으로의 전환을 촉진한다는 것을 나타냅니다. 이러한 구조적 변형은 DNA 결합 특이성을 확장시켰을 가능성이 높습니다. 우리의 접근 방식은 두 단백질 접힘 사이의 진화 경로를 밝혀내고 다른 단백질 계열의 2차 구조 전환을 식별하는 방법론을 제공합니다.
생명은 수억 개의 접힌 단백질의 화학적 상호작용과 촉매 반응에 의해 유지됩니다. 이들 단백질의 구조와 기능은 아미노산 서열에 따라 결정됩니다1. 따라서 서열 변화는 없음부터 중간 손상, 완전한 손실까지 다양한 기능적 효과를 가지며2,3 생물학적 결과는 관찰 가능한 효과가 없는 것부터 쇠약해지는 질병까지 다양합니다. 많은 역사적 연구에 따르면 아미노산 변이가 단백질 구조를 국소적으로 또는 전체적으로 전개할 수 있음이 밝혀졌지만7,8 이러한 변화는 일반적으로 α-나선을 β-시트로 전환하는 것과 같은 2차 구조를 리모델링하지 않습니다. 이러한 발견은 유사한 서열을 가진 단백질이 유사한 접힘을 가지며 유사한 기능을 수행한다는 잘 확립된 관찰을 뒷받침합니다. 결과적으로, 이러한 유사성은 단백질 접힘을 계열로 분류하고 최첨단 단백질 구조 예측 방법의 기초가 되는 데 사용됩니다.
그럼에도 불구하고, 최근 연구에서는 아미노산 변화의 일부가 2차 구조를 전환할 수 있음을 보여줍니다. 이 과정은 "진화적 변태15" 및 "진화적 접힘 전환16"이라고 불립니다. 예를 들어, 인간 근육세포 강화 인자 2(MEF2)에서 관찰되는 가장 빈번한 비호지킨 림프종 관련 돌연변이는 C 말단 α-나선을 β-가닥으로 전환하여 MEF2 기능을 방해할 가능성이 있습니다. 더욱이, 수많은 단일 돌연변이는 C-말단 하위 도메인이 βααβ 접기에서 αββα 접기로 전환되는 정상적인 기능에 중요한 변형을 방지하여 시아노박테리아의 일주기 시계를 비활성화합니다. 마지막으로, 조작된 단백질 G 변이체의 경우, 단일 돌연변이 또는 더 큰 단백질 도메인으로의 통합은 인간 혈청 알부민을 결합하는 3-α-나선 다발을 기능이 변경된 다른 접힘(예: α/β-파지 접힘)으로 전환할 수 있습니다. 면역글로불린 또는 α/β-plait 리보솜 단백질 도메인19,20,21,22,23에 결합합니다.
이러한 예는 단계적 아미노산 변화를 통해 2차 구조의 진화된 접힘 전환이 자연에서 새로운 단백질 접힘이 발생하는 하나의 메커니즘일 수 있음을 시사합니다. 그렇다면, 이 진화 메커니즘은 실험적으로 결정된 구조가 다른 상동 단백질 서열을 검색하여 식별할 수 있어야 합니다(그림 1a). 유사한 접근법을 통해 2차 구조는 보존되어 있지만 3차 배열은 다른 단백질 접힘 계열 사이의 진화 관계가 성공적으로 확인되었습니다24,25.
a 한 라운드의 BLAST를 사용하여 PDB에 대해 FixJ(HTH4)의 전체 시퀀스를 쿼리하면 전체 길이 KdpE(wH)와 중요한 일치 항목이 생성되었습니다. 특히, 두 영역에서 실험적으로 결정된 α-나선이 β-시트와 정렬되어 있습니다. b 후속 PSI-BLAST 검색을 통해 전체 길이의 FixJ와 KdpE 서열 사이의 진화 관계 가능성이 확인되었습니다. 전체 길이 구조는 보존된 NTD가 회색으로, 링커가 주황색으로, HTH4 CTD가 검정색으로, wH CTD가 노란색으로 표시됩니다. 결과 PSI-BLAST 정렬에는 NTD 및 CTD(KdpE 시퀀스가 노란색으로 강조 표시되는 곳에서 시작)가 포함됩니다. 굵은 글씨의 아미노산은 동일(검은색) 또는 유사(회색)이며, α-나선이 β-가닥과 정렬된 영역은 분홍색입니다. 간격은 '-'으로 표시됩니다. c PSI-BLAST가 HTH4 접기의 α-나선을 wH 접기(분홍색)의 β-가닥 서열과 정렬하는 3차원 구조(왼쪽) 및 2차 구조(오른쪽) 영역. 회색 영역은 보존된 2차 및 3차 구조를 나타냅니다. wH의 베이지색 영역은 정렬의 추가 아미노산에 해당하며 FixJ의 정렬된 2차 구조에서 열린 공간으로 표시됩니다(오른쪽). 소스 데이터는 소스 데이터 파일로 제공됩니다.
1,000,000 diverse genes are present in the nr database, which is nearly 2 orders of magnitude larger than the NusG family mentioned before./p> 99% of HTH4 folds was also found in an annotated wH fold (wHwing_gap), further suggesting that the α-helix ↔ β-sheet interconversion occurred through stepwise mutation. Furthermore, several HTH4 sequences with linker lengths similar to wH sequences were identified (e.g., HTH4_ insert in Fig. 3a), demonstrating that long linkers are not exclusive to wH folds. Sequences within the alignment were diverse, with mean pairwise identities of 31% among HTH4 folds, 40% among wH folds, and 31% across folds. Notably, evolutionary conservation patterns differed between the HTH4 and wH folds (Supplementary Fig. 4). Particularly, the C-terminal helix of the HTH4 did not show strong conservation patterns, whereas the β-strand wing of the wH did. As suggested by Cordes and colleagues27, such distinct conservation patterns may explain why homology between sequences for the isolated wH and HTH4 domains could not be inferred from the PSI-BLAST and jackhmmer searches against the PDB./p>99% of the C-terminal helices of aligned HTH4 sequences. Distance units are arbitrary, though sequences further in space have more distant evolutionary relationships./p>1,000,000 sequences. We used BLAST because of its efficiency in searching such a large database, though a more sensitive high-efficiency method such as HHBlits80 could also be used. Curation of the sequence set ("Methods" section) may be required to remove anomalous sequences. Cluster. Although we used a custom-written greedy clustering algorithm, MMSeqs281 could also be used. Next, we associated each remaining cluster with a given fold by BLASTing the sequences of FixJPDB and KdpEPDB against each cluster and calculating which sequence yielded more matches with ≥200 residues and e-values ≥ 1e-04./p> 4000 sequences). Of the large clusters, one contained the sequence of FixJ (PDB ID 5XSO) and 283,762 other sequences, and another contained the sequence of KdpE (PDB ID 4KFC) and 25,035 other sequences./p>5000 sequences, we similarly subsampled 5000 sequences. The 3 large clusters with <5000 sequences were curated as described for the medium clusters./p>250,000 and >25,000 sequences). This hit was then queried against the database of the opposite fold and so on until we identified 7 sequences with pairwise sequence alignments each with ≥38% sequence identity that connected the FixJ sequence to the KdpE sequence (Supplementary Table 3). Note that the "bridge" sequence TME68356 (Supplementary Table 4) could align well with another sequence in either half-family, although it was originally assigned to the KdpE half-family. The top/bottom four sequences in Supplementary Table 3 were aligned with the FixJ/KdpE half-families using Clustal Omega. We next used MARS to combine half-family alignments using the bridge sequence as the reference. The resulting whole family MSA contained 45,199 sequences. These sequences were filtered to 85% redundancy with CD-HIT, ultimately yielding an MSA with 23,791 sequences. However, when a phylogenetic tree was constructed in IQ-Tree for this sequence set, its quality was poor (i.e., 140 gaps/360 positions in the KdpEPDB sequence) and failed to converge after 3 rounds of 1000 bootstrapping iterations each./p>4000 sequences were each combined and converted into two BLAST databases representing HTH4 (FixJ-like) and wH4 (KdpE-like) sequences. Sequences within the combined FixJ sequence clusters were reduced to 50% redundancy using CD-HIT93 with a word size of 2, as recommended. Protein BLAST searches were performed on each of the remaining 4520 sequences with a maximum e-value of 1e–04 using the full KdpEPDB database. All 8607 alignments with minimum sequence identities and lengths of 33% and 200 residues, respectively, were considered significant. To ensure that these alignments truly matched HTH4 with wH sequences, NCBI records of 1793 HTH4, and 4995 wH sequences were retrieved using NCBI's efetch. Each record was searched for structural annotations of its CTD (HTH or wH). Ultimately, 3074 BLAST matches, each with one annotated HTH and one annotated wH CTD were retained./p>75% gaps were removed from both alignments using Geneious Prime 2022.2.2 (https://www.geneious.com) for further analyses. The final alignments showed full overlap between the C-terminal helix of the HTH4 and the β-hairpin wing of the wH. Subsequent phylogenetic analyses and ancestral sequence reconstruction were performed on the Clustal Omega alignment./p> 0.8./p>3.0.CO;2-I" data-track-action="article reference" href="https://doi.org/10.1002%2F%28SICI%291097-0134%28199602%2924%3A2%3C145%3A%3AAID-PROT1%3E3.0.CO%3B2-I" aria-label="Article reference 7" data-doi="10.1002/(SICI)1097-0134(199602)24:23.0.CO;2-I"Article CAS PubMed Google Scholar /p>