معلومة

تفسير Pangenome: عدد كبير من الجينات الملحقة


قمت بإجراء تحليل pangenomic على مجموعة من 52 سلالة تنتمي إلى نفس الجنس (حوالي 5-6 أنواع مختلفة). تم عزل جميع السلالات من نفس البيئة: الحيز الداخلي لجذر النبات المعقم السطحي.

الآن ، أشارت نتائج تحليلي (استخدمت حزمة R FindMyFriends) إلى ما مجموعه 32911 مجموعة جينية مقسمة على النحو التالي:

  • 581 نواة (موجودة في 95٪ أو أكثر من الجينوم)
  • قذيفة 6116 (موجودة في 15 إلى 95٪ من الجينوم)
  • 26214 سحابة (موجودة في ما يصل إلى 15٪ من الجينومات)

هذه النتائج غير متوقعة تماما. على الرغم من أنه من المعتاد أن يتم تصنيف معظم مجموعات الجينات على أنها سحابة أو ملحقات ، إلا أنه يفاجئني أن النسبة عالية جدًا! خاصة بالنظر إلى الأصل المشترك لتلك السلالات.

أعطت البرامج الأخرى التي جربتها (Roary و BPGA و microPAN) نتائج مماثلة أو أكثر تطرفًا ، لذلك يمكنني استبعاد خطأ تقني.

لذلك ، إذا كان لدى أي شخص بعض الخبرة في البيانات pangenomic ، فإن بعض المدخلات حول كيفية تفسير هذه البيانات ستكون موضع تقدير كبير.


تحليلات بانجينوم لممرض القمح Zymoseptoria tritici تكشف عن الأساس الهيكلي لجينوم حقيقي النواة عالي البلاستيك

يساهم التباين الهيكلي بشكل كبير في تعدد الأشكال داخل الأنواع. يمكن أن تؤدي إعادة ترتيب الكروموسومات التي تؤثر على الجينات إلى تباين وظيفي بين الأفراد وتؤثر على التعبير عن السمات المظهرية. تظهر جينومات مسببات الأمراض الفطرية تعددًا كبيرًا في الكروموسومات يمكن أن يؤدي إلى تطور الفوعة على النباتات المضيفة. يعد تقييم الأهمية التكيفية للتنوع الهيكلي أمرًا صعبًا ، لأن معظم الدراسات تعتمد على الاستدلالات بناءً على تسلسل جينوم مرجعي واحد.

نتائج

قمنا ببناء وتحليل الذعر Zymoseptoria tritici، أحد مسببات الأمراض الرئيسية للقمح الذي طور تخصص المضيف عن طريق إعادة ترتيب الكروموسومات وحذف الجينات. استخدمنا التسلسل في الوقت الفعلي أحادي الجزيء والخرائط الجينية عالية الكثافة لتجميع جينومات متعددة. قمنا بتوضيح مساحة الجين بناءً على بيانات النسخ التي غطت دورة حياة العدوى لكل سلالة. بناءً على ما مجموعه خمسة جينومات من التيلومير إلى التيلومير ، قمنا ببناء pangenome للأنواع وحددنا مجموعة أساسية من 9149 جينًا. ومع ذلك ، كان 6600 جين إضافي حصريًا لمجموعة فرعية من العزلات. الجينوم الملحق الكبير المشفر في المتوسط ​​عدد أقل من الجينات المعبر عنها ولكن جزء أكبر من جينات المستجيب المرشح التي قد تتفاعل مع المضيف أثناء العدوى. قمنا بتوسيع تحليلاتنا لل pangenome إلى مجموعة عالمية من 123 عزلة من نفس النوع. لقد أكدنا أن الجينات الملحقة كانت في الواقع أكثر عرضة لإظهار تعدد أشكال الحذف وطفرات فقدان الوظيفة مقارنة بالجينات الأساسية.

الاستنتاجات

أظهر بناء pangenome لممرض حقيقي النواة متعدد الأشكال للغاية أن جينومًا مرجعيًا واحدًا يقلل بشكل كبير من مساحة الجينات لأحد الأنواع. يوفر الجينوم الملحق الأساسي مهدًا للتطور التكيفي.


خلفية

Burkholderia pseudomallei هي بكتيريا سالبة الجرام تعيش في التربة وهي العامل المسبب لمرض الكَلْم ، وهو مرض مستوطن في جنوب شرق آسيا وشمال أستراليا. بيئيا ، ب. الزائفة يسكن في المقام الأول التربة والمياه [1 ، 2] مع حدوث معظم الإصابات في المناطق الزراعية الرطبة [2]. قدرة ب. الزائفة تسببت السلالات التي تصيب طريق الهباء الجوي ، والمدى البيئي الواسع والمضيف ، والصلابة العامة للكائن الحي في إدراج هذه السلالات كعامل محدد من المستوى 1 بسبب مخاطر الإرهاب البيولوجي المحتملة [3] نطاق المضيف واسع جدًا بما في ذلك الطيور والتماسيح والجرابيات ، لكن العوائل السائدة هي ثدييات مشيمية [4]. الجينوم كبير ويتكون من كروموسومين 4.07 و 3.17 ميجا بايت على التوالي [5]. الجزر الجينومية (GIs) هي مناطق ترميز جيني فريدة من نوعها في واحدة من سلالات قليلة جدًا ويتم تحديدها من خلال مقارنة الجينومات أو من خلال نسبة GC / AT التفاضلية. تحتوي العديد من الجينات على عدد قليل أو كثير من الجينات ويعتقد أنها نتيجة لنقل الجينات الأفقي من بكتيريا أخرى ، وغالبًا ما تكون مرتبطة إلى حد ما. هم السمات الرئيسية ل ب. الزائفة الجينوم ، يمثل ما يقرب من 5.8٪ من الجينوم الفردي وهو مصدر رئيسي للتنوع الجيني بين السلالات المختلفة [6] مع وجود جينات معينة مرتبطة بالإمراضية في البشر [7]. وقد ثبت أيضًا أن المعالجات الجينية تحتوي على جينات مرتبطة بعملية التمثيل الغذائي ، والأكثر شيوعًا ، الحركية الجينية مع 80٪ من GIs تحتوي على ترانسبوزيز واحد على الأقل [6]. في الواقع ، تعمل المؤشرات الجغرافية نفسها "كنقاط ساخنة" لإدخال الحمض النووي الغريب [6].

على الرغم من أن المؤشرات الجغرافية قد تمثل قدرًا كبيرًا نسبيًا من التنوع الجيني المرصود خاصة بالنسبة لحجمها ، فإن الحصول على الحمض النووي الأجنبي لا يقتصر على تلك المواقع. ب. الزائفة يعتبر الجينوم على نطاق واسع أنه "مفتوح" [6] (من المتوقع دائمًا أن يؤدي تسلسل سلالات جديدة إلى اكتشاف جينات جديدة) ، مع مستويات عالية جدًا من نقل الجينات الجانبي [8] مما يؤدي إلى توليد الجينوم الكبير والمتنوع بشكل معتدل الذي لوحظ. في المقابل ، البكتيريا التي لها جينومات "مغلقة" ، مثل السل الفطري، ليسوا متلقين لنقل الجينات الأفقي. باستخدام المصفوفات الدقيقة للتهجين الجيني المقارن (CGH) ، Sim et al. [7] وجد أن 750 من أصل 5369 جينًا (14٪) في الولايات المتحدة ب. الزائفة لم تكن سلالة K96243 موجودة في كل من 94 سلالة أخرى واعتبرت هذه جينات ملحقة. لذلك اعتبروا أن الـ 86٪ المتبقية هي الجينوم الأساسي ، وهو الجزء من الجينوم الذي يتضمن الجينات المسؤولة عن الجوانب الأساسية لبيولوجيا النوع [9]. ومع ذلك ، استخدمت دراستهم فقط سلالات من نطاق جغرافي ضيق نسبيًا ، وربما تفتقد بعض التباين الجيني الذي قد يكون موجودًا عبر النطاق الكامل للأنواع. ومع ذلك ، فقد وجدوا أن ما يقرب من ثلث الجينات الملحقة البالغ عددها 750 تم توطينها في جزر جينومية ضمن جينوم K96243 المرجعي [7]. ومع ذلك ، فإن هذا يعني أن أكثر من 500 جين تعتبر ملحقة ولا توجد داخل مؤشر جلايسيمي معروف. علاوة على ذلك ، بيرسون وآخرون. [8] أظهر مستويات عالية من التنوع في ب. الزائفة في مجموعات البيانات من تحليل MLST (Multi-Locus Sequence Typing) مما يشير إلى أن التبادل الجيني لم يقتصر على GIs. تقع مواقع MLST المحفوظة في مواقع متفرقة على طول الجينوم وتشير إلى أن التبادل المتماثل يحدث على نطاق واسع في جميع أنحاء الجينوم ويتضمن جينات "التدبير المنزلي" الأساسية المفترض.

اقترح هايجمان وويتز [10] نماذج لتطور الجينوم يُعلم فيها تكرار ظهور الجين في مجموعة من الجينومات النماذج. على وجه التحديد ، وجدوا أنه إذا تمكنت الجينومات من اكتساب الجينات من البيئة وتم إدخال تلك الجينات بشكل عشوائي في الجينوم (النموذج المحايد A من Haegeman و Weitz ، [10]) ، فإن التوزيع التكراري المتوقع سيكون على شكل حرف U ، مع العديد من الجينات كونها خاصة بالسلالة ، فإن القليل من الجينات شائع ولكن ليس عالميًا ، والعديد من الجينات لها أطباء تقويم في جميع السلالات. في مثل هذا النموذج ، لا يوجد جينوم "أساسي" ، حيث يمكن تبادل أي جين مع المجموعة البيئية. بالإضافة إلى ذلك ، فإن الأعداد الكبيرة من الجينات مع أخصائيي تقويم العظام في جميع السلالات ترجع إما إلى نقل الجينات المنخفض أو عن طريق أخذ عينات فقط من سلالات قليلة ولا تشير بالضرورة إلى أن أيًا من هذه الجينات ضروري للكائن الحي. ومع ذلك ، فإن النماذج غير المحايدة التي كانت فيها بعض أجزاء الجينوم مقاومة نسبيًا لقبول مادة وراثية جديدة وجزء صغير جدًا تم دمج الجينات فيه بسهولة ، تناسب بشكل عام البيانات بشكل أفضل لستة أنواع درسها هيجمان وويتز [10]. تتضمن هذه الأنواع من النماذج جينومًا أساسيًا يُمنع بشكل صارم من تبادل الجينات مع البيئة (النموذج C) [10] أو الجينوم الأساسي الذي يكون فيه إعادة التركيب ممكنًا ، على الرغم من أنه من غير المحتمل (النموذج D).

كونين وآخرون. [11] تصنيف أحداث نقل الجينات الأفقي إلى 3 فئات: 1) اكتساب جين جديد غير متماثل مع الجينات الأخرى في الجينوم أو pangenome ، 2) اكتساب Paralog ليس له تاريخ تطوري بعيد أو بعيد عنه ، و 3) متماثل إعادة التركيب الذي فيه الحصول على تقويم العظام يتبعه إزاحة الجين السلف (الإزاحة المتبادلة). تتضمن الحالتان الأوليان تعطيل الترتيب الجيني للجينوم المتلقي فيما يتعلق بحالة أسلافه بينما لا يحدث ذلك عادةً إلا إذا تم نقل الجينات الأخرى أيضًا ولم يكن النقل متبادلاً تمامًا [12]. ومع ذلك ، بالنسبة للجزء الأكبر ، ترتبط معدلات إعادة التركيب ارتباطًا إيجابيًا بتشابه التسلسل [13-15] وإعادة التركيب المتماثل بين السلالات وثيقة الصلة يحتفظ بالترتيب الجيني الأصلي.

ال ب. الزائفة لذلك ، يبدو أن الجينوم لديه تنظيم متناقض إلى حد ما. من ناحية ، يبدو أن هناك حفظًا مكثفًا لترتيب الجينات عند مقارنة الجينومات [16] ، مما يشير إلى أن معدلات نقل الجينات الأفقية منخفضة أو على الأقل تحدث بطريقة تحفظ ترتيب الجينات. قد يحدث هذا حتى مع إعادة التركيب المتماثل على نطاق واسع أو من خلال دمج الحمض النووي الغريب في المناطق التي تم فيها بالفعل تعطيل ترتيب الجين السلفي. من ناحية أخرى ، لوحظت مستويات عالية من نقل الجينات الجانبي [8] التي لا يمكن تحديدها بدقة في مواقع قليلة [7 ، 8] ، والتي من المتوقع أن تقلل بشكل كبير من الحفاظ على ترتيب الجينات ما لم تكن إعادة التركيب متماثلة بشكل حصري تقريبًا .

هناك هدفان رئيسيان لهذه الورقة. الأول هو وصف pangenome من ب. الزائفة باستخدام مجموعة واسعة جغرافيا من 37 جينوم. لقد أظهرنا ، كما كان مشتبهًا ، أن الجينوم مفتوح وأن حجم الجينوم الأساسي ، المتوقع أن ينخفض ​​مع زيادة عدد السلالات المتسلسلة ، هو 4568 ± 16 جينًا. ثانيًا ، نحن نبحث في دور نقل الجينات الأفقي في تفكيك ترتيب الجينات ووجدنا أن نقل الجينات للحمض النووي غير المتماثل من المحتمل أن يحدث في مواقع قليلة فقط ، ويفترض أن مواقع GI ، وهذا يسمح بالحفاظ على ترتيب الجينات على نطاق واسع عبر الجينوم. .


نتائج

عن طريق تسلسل الجينوم الكامل 13 C. hyointestinalis subsp. hyointestinalis سلالات ، قمنا بتوسيع المجموعة الحالية من الجينومات المتاحة لـ 45٪ C. hyointestinalis. ثم ، من خلال استعادة 29 جينومًا إضافيًا من C. hyointestinalis subsp. hyointestinalis (ن = 19) و C. hyointestinalis subsp. لاوسوني (ن = 10) من قواعد البيانات العامة ، قمنا ببناء مجموعة بيانات جينومية تتكون من 42 جينومًا (الجدول 1). تمثل هذه الجينومات سلالات معزولة بين عامي 1985 و 2016 من خمسة مضيفات مختلفة في ستة بلدان مختلفة. تم استخدام مجموعة البيانات هذه لتطبيق مقاربات pangenomic و phylogenetic والبيئية للكشف عن المصادر الرئيسية للتنوع الجيني بين C. hyointestinalis الأنواع الفرعية.

التنوع الجيني C. hyointestinalis subsp. hyointestinalis سلالات متسلسلة في هذه الدراسة

لتحديد درجة التباين الجيني بين الجديد C. hyointestinalis subsp. hyointestinalis الجينومات التي تم إنشاؤها من سلالات معزولة في كندا ، استخدمنا مخطط الكتابة المتسلسل متعدد البؤرة المتاح حاليًا (MLST) لـ C. hyointestinalis. كشف هذا التحليل أن 7 من أصل 13 (54٪) جينومات قدمت أنواع تسلسل جديدة (STs). من بينها ، كانت ثلاث سلالات جديدة (سلالات 006A-0063 و 006A-0178 و 006A-0196) نتاجًا لمجموعات جديدة من الأليلات الموصوفة سابقًا. كانت STs الجديدة المتبقية نتاج أليلات غير معروفة سابقًا للجينات tkt, أسبا, glnA و pgm. اللافت للنظر ، وليس واحد C. hyointestinalis subsp. hyointestinalis يحتوي تسلسل الجينوم في هذه الدراسة على نفس النمط الجيني MLST (الجدول S1).

C. hyointestinalis الأنواع الفرعية هي سلالات معزولة وراثيا

لاكتساب نظرة ثاقبة على التركيب السكاني ل C. hyointestinalis أعدنا بناء السلالات النسيلية للأنواع بدءًا من محاذاة الجينوم الأساسية التي تتكون من 1،320،272 موضعًا (تمثل 66 ٪ من أطول جينوم). بعد إزالة عمليات إعادة التركيب ، بقي 81000 موقع فقط (تمثل 6٪ من محاذاة الجينوم الأساسي الأصلي) في الإطار النسيلي. أظهر التطور النسلي الناتج طوبولوجيا شديدة التنظيم مع فصل كلا النوعين الفرعيين تمامًا في سلالتين متميزتين مع اختلافات واضحة في توزيع المضيف (الشكل 1 أ ، ب). كان هذا يتماشى مع متوسط ​​هوية النوكليوتيدات (ANI) 13 من

95٪ يفصل C. hyointestinalis subsp. hyointestinalis من عند C. hyointestinalis subsp. لاوسوني (الشكل 1 ج). جاءت الأدلة الداعمة للعزلة الجينية لكلا النوعين الفرعيين أيضًا من استكشاف أنماط إعادة التركيب على مستوى الجينوم ، والتي كشفت عن حاجز لإعادة التركيب المتماثل بين النوعين. C. hyointestinalis subsp. hyointestinalis من عند C. hyointestinalis subsp. لاوسوني (فيما عدا C. hyointestinalis subsp. hyointestinalis السلالات S1499c و 006A-0180 التي تم دمجها مع C. hyointestinalis subsp. لاوسوني سلالات) (الشكل 1 د). بالإضافة إلى، C. hyointestinalis subsp. hyointestinalis يبدو أنه مؤلف أكثر بكثير من C. hyointestinalis subsp. Lawsonii ، كما يتضح من وجود نسبة أعلى بكثير من الجينومات الموجودة داخل المناطق المؤتلفة (الشكل 1E).

نسالة متميزة من الناحية البيئية وإعادة تركيبها C. hyointestinalis الأنواع الفرعية. (أ) نسالة الجينوم الأساسية للأنواع C. hyointestinalis. يبرز لون الفرع ملف C. hyointestinalis subsp. لاوسوني النسب باللون الأحمر و C. hyointestinalis subsp. hyointestinalis باللون الأزرق. تشير ملصقات التلميح إلى اسم السلالة ويتم تلوينها وفقًا لمصدر العزل. تظهر أطوال الفروع المعبر عنها بعدد الاستبدالات في قاع الشجرة. (ب) Barplot يوضح توزيع العوائل في كليهما C. hyointestinalis الأنواع الفرعية. (ج) تعرض Boxplots قيم ANI المحسوبة داخل وبين الجينومات التي تنتمي إلى كل نوع فرعي. تبلغ الأنواع الفرعية بين الأنواع ANI حوالي 95 ٪ ، مما يشير إلى أن كلا النوعين الفرعيين قريبان من الحدود القياسية لتعريف الأنواع. (د) تحليل شبكة الكتل المؤتلف المشتركة (الحواف) بين C. hyointestinalis الجينومات (الرؤوس). يرتبط أي زوج من الجينومات بحافة إذا كانا يشتركان في أي كتلة مؤتلفة. يتناسب عرض الحافة مع عدد الكتل المؤتلفة المشتركة بين أزواج الجينوم. يتضح حاجز إعادة التركيب بين C. hyointestinalis subsp. hyointestinalis و C. hyointestinalis subsp. لاوسوني. (هـ) تعرض Boxplots عدد المواضع المعاد تجميعها في جينومات كلا النوعين الفرعيين. لوحظ وجود فروق ذات دلالة إحصائية لصالح C. hyointestinalis subsp. hyointestinalis (ع = 0.0035 ، اختبار مان ويتني يو).

الجينات الملحقة تميز كليهما C. hyointestinalis الأنواع الفرعية

لاكتساب مزيد من التبصر في التطور الجيني لـ C. hyointestinalis الأنواع الفرعية التي أعدنا بناء pangenome الخاص بها. تم تحديد ما مجموعه 4317 مجموعة جينية من بينها 3040 (70 ٪) من الجينات الملحقة (الجدول S2). كان متوسط ​​حجم الجينوم الملحق 580 (معدل الذكاء = 174) و 538 (معدل الذكاء = 74) لـ C. hyointestinalis subsp. hyointestinalis و C. hyointestinalis subsp. لاوسوني، على التوالى. يوضح الشكل 2 أ اختلافًا كبيرًا في حجم الجينوم الإضافي لصالح C. hyointestinalis subsp. hyointestinalis (ع = 0.023 ، اختبار مان ويتني يو). لتجاهل التأثيرات المربكة المحتملة بسبب العدد غير المتوازن من الجينومات المتاحة لكل نوع فرعي ، كررنا هذا التحليل بأخذ عينات فرعية C. hyointestinalis subsp. hyointestinalis الجينوم لعدد من المتاحة C. hyointestinalis subsp. لاوسوني الجينوم. كشف هذا التحليل عن اختلاف لا يزال ملحوظًا في حجم الجينوم الإضافي لصالح C. hyointestinalis subsp. hyointestinalis (الشكل S1). كان هذا الاتجاه ملحوظًا أيضًا عند حساب تنوع جينات الملحقات باستخدام مؤشر Simpson المقلوب لكلا النوعين الفرعيين (p = 0.00021 ، اختبار Mann – Whitney U) (الشكل 2 ب). يسمح أيضًا لأنماط وجود / غياب الجين الإضافي بالتمييز التام بينهما C. hyointestinalis subsp. hyointestinalis و C. hyointestinalis subsp. لاوسوني باستخدام تحليل المكونات الرئيسية (PCA) ، مما يشير إلى أن لديهم مخزونات جينية ملحقة خاصة بنوع فرعي (الشكل 2 ج). في الواقع ، تم العثور على 1562 مجموعة جينية ملحقة بشكل حصري في C. hyointestinalis subsp. hyointestinalis الجينوم بينما كان 618 فقط خاصًا بـ C. hyointestinalis subsp. لاوسوني الجينوم.

مميزة جينومات ملحق في C. hyointestinalis الأنواع الفرعية. (أ) تعرض Boxplots عدد الجينات الملحقة (حجم الجينوم الإضافي) في كلا النوعين الفرعيين. C. hyointestinalis subsp. hyointestinalis يمتلك جينوم ملحق أكبر قليلاً من C. hyointestinalis subsp. لاوسوني (ع = 0.023 ، اختبار مان ويتني يو). (ب) تعرض Boxplots تنوع جينات الملحقات (كما تم قياسها بواسطة مؤشر Simpson المقلوب) في كلا النوعين الفرعيين. C. hyointestinalis subsp. hyointestinalis لديه جينوم ملحق أكثر تنوعًا بشكل ملحوظ من C. hyointestinalis subsp. لاوسوني (ع = 0.00021 ، اختبار مان ويتني يو). (ج) يُظهر تحليل المكون الرئيسي باستخدام أنماط الجينات الإضافية أن كلا النوعين الفرعيين يمثلان مجموعتين مختلفتين تمامًا.

الفروق الوظيفية في الجينوم الملحق C. hyointestinalis الأنواع الفرعية

لتقييم الجوانب الوظيفية المحتملة المرتبطة بتمييز أنماط الجينات الملحقة المختلفة C. hyointestinalis نوعًا فرعيًا ، أجرينا تصنيفًا وظيفيًا بناءً على قاعدة بيانات eggNOG 14. أولاً ، وجدنا فصلًا كاملاً للأنواع الفرعية عند استخدام التعليقات التوضيحية الوظيفية لإجراء PCA (ع = 0.001 ، اختبار بيرمانوفا) ، مما يدعم أن جينومات الملحقات تختلف وظيفيًا فيما بينها (الشكل 3 أ). بعد ذلك ، بحثنا عن الفئات الوظيفية التي يمكن أن تميز بين الأنواع الفرعية ووجدنا أن الجينات التي تنتمي إلى الفئة الوظيفية المشار إليها باسم "تكرار الحمض النووي وإعادة التركيب والإصلاح" (L) قدمت الأنماط التمييزية الأكثر إفادة (الشكل 3 ب). بالنظر إلى هذا الدليل ، قمنا بدراسة البروتينات المرتبطة بـ CRISPR (Cas) وأنظمة تعديل القيود (R-M) ، والمعروف عنها أنها تشارك في إعادة تركيب الحمض النووي وإصلاحه. يوضح الشكل 4 أن أنظمة Cas أكثر تنوعًا وانتشارًا في ج. hyointestinalis subsp. hyointestinalis. الأهم من ذلك ، أن تحليلنا لم يجد أي نظام Cas كامل في C. hyointestinalis subsp. لاوسوني الجينوم. على وجه الخصوص ، كان نظام CAS من النوع الأول هو الأكثر انتشارًا في C. hyointestinalis subsp. hyointestinalis الجينوم (59٪) تم العثور على عدد أكبر من أنظمة R-M الكاملة في C. hyointestinalis subsp. لاوسوني (يعني = 5) من في C. hyointestinalis subsp. hyointestinalis (يعني = 2). على وجه الخصوص ، كانت أنظمة النوع الثاني والنوع الثالث R-M تحتوي على نسخ & gt 2 في 90٪ من C. hyointestinalis subsp. لاوسوني الجينوم وفقط في 25٪ من C. hyointestinalis subsp. hyointestinalis الجينوم.

جينومات ملحقة مميزة وظيفيًا في C. hyointestinalis الأنواع الفرعية. (أ) تحليل المكون الرئيسي يظهر ذلك C. hyointestinalis تشكل الأنواع الفرعية مجموعتين مختلفتين (p = 0.001 ، اختبار بيرمانوفا) بناءً على التحليل الوظيفي للجينات الملحقة. (ب) Boxplot يوضح مساهمة كل فئة وظيفية في التباين الموضح بواسطة المكون الرئيسي الأول (PC1). تشبه أكواد الفئات الوظيفية تلك المستخدمة بواسطة قاعدة بيانات eggNOG. تم تمييز الفئة الأعلى تصنيفًا (L: إعادة التركيب وإصلاح الحمض النووي) باللون الأسود.

مجموعات مختلفة من بروتينات CRISPR / Cas وأنظمة R-M بين الأنواع الفرعية. شجرة النشوء والتطور C. hyointestinalis الأنواع الفرعية المشروحة بأنظمة المعلومات CRISPR / Cas وأنظمة R-M. يتم تلوين الشرائط الرأسية في الجانب الأيمن وفقًا لعدد النسخ لأنظمة CRISPR / Cas و R-M الكاملة المصنفة حسب النوع. يتم توفير معلومات مفصلة حول رقم النسخة في الجدول S4.


مناقشة

أصبحت Pangenomes تستخدم على نطاق واسع لتمثيل التنوع الجيني وتحليله والتنبؤ به لأعداد كبيرة من نوع أو جنس واحد. في هذه الدراسة ، قمنا بدمج أدوات علم الوراثة ، وإمكانية إضافة شروح وظيفية وظاهرية بالإضافة إلى إجراءات مراقبة الجودة والاختيار في PanTools لإجراء تحليلات pangenome هذه بفعالية. طبقنا هذه الوظائف الجديدة على الجنس المعقد بكتوباكتيريوم لبناء نسالة شاملة يمكن أن توجه بكتوباكتيريوم البحث وتحديد الجينات والطفرات الخاصة بالكتل أو الأنماط الظاهرية التي يمكن استخدامها كواسمات تشخيصية.

ضمان الجودة للحصول على pangenome موثوق

لضمان جودة تحليل البيانات ، قمنا بفحص الجينوم قبل التضمين في pangenome وقمنا بتحسين إعدادات التجميع لتعيين البروتينات لمجموعة التماثل الصحيحة. استخدمنا BUSCO [33] للتحقق من الاكتمال واستخدمنا الجينومات التي حصلت على درجة BUSCO بنسبة 99٪ على الأقل. كانت أعلى درجة 99.7٪ وكان متوسط ​​الدرجة 99.6٪ من المجموعة الأصلية. أظهر تحليل أقرب لمخرجات BUSCO أن بعض الجينات لم يتم العثور عليها في سلالات معينة من بكتوباكتيريوم أدى تعيين إزالة هذه الجينات من مجموعة البيانات إلى زيادة متوسط ​​الدرجة إلى 99.9٪.

يعد تصنيف الجينات الفردية إلى مجموعات التماثل خطوة حاسمة في التحليل النمطي. يتأثر تكوين مجموعات التماثل بعدة عوامل ، منها قطع تشابه البروتين هو الأكثر تأثيرًا. يعتمد الإعداد المناسب على التنوع الجيني لتسلسلات الجينوم المضمنة. للجنس بكتوباكتيريوم طبقنا استراتيجية جديدة للتحقق من الإعدادات باستخدام مجموعة مرجعية BUSCO على أساس تقويم العظام من OrthoDB [43]. نظرًا لأن جينات BUSCO يجب أن تتجمع بشكل منفصل في مجموعات تقويم العظام أحادية النسخة ، وجدنا أن التجميع الأمثل تم الحصول عليه في بكتوباكتيريوم pangenome باستخدام قطع تشابه بنسبة 65٪ ، مما ينتج عنه درجات تذكر ودقة تبلغ 99.9٪. تم تأكيد هذه النتائج بشكل أكبر من خلال حقيقة أن مجموعات التماثل الأساسية لعام 2032 في بكتوباكتيريوم غنية جدًا بالوظائف التي تتعلق بالحفاظ على الوظائف الخلوية القاعدية. حجم الجينوم الأساسي أصغر بكثير مقارنة بالحجم الأكبر بكتوباكتيريوم تم العثور على pangenome حتى الآن ، والذي قُدر أنه يحتوي على 3171 جينًا أساسيًا [41] ومع ذلك ، تضمنت دراستهم عددًا أقل من الأنواع (7 بدلاً من 19) وجينومات أقل (84 بدلاً من 197).

يعتمد نهج pangenomic على تجميع التماثل الصحيح. يجب توخي الحذر عند تفسير تصنيف الجينات ، حيث أن كل من الأجزاء الأساسية والفريدة من pangenome حساسة للغاية لجودة الجينوم المنخفضة والتعليقات التوضيحية. من خلال تطبيق إعدادات صارمة لمراقبة الجودة والتحقق من صحة مجموعات التماثل الأساسية والفريدة من نوعها ، يمكننا وضع حدود صارمة وفريدة من نوعها حيث في دراسات أخرى ، للتحايل على تأثير جودة الجينوم والتعليقات التوضيحية ، يتم تخفيف العتبات للسماح باكتشاف الجينات الأساسية والفريدة من نوعها [44 ، 45]. علاوة على ذلك ، قمنا بفحص الحالات الاستثنائية التي يبدو فيها أن الجينات غائبة أو موجودة في واحد فقط من الجينوم الـ 197. استنادًا إلى عمليات بحث BLAST ، نوضح أن الجينات يمكن أن تكون غائبة بالفعل في سلالة واحدة ولم يتم تفويتها بسبب سوء التفسير ، بينما من المحتمل أن تكون الجينات الفريدة جينات حقيقية حيث أن أكثر من 90٪ يشاركون في التماثل الكبير مع الجينات خارج بكتوباكتيريوم جنس. نظرًا لأن حجم pangenomes سيتوسع فقط في المستقبل ، فإن ضمان جودة البيانات سيكتسب أهمية أكبر.

تأثير التوزيع غير المتكافئ للتنوع الجيني

نظرًا للمجموعة الكبيرة والمتنوعة من بكتوباكتيريوم الجينومات المقدمة في هذه الدراسة ، يمكن تقييم حجم وانفتاح البانجينوم. ال بكتوباكتيريوم يبدو أن pangenome من 197 سلالة تضم 19 نوعًا في طريقها للإغلاق ، لأنه في المتوسط ​​فقط تم اكتساب 6.5 (σ 50.9) من الجينات الجديدة على آخر جينوم مضاف في تقدير حجم pangenome. اللافت أن الممثلين بقوة P. برازيلينس لا تزال المجموعة الفرعية المكونة من 87 جينومًا تكتسب المزيد من الجينات الجديدة على آخر جينوم مضاف مقارنة بالبانجينوم الذي يحتوي على 110 جينومًا من 18 نوعًا مختلفًا. وهكذا ، على الرغم من أن ما يقرب من نصف السلالات تنتمي إلى نفس النوع ، فمن المحتمل أن يتم الحصول على جينات جديدة أكثر نسبيًا بإضافة المزيد P. برازيلينس الجينوم إلى pangenome. هذا يرتبط بالتنوع الجيني لـ P. برازيلينس كونها الأعلى على الإطلاق بكتوباكتيريوم محيط. أدنى درجة ANI في P. برازيلينس هو & gt 93.9٪ ، يليه & gt 95.7٪ في P. aquaticum و GT 96.8٪ في P. بولاريس. وفقًا لذلك ، تمتلك هذه الأنواع الثلاثة أيضًا أعلى مسافة جينية بين أعضاء الأنواع: 41.3 و 28.9 و 26.3 ٪ على التوالي. في المقابل ، تُظهر معظم الأنواع الأخرى تشابهًا وراثيًا أعلى بكثير مع درجة ANI قريبة من 99٪: P. atrosepticum & GT 98.8٪ ، P. odoriferum & GT 98.6٪ و P. parmentieri & GT 98.8٪. ال بكتوباكتيريوم لا يحتوي البنجينوم على مجموعة جينية لانهائية ولكن بالنظر إلى معدل اضمحلال قانون Heaps (0.53) والتوزيع غير المتكافئ للتنوع الجيني ، لا ينبغي اعتباره مغلقًا ، وهو ما يتماشى مع بنية pangenome المفتوحة التي لوحظت في البكتيريا الأخرى [41 ، 46 ]. بالنسبة لبعض الأنواع أو الكتل داخل الأنواع مثل الخبيثة P. برازيلينس المدخلات (ANI 99.96) ، قد يتم تغطية التنوع المتاح إلى حد كبير في التيار بكتوباكتيريوم يمكن اعتبار pangenome وهذه الأجزاء مشبعة.

كشفت العلاقات التطورية في بكتوباكتيريوم بانجينوم

إعادة البناء الوراثي هو جزء أساسي من جميع المقاربات الجينومية المقارنة. في تحليلنا pangenomic قمنا بتطبيق ومقارنة خمسة أساليب مختلفة شائعة الاستخدام لإعادة بناء الأشجار: ANI و MLSA وشجرة SNP المشتقة من مجموعات النسخ المفردة و k-mer والمحتوى الجيني. الطرق الخمس متميزة في الإستراتيجية ، وتستغل الأساليب القائمة على المحاذاة ، أو الجينات المعروفة أو المحتوى الجينومي الكامل. على الرغم من هذه الاختلافات ، تم العثور على النتائج لتكون متوافقة إلى حد كبير وتمثل العلاقات التصنيفية بدقة.

من بين الأشجار الخمسة المشيدة (النشوء والتطور) ، كان النهج التطوري القائم على SNPs من جميع الجينات المتعامدة ذات النسخ المفردة أعلى دقة. توفر شجرة SNP الأساسية هذه تمثيلًا دقيقًا للعلاقات التطورية داخل بكتوباكتيريوم جنس وكان مطابقًا للتطور الذي أبلغ عنه Pasanen et al. (2020) [9]. تمت مقارنة طوبولوجيا شجرة SNP الأساسية باستخدام اختبار AU [47 ، 48] ، الذي رفض التشابه مع جميع الأنساب الأخرى باستثناء شجرة مسافة k-mer. بالنظر إلى أن شجرة SNP الأساسية تم استنتاجها من 452388 SNPs وفروع قليلة فقط داخلها P. برازيلينس غامضة, من المحتمل أن يكون فاصل الثقة لاختبار AU ضيقًا ، حيث تم العثور على اختلافات طفيفة فقط مع طوبولوجيا شجرة ANI و MLSA. بالنظر إلى أن عدد الجينومات في pangenome سيستمر في النمو ، فإن طريقة SNP لها جانب سلبي واضح ، وهو وقت التشغيل. لمحاذاة التسلسلات واستدلال ML ، استخدمنا MAFFT [49] وشجرة الذكاء [47] ، على التوالي ، أداتان عاليتا الكفاءة تتعاملان مع مجموعات البيانات الكبيرة وتتسع وفقًا لعدد الجينومات. ومع ذلك ، عندما يحتوي pangenome على آلاف الجينوم ، فإن هذه الطريقة القائمة على المحاذاة ستصبح في النهاية مضيعة للوقت. لذلك ، توفر الطريقة القائمة على k-mer بديلاً جيدًا ، حيث إنها الأكثر كفاءة من الناحية الحسابية وأظهرت أعلى تطابق مع نسقنا الأساسي SNP. وبالمثل ، تم تطوير العديد من التقنيات الخالية من المحاذاة لمعالجة مثل هذه المشكلات مع قابلية التوسع [50 ، 51].

تحديد مستوى الأنواع مطلوب لاكتشاف الجينات الخاصة بالأنواع ، ومع ذلك ، فإن الأسماء غير الصحيحة للأنواع في مجموعات البيانات العامة هي ظاهرة شائعة [52 ، 53]. لذلك ، استخدمنا درجة ANI بنسبة 95٪ فيما يتعلق بنوع السلالة لتصنيف السلالات إلى أنواع [35 ، 54 ، 55]. بهذه الطريقة ، يمكننا منع التناقضات في تحليل المصب. لا يمكن تصنيف سلالة واحدة فقط ، NAK 253 ، في أي من السلالات المعروفة بكتوباكتيريوم محيط. نفترض أن هذا يمكن أن يكون نوعًا جديدًا أكثر ارتباطًا به P. بولاريس ، P. برازيلينس و P. بارفوم. يشير تحليلنا أيضًا إلى وجود تنوع وراثي مرتفع بين P. برازيلينس. جينومات P. برازيلينس يتم تجميعها باستمرار في ثلاث إلى أربع مجموعات متميزة في أشجار k-mer و SNP الأساسية وقد تمثل نوعًا فرعيًا. سلالة أخرى مثيرة للاهتمام هي NAK 467 ، تم تحديدها على أنها P. aquaticum ، معزولة في هولندا من قناة جانبية لنهر الميز الذي ينبع في فرنسا. بعيد جدا P. aquaticum تم الإبلاغ عنه فقط في فرنسا [56] ، حيث وجد أنه ينتشر عبر مياه الأنهار.

جينات خاصة بالأنواع ، هل تبحث عن شبح؟

كان أحد المقاصد الأولية لهذه الدراسة هو استغلال pangenome لتحديد الجينات الخاصة بالأنواع والمناطق الأكبر من الجينات المتولدة. غالبًا ما كانت المحاولات السابقة لتحديد هذه الأمور محيرة بسبب التنوع الموجود عندما تم أخذ عينات من المزيد من المجالات البيئية أو المناطق الجغرافية. لقد تصورنا أن نهج pangenome الشامل من شأنه أن يقضي على هذا المأزق ويسمح باختيار أفضل للجينات. نظرًا لأن الغالبية العظمى من البروتينات ومجموعات التماثل موجودة فقط في جينومات معينة في pangenome وتمثل الجينات الملحقة أعلى نسبة في كل جينوم فردي ، فهناك العديد من المرشحين الذين يمكن أن يكونوا محددًا لأنواع معينة. ومع ذلك ، توضح دراستنا أنه بالنسبة لأنواع معينة ، مثل P. برازيلينس ، ليس أي من هذه الجينات الملحقة محددًا للأنواع. نظرًا لأننا تحققنا من أن التحديد الصحيح على مستوى الأنواع والأنواع الفرعية بواسطة ANI وجميع السلالات يتوافق مع التصنيف الصحيح للسلالات إلى الأنواع ، فإننا نستنتج أنه بالنسبة إلى أفضل الأنواع التي تم أخذ عينات منها في بكتوباكتيريوم بانجينوم P. برازيلينس ، الجينات الخاصة بالأنواع غير موجودة ببساطة. تم العثور على نتائج مماثلة ل P. carotovorum, P. تنوعا، و P. بولاريس. للأنواع P. aquaticum, P. atrosepticum, P. parmentieri و P. odoriferum استمرت العديد من الجينات الخاصة بالأنواع المرشحة ، ونفترض أن زيادة عدد الجينومات ستؤدي إلى زيادة تقليل هذا العدد وأن الجينات الخاصة بالأنواع ليست في الأساس مفهومًا بنّاءً لـ بكتوباكتيريوم.

يعد نقل الجينات الأفقي (HGT) أحد الآليات الرئيسية في تطور بدائيات النواة للتبادل الجانبي للجينات. الذي - التي بكتوباكتيريوم الأنواع يمكن أن تتكيف مع التغيرات البيئية من خلال أحداث HGT وقد لوحظ في العديد من الدراسات [57،58،59]. على الرغم من الافتراض بأن تكرار أحداث إعادة التركيب ينخفض ​​بشكل ملحوظ إلى أقل من 95٪ ANI [34 ، 60] ، لا يزال من المحتمل حدوث هذه الأحداث وتبادل الجينات بين السكان. إن الفكرة القائلة بأن تجمع الجينات المشترك ، الذي يعزز مجموعات جديدة من مجموعات التماثل ، يدفع التطور ، يؤكد بشكل أكبر على الحاجة إلى نهج pangenomic. بالإضافة إلى ذلك ، يبدو أن فقدان الجينات محرك مهم للتطور: فهو شائع حتى في العزلات ذات الصلة الوراثية الوثيقة (ANI & gt 99٪) [61 ، 62].

الفوعة في P. برازيلينس

كان أحد أهدافنا هو تحديد العلامات الوظيفية التي يمكن استخدامها لأغراض الكشف عن طريق مقارنة جينومات السلالات الخبيثة وعديمة الفوعة. لذلك استغلنا مرونة قاعدة بيانات الرسم البياني في PanTools لربط مستويات مختلفة من الشروح مع الاحتفاظ بجميع المعلومات. سمح لنا ذلك بربط النمط الظاهري (الفوعة) بالتعليقات التوضيحية مثل مجموعات التماثل أو شرح GO أو مجالات Pfam. بدت العزلات عديمة الفوعة متناثرة في جميع أنحاء شجرة النشوء والتطور على النقيض من ذلك ، فكلها خبيثة P. برازيلينس تشكل السلالات مجموعة متماسكة من جينومات متشابهة للغاية أو سلالة نسيلية. أخيرًا ، تم العثور على سلالتين عديم الفوعة في هذه السلالة متطابقة تقريبًا وراثيًا مع العزلات الخبيثة. لتمييز هاتين السلالتين الضاربتين عن السلالات شديدة الضراوة ، ركزنا على تباين جينات النسخة المفردة التي تمثل حوالي 95٪ من محتوى الجينوم الفردي. لم نعثر على جين إضافي أو مفقود ولا SNP لتمييز هذين الجينومين. ومع ذلك ، يمكن العثور على الاختلافات الجينية التي تفسر الأنماط الظاهرية المختلفة من خلال النظر في الجينات غير أحادية النسخة أو مقارنة هياكل الجينوم [63]. نهج آخر واعد هو تضمين المناطق بين الجينات في تحليل pangenomic. These regions account for approximately 15% of a Pectobacterium genome and contain important regulatory elements which play a key role in transcriptional regulation [64]. In addition to genetic or structural variation that could explain the difference in virulence, epigenetic modifications are known to result in different phenotypes as well. Through epigenetic regulation, bacteria respond quickly to environmental changes [65]. DNA methylation in particular is known to play important roles in bacterial pathogenicity [66].

We adjusted our approach to identify genes specific to the clonal lineage, allowing us to identify 86 genes only present in virulent isolates. This set of genes includes several gene candidates with functions that could contribute to the pathogenicity of P. brasiliense strains, such as a Lysozyme inhibitor [67], a Toll/interleukin-1 receptor [68], and a siderophore transport system [69]. Moreover, GO-terms associated, transposable elements and recombination are enriched in these genes. Combined with the fact that the 86 genes were found located largely in pairs or clusters in the genomes this further indicates that these additional genes were obtained by HGT [70] and could involve consecutive steps in pathways [71]. Instead of a single gene one or more clusters could be required for a fully virulent phenotype.


الاستنتاجات

In conclusion, our results reveal the detailed association between the environmental distribution and genomic diversity of oral bacterial populations. These patterns reveal that seeming generalist species are composed of cryptic subpopulations and that potentially only a small number of genes are associated with each subpopulation. More broadly, diversification to fully exploit available ecological niches is observed at many levels, from recognized species distinguished by many genes down to closely related subpopulations.


أساليب

SV genotyping algorithm

The input to the SV genotyping algorithm is an indexed variation graph in xg format along with a (single-sample) read alignment in GAM format. If the graph was constructed from a VCF, as was the case for the human-genome graphs discussed in this paper, this VCF can also be input to the caller. The first step is to compute a compressed coverage index from the alignment using this command, vg pack <graph.xg> <alignment.gam> -Q 5 -o graph.pack. This index stores the number of reads with mapping quality at least 5 mapped to each edge and each base of each node on the graph. Computing the coverage can be done in a single scan through the reads and, in practice, tends to be an order of magnitude faster than sorting the reads.

Variation graphs, as represented in vg, are bidirected. In a bidirected graph, every node can be thought of having two distinct sides. See, for example, the left and right sides of each rectangle in Fig. 1a. لو x is the side of a given node أ, then we use the notation x’ to denote the other side of أ. A snarl is defined by a pair of sides, x و ذ, that satisfy the following criteria:

Removing all edges incident to x’ و y’ disconnects the graph, creating a connected component X that contains x و ذ.

There is no side ض في X such that satisfies the above criteria. وبالمثل ل ذ.

Snarls can be computed in linear time using a cactus graph decomposition [24]. They can be computed once for a given graph using vg snarls, or on the fly with vg call.

Once the snarls have been identified, the SV genotyping algorithm proceeds as follows. For every snarl in the graph for which both end nodes lie on a reference path (such as a chromosome) and that it is not contained in another snarl, the following steps are performed.

All VCF variants, v1, v2, …, vk that are contained within the snarl are looked up using information embedded during graph construction. يترك |vi| be the number of alleles in the أناth VCF variant. ثم هناك |v1|x|v2|…x|vk| possible haplotypes through the snarl. If this number is too high (> 500,000), then alleles with average support of less than 1 are filtered out.

For each possible haplotype, a corresponding bidrected path through the snarl (from x إلى ذ) is computed.

For each haplotype path, its average support (over bases and edges) is computed using the compressed coverage index, and the two most supported paths are selected (ties are broken arbitrarily).

If the most supported path exceeds the minimum support threshold (default 1), and has more than ب (default 6) times the support of the next most supported path, the site is called homozygous for the allele associated with the most supported path.

Else if the second most supported path exceeds the minimum support threshold (default 1), then the site is deemed heterozygous with an allele from each of the top two paths.

Given the genotype computed above, it is trivial to map back from the chosen paths to the VCF alleles in order to produce the final output.

The command to do the above is vg call <graph.xg> -k <graph.pack> -v variants.vcf.gz. If the graph was not constructed from a VCF, then a similar algorithm is used except the traversals are computed heuristically searching through the graph. This is enabled by not using the -v option in the above command.

Toil-vg

toil-vg is a set of Python scripts for simplifying vg tasks such as graph construction, read mapping, and SV genotyping. Much of the analysis in this report was done using toil-vg, with the exact commands available at github.com/vgteam/sv-genotyping-paper. toil-vg uses the Toil workflow engine [36] to seamlessly run pipelines locally, on clusters or on the cloud. Graph indexing and mapping in particular are computationally expensive (though work is underway to address this) and well-suited to distribution on the cloud. The principal toil-vg commands used are described below.

Toil-vg construct

toil-vg construct automates graph construction and indexing following the best practices put forth by the vg community. Graph construction is parallelized across different sequences from the reference FASTA, and different whole-genome indexes are created side by side when possible. The graph is automatically annotated with paths corresponding to the different alleles in the input VCF. The indexes created are the following:

xg index: This is a compressed version of the graph that allows fast node, edge and path lookups

gcsa2 index: This is a substring index used only for read mapping

gbwt index: This is an index of all the haplotypes in the VCF as implied by phasing information. When available, it is used to help ensure that haplotype information is preserved when constructing the gcsa2 index

snarls index: The snarls represent sites of variation in the graph and are used for genotyping and variant calling.

Toil-vg map

toil-vg map splits the input reads into batches, maps each batch in parallel, then merges the result.

Toil-vg call

toil-vg call splits the input graph by chromosome and calls each one individually. vg call has been recently updated so that this subdivision is largely unnecessary: the entire graph can be easily called at once. Still, toil-vg can be used to farm this task out to a single cloud node if desired.

Toil-vg sveval

toil-vg sveval evaluates the SV calls relative to a truth set. Matching SV calls is non-trivial because two SV callsets often differ slightly around the breakpoints. Even for a genotyping experiment, the same input SVs can have equivalent but different representations. Furthermore, SV catalogs often contain very similar SVs that could be potentially duplicates of the same true variant. To make sure that SVs are matched properly when comparing genotyped SVs and the truth set, we use an approach that overlaps variants and aligns allelic sequences if necessary. It was implemented in the sveval R package (https://github.com/jmonlong/sveval). Additional file 1: Figure S17 shows an overview of the SV evaluation approach which is described below. Of note, the variants are first normalized with bcftools norm (1.9) to ensure consistent representation between called variants and baseline variants [37].

For deletions and inversions, we begin by computing the overlaps between the SVs in the call set and the truth set. For each variant, we then compute the proportion of its region that is covered by a variant in the other set, considering only variants overlapping with at least 10% reciprocal overlap. If this coverage proportion is higher than 50%, we consider the variant covered. True positives (TPs) are covered variants from the call set (when computing the precision) or the truth set (when computing the recall). Variants from the call set are considered false positives (FPs) if they are not covered by the truth set. Conversely, variants from the truth set are considered false negatives (FNs) if they are not covered by the call set.

For insertions, we select pairs of insertions that are located no farther than 20 bp from each other. We then align the inserted sequences using a Smith-Waterman alignment. For each insertion, we compute the proportion of its inserted sequence that aligns a matched variant in the other set. If this proportion is at least 50%, the insertions are considered covered. Covering relationships are used to define TPs, FPs, and FNs the same way as for deletions and inversions.

The results shown in this study used a minimum of 50% coverage to match variants but we also replicated the results using 90% minimum coverage and observed similar results (see Additional file 1: Figure S18).

The coverage statistics are computed using any variant larger than 1 bp but a minimum size is required for a variant to be counted as TP, FP, or FN. In this work, we used the default minimum SV size of 50 bp.

sveval accepts VCF files with symbolic or explicit representation of the SVs. If the explicit representation is used, multi-allelic variants are split and their sequences right-trimmed. When using the explicit representation and when the REF and ALT sequences are longer than 10 bp, the reverse-complement of the ALT sequence is aligned to the REF sequence to identify potential inversions. If more than 80% of the sequence aligns, it is classified as an inversion.

We assess both the ability to predict the presence of an SV and the full genotype. بالنسبة إلى presence evaluation, both heterozygous and homozygous alternate SVs are compared jointly using the approach described above. To compute genotype-level metrics, the heterozygous and homozygous SVs are compared separately. Before splitting the variants by genotype, pairs of heterozygous variants with reciprocal overlap of at least 80% are merged into a homozygous ALT variant. To handle fragmented variants, consecutive heterozygous variants located at less that 20 bp from each other are first merged into larger heterozygous variants.

Precision-recall curves are produced by successively filtering out variants of low quality. By default, the QUAL field in the VCF file is used as the quality information. لو QUAL is missing (or contains only 0 s), the genotype quality in the GQ field is used.

The evaluation is performed using all variants or using only variants within high-confidence regions. In most analysis, the high-confidence regions are constructed by excluding segmental duplications and tandem repeats (using the respective tracks from the UCSC Genome Browser). For the GIAB analysis, we used the Tier 1 high-confidence regions provided by the GIAB consortium in version 0.6.

The inserted/deleted sequence was also annotated using RepeatMasker [38]. SVs were separated by repeat family if the annotated repeat element covered more than 80% of the sequence. We recomputed precision and recall in the most frequent repeat families.

The average number of genotyped variants per variant in the truth set (Additional file 1: Figure S5) was computed by dividing the number of TPs from the call set by the number of TPs from the truth set, i.e., the ratio of matched variants between the two variant sets.

Other SV genotypers

BayesTyper (v1.5 beta 62888d6)

Where not specified otherwise, BayesTyper was run as follows. Raw reads were mapped to the reference genome using bwa mem [26] (0.7.17). GATK haplotypecaller [39] (3.8) and Platypus [40] (0.8.1.1) with assembly enabled were run on the mapped reads to call SNVs and short indels (< 50 bp) needed by BayesTyper for correct genotyping. The VCFs with these variants were then normalized using bcftools norm (1.9) and combined with the SVs across samples using bayesTyperTools to produce the input candidate set. k-mers in the raw reads were counted using kmc [41] (3.1.1) with a k-mer size of 55. A Bloom filter was constructed from these k-mers using bayesTyperTools makeBloom. Finally, variants were clustered and genotyped using bayestyper cluster and bayestyper genotype, respectively, with default parameters except --min-genotype-posterior 0. Non-PASS variants and non-SVs (GATK and Platypus origin) were filtered prior to evaluation using bcftools filter and filterAlleleCallsetOrigin, respectively.

Delly (v0.7.9)

The delly call command was run on the reads mapped by bwa mem [26], the reference genome FASTA file, and the VCF containing the SVs to genotype (converted to their explicit representations).

SVTyper (v0.7.0)

The VCF containing deletions was converted to symbolic representation and passed to svtyper with the reads mapped by bwa mem [26]. The output VCF was converted back to explicit representation using bayesTyperTools convertAllele to facilitate variant normalization before evaluation.

Paragraph (v2.3)

Paragraph was run using default parameters using the multigrmpy.py script, taking the input VCF and reads mapped by bwa mem [26] as inputs. We used the genotype estimates in the genotypes.vcf.gz output file. In order for Paragraph to run, we added padding sequence to problematic variants in the input VCFs of the GIAB and SVPOP catalogs.

SMRT-SV v2 Genotyper (v2.0.0 Feb 21 2019 commit adb13f2)

SMRT-SV v2 Genotyper was run with the “30x-4” model and min-call-depth 8 cutoff. It was run only on VCFs created by SMRT-SV, for which the required contig BAMs were available. The Illumina BAMs used where the same as the other methods described above. The output VCF was converted back to explicit representation to facilitate variant normalization later.

Running time and memory usage

Running times and memory usage for the different tools are shown in Additional file 1: Table S7. ال Elapsed (wall clock) time and the Maximum resident set size were extracted from the output of /usr/bin/time -v. We show the profiling results when genotyping the HGSVC SV catalog in the HG00514 sample.

Simulation experiment

We simulated a synthetic genome with 1000 insertions, deletions, and inversions. We separated each variant from the next by a buffer of at least 500 bp. The sizes of deletions and insertions followed the distribution of SV sizes from the HGSVC catalog. We used the same size distribution as deletions for inversions. A VCF file was produced for three simulated samples with genotypes chosen uniformly between homozygous reference, heterozygous, and homozygous alternate.

We created another VCF file containing errors in the SV breakpoint locations. We shifted one or both breakpoints of deletions and inversions by distances between 1 and 10 bp. The locations and sequences of insertions were also modified, either shifting the variants or shortening them at the flanks, again by up to 10 bp.

Paired-end reads were simulated using vg sim on the graph that contained the true SVs. Different read depths were tested: 1×, 3×, 7×, 10×, 13×, 20×. The base qualities and sequencing errors were trained to resemble real Illumina reads from NA12878 provided by the Genome in a Bottle Consortium.

The genotypes called in each experiment (genotyping method/VCF with or without errors/sequencing depth) were compared to the true SV genotypes to compute the precision, recall, and F1 score (see toil-vg sveval).

Breakpoint fine-tuning using graph augmentation

vg can call variants after augmenting the graph with the read alignments to discover new variants (see toil-vg call). We tested if this approach could fine-tune the breakpoint location of SVs in the graph. We started with the graph that contained approximate SVs (1–10 bp errors in breakpoint location) and 20× simulated reads from the simulation experiment (see “Simulation experiment”). The variants called after graph augmentation were compared with the true SVs. We considered fine-tuning correct if the breakpoints matched exactly.

HGSVC analysis

We first obtained phased VCFs for the three Human Genome Structural Variation Consortium (HGSVC) samples from Chaisson et al. [22] and combined them with bcftools merge. A variation graph was created and indexed using the combined VCF and the HS38D1 reference with alt loci excluded. The phasing information was used to construct a GBWT index [42], from which the two haploid sequences from HG00514 were extracted as a graph. Illumina read pairs with 30× coverage were simulated from these sequences using vg sim, with an error model learned from real reads from the same sample. These simulated reads reflect an idealized situation where the breakpoints of the SVs being genotyped are exactly known a priori. The reads were mapped to the graph, and the mappings used to genotype the SVs in the graph. Finally, the SV calls were compared back to the HG00514 genotypes from the HGSVC VCF. We repeated the process with the same reads on the linear reference, using bwa mem [26] for mapping and Delly Genotyper, SVTyper, Paragraph, and BayesTyper for SV genotyping.

We downloaded Illumina HiSeq 2500 paired-end reads from the EBI’s ENA FTP site for the three samples, using Run Accessions ERR903030, ERR895347, and ERR894724 for HG00514, HG00733, and NA19240, respectively. We ran the graph and linear mapping and genotyping pipelines exactly as for the simulation, and aggregated the comparison results across the three samples. We used BayesTyper to jointly genotype the three samples.

GIAB analysis

We obtained version 0.5 of the Genome in a Bottle (GIAB) SV VCF for the Ashkenazim son (HG002) and his parents from the NCBI FTP site. We obtained Illumina reads as described in Garrison et al. [15] and downsampled them to 50× coverage. We used these reads as input for vg call and the other SV genotyping pipelines described above (though with GRCh37 instead of GRCh38). For BayesTyper, we created the input variant set by combining the GIAB SVs with SNV and indels from the same study. Variants with reference allele or without a determined genotype for HG002 in the GIAB call set (10,569 out of 30,224) were considered “false positives” as a proxy measure for precision. These variants correspond to putative technical artifacts and parental calls not present in HG002. For the evaluation in high-confidence regions, we used the Tier 1 high-confidence regions provided by the GIAB consortium in version 0.6.

SMRT-SV v2 comparison (CHMPD and SVPOP)

The SMRT-SV v2 Genotyper can only be used to genotype sequence-resolved SVs present on contigs with known SV breakpoints, such as those created by SMRT-SV v2, and therefore could not be run on the simulated, HGSVC, or GIAB call sets. The authors shared their training and evaluation set: a pseudodiploid sample constructed from combining the haploid CHM1 and CHM13 samples (CHMPD), and a negative control (NA19240). The high quality of the CHM assemblies makes this set an attractive alternative to using simulated reads. We used this two-sample pseudodiploid VCF along with the 30× read set to construct, map, and genotype with vg, and also ran SMRT-SV v2 Genotyper with the “30x-4” model and min-call-depth 8 cutoff, and compared the two back to the original VCF.

In an effort to extend this comparison from the training data to a more realistic setting, we reran the three HGSVC samples against the SMRT-SV v2 discovery VCF (SVPOP, which contains 12 additional samples in addition to the three from HGSVC) published by Audano et al. [5] using vg and SMRT-SV v2 Genotyper. The discovery VCF does not contain genotypes. In consequence, we were unable to distinguish between heterozygous and homozygous genotypes and instead considered only the presence or absence of a non-reference allele for each variant.

SMRT-SV v2 Genotyper produces explicit no-call predictions when the read coverage is too low to produce accurate genotypes. These no-calls are considered homozygous reference in the main accuracy evaluation. We also explored the performance of vg and SMRT-SV v2 Genotyper in different sets of regions (Additional file 1: Figure S12 and Additional file 1: Table S5):

Non-repeat regions, i.e., excluding segmental duplications and tandem repeats (using the respective tracks from the UCSC Genome Browser).

Repeat regions defined as segmental duplications and tandem repeats.

Regions where SMRT-SV v2 Genotyper could call variants.

Regions where SMRT-SV v2 Genotyper produced no-calls.

Yeast graph analysis

For the analysis of graphs from de novo assemblies, we utilized publicly available PacBio-derived assemblies and Illumina short-read sequencing datasets for 12 yeast strains from two related clades (Additional file 1: Table 1) [28]. We constructed graphs from two different strain sets: For the five strains set, we selected five strains for graph construction (S.c. SK1, S.c. YPS128, S.p. CBS432, S.p. UFRJ50816 و S.c. S288C). We randomly selected two strains from different subclades of each clade as well as the reference strain S.c. S288C. بالنسبة إلى all-strain set in contrast, we utilized all 12 strains for graph construction. We constructed two different types of genome graphs from the PacBio-derived assemblies of the five or 12 (depending on the strains set) selected strains. In this section, we describe the steps for the construction of both graphs and the genotyping of variants. More details and the precise commands used in our analyses can be found at github.com/vgteam/sv-genotyping-paper.

Construction of the VCF graph

We constructed the first graph (called the VCF graph throughout the paper) by adding variants onto a linear reference. This method requires one assembly to serve as a reference genome. The other assemblies must be converted to variant calls relative to this reference. The PacBio assembly of the S.c. S288C strain was chosen as the reference genome because this strain was used for the S. cerevisiae genome reference assembly. To obtain variants for the other assemblies, we combined three methods for SV detection from genome assemblies: Assemblytics [29] (commit df5361f), AsmVar (commit 5abd91a) [30], and paftools (version 2.14-r883) [31]. We constructed a union set of SVs detected by the three methods (using bedtools [43]) and combined variants with a reciprocal overlap of at least 50% to avoid duplication in the union set. We merged these union sets of variants for each of the other (non-reference) strains in the strain set, and we then applied another deduplication step to combine variants with a reciprocal overlap of at least 90%. We then used vg construct to build the VCF graph with the total set of variants and the linear reference genome.

Construction of the cactus graph

The second graph (called the cactus graph throughout the paper) was constructed from a whole-genome alignment between the assemblies. First, the repeat-masked PacBio-assemblies of the strains in the strain set were aligned with our Cactus tool [27]. Cactus requires a phylogenetic tree of the strains which was estimated using Mash (version 2.1) [44] and PHYLIP (version 3.695) [45]. Subsequently, we converted the HAL format output file to a variation graph with hal2vg (https://github.com/ComparativeGenomicsToolkit/hal2vg).

Genotyping of SVs

Prior to genotyping, we mapped the Illumina short reads of all 12 yeast strains to both graphs using vg map. We measured the fractions of reads mapped with specific properties using vg view and the JSON processor jq. Then, we applied toil-vg call (commit be8b6da) to genotype variants, obtaining a separate genotype set for each of the 11 non-reference strains on both graphs and for each of the two strain sets (in total 11 × 2 × 2 = 44 genotype sets). From the genotype sets, we removed variants smaller than 50 bp and variants with missing or homozygous reference genotypes. To evaluate the filtered genotype sets, we generated a sample graph (i.e., a graph representation of the genotype set) for each genotype set using vg construct and vg mod on the reference assembly S.c. S288C and the genotype set. Subsequently, we mapped short reads from the respective strains to each sample graph using vg map. We mapped the short reads also to an empty sample graph that was generated using vg construct as a graph representation of the linear reference genome. In an effort to restrict our analysis to SV regions, we removed reads that mapped equally well (i.e., with identical mapping quality and percent identity) to all three graphs (the two sample graphs and the empty sample graph) from the analysis. These filtered out reads most likely stem from portions of the strains’ genomes that are identical to the reference strain S.c. S288C. We analyzed the remaining alignments of reads from SV regions with vg view and jq.


شكر وتقدير

The authors give thanks to the Colombian Agency for Science, Technology, and Innovation (Colciencias) and the National Fund for Science, Technology, and Innovation “Francisco José de Caldas” for grant 5817-5693-4856 to ABP and grant 1115-5693-3375 to ERP. The authors also thank the “Clinica Antioquia” microbiology laboratory staff, who donated the clinical isolates for the MLST studies. The JMR M.Sc. fellowship was supported by the Colombian Agency for Science, Technology, and Innovation (Colciencias) with funds of the 5817-5693-4856 grant.


مقدمة

With the advent of high-throughput low-cost sequencing technologies and metagenomic techniques, the field of microbial genomics has experienced a paradigm shift from single or few genome analyses to large-scale comparisons of hundreds to thousands of genomes. One of the important outcomes of such multi-genome studies is the concept of the pan-genome - a term coined by Tettelin وآخرون. in 2005 to refer to the complete inventory of genes in a particular species [in Greek, pan (παν) means ‘whole’] 1 . A study of seven Streptococcus agalactiae genomes by Tettelin وآخرون. demonstrated that strains of a bacterial species might differ substantially in their gene content and total gene pool of a species might be orders of magnitudes larger than the gene content of any single strain 1 . It is, therefore, rational to describe a bacterial species by its pan-genome, which includes a core genome containing genes shared by all strains, a dispensable genome containing accessory genes that exist in two or more strains and genes unique to single strains (also known singletons). The core genes are responsible for the basic aspects of the biology of the species and its major phenotypic traits while the accessory genes and singletons usually pertain to supplementary biochemical pathways and functions that may confer selective advantages such as ecological adaptation, virulence mechanisms, antibiotic resistance, or colonization of a new host. The pan genome analyses represent a new approach to species definition and provide a framework for estimating and/or modeling the genetic diversity of the study group.

During last ten years, pan genomic studies have been conducted on nearly fifty bacterial species, which include model organisms like الإشريكية القولونية and members of normal human flora like Lactobacillus paracasei as well as a number of pathogens like انفلونزا المستدمية, Coxiella burnetii, الالتهاب الرئوي العقدية, يرسينيا بيستيس etc. 2,3,4,5,6,7 . Traditionally defined at the species level, the pan genomic approach has later been implemented also at higher levels of phylogenetic resolution ranging from genus to phylum and beyond. Genus level studies were carried out on العقدية, السالمونيلا, Prochlorococcus etc., and the pan genome study of the الكلاميديا is an example of phylum level studies. Recently, Lapierre & Gogarten has extended the concept of the pan genome to the entire bacterial domain 8,9,10,11,12 . The concept has also been implemented in viral, plant and fungal genome studies 13,14,15,16,17 . Pan genome analyses have provided valuable insight into genome dynamics, population structure, species evolution, niche specialization, pathogenesis, drug resistance and many other features of the microbial world 1,18,19,20,21,22 . It has also been exploited for development of vaccines against bacteria 23 .

A number of free tools and web servers are available for pan genome analysis, but each of them suffers from one or the other limitations, leaving rooms for further improvement. For instance, PanOCT, being a web-based database, is applicable only to a limited number of species. Panseq, PanGP and Roary provide few functional features and hence, lack in downstream analyses. PGAP and ITEP include a number of functional modules, but are much slower in speed 24,25,26,27,28,29 . There has been, therefore, a pressing need for development a new computational pipeline, which will not only offer fast and efficient formalisms for construction of the pan genome through clustering of orthologous gene families and but also enable various downstream analyses such as mapping of the core, accessory & unique genes to various COG categories and/or KEGG pathways, phylogenetic analysis, في السيليكو multi locus sequence typing (MLST) and other relevant analyses. The pipeline should also provide options for selecting from different tools available for orthologous clustering and formation of binary gene presence/absence matrix. An option for applying the tools to a subset of the total dataset may facilitate identification of exclusive genetic features that can discriminate between different serological, ecological or pathogenic groups.

In this context we have developed an ultra-fast computational pipeline BPGA (Bacterial Pan Genome Analysis Tool) with seven functional modules for comprehensive pan genome studies and downstream analyses. In addition to all types of analyses offered by currently available tools, this pipeline contains certain novel features like Exclusive Gene Family Analysis, KEGG Pathway Analysis, GC Content Analysis, Subset Analysis etc. Other notable features of BPGA includes minimum running prerequisites, ease of handling, user friendly command line interface, freedom for user to select method for clustering, high quality image output and efficiency in terms of time cost.


Additional file 1.

Supplemental Figures S1 to S8.

Additional file 2: Table S1.

Description and features of the experimentally studied collection of 52 P. الزنجارية سلالات. The 52 strains experimentally studied strains are listed, altogether with all the features derived from this study.

Additional file 3: Table S2.

Genes significantly associated with virulence. Description of the 79 genes that comprise the HVA and LVA sets.

Additional file 4: Table S3.

Known virulence genes in the interactions between P. الزنجارية و C. ايليجانس under SK condition.

Additional file 5: Table S4.

Nomenclature for the experimentally studied bacterial genes. A set of genes associated with virulence are termed for the P. الزنجارية strains z8 and PAO1. Genes that constitute a gene block frequently found in multiple tandem copies in various strains are termed teg(G to N), for 'tandem element gene'. The region encompassing from tegG to tegN is referred to as 'teg gene block’. The Refseq gene ‘NT41_RS12090’ is termed ghlO (glycosyl hydrolase like ORF) as it exhibits similarity to domain Cdd:cd06549 (E-value: 0.02, CDD database) . The PAO1 genes: PA2228, vqsM, qsrO, and PA225, constitute a putative operon [33] that is referred to as ‘qsr’ operon.

Additional file 6: Table S5.

Bacterial strains generated in the present study. Strains generated in the present study are described with a strain name (AVPae #) and genotype (in both full and short formats).

Additional file 7: Table S6.

Gene targeted by CRISPR spacers.

Additional file 8: Table S7.

Description of in silico studied set of 1448 P. الزنجارية سلالات.

Additional file 9: Table S8.

Gene clustering analysis for the in silico studied P. الزنجارية سلالات. Shown are only gene clusters that contain sequences from the studied 52 strains.


شاهد الفيديو: Genetic Markers العلامات الوراثية (كانون الثاني 2022).