روش Sequence Alignment و انواع ان در بیوانفورماتیک
Sequence Alignment (تراز توالی) چیست
در بیوانفورماتیک، Sequence Alignment ،راهی برای مرتب کردن توالیهای اولیه DNA، RNA یا پروتئین برای شناسایی مناطق مشابه است که ممکن است نتیجه روابط عملکردی، ساختاری یا تکاملی بین توالیها باشد. توالی های هم تراز از باقی مانده های نوکلئوتیدی یا اسید آمینه معمولاً به صورت ردیف هایی در یک ماتریس نشان داده می شوند. شکافهایی بین باقیماندهها درج میشود تا باقیماندههایی با کاراکترهای یکسان یا مشابه در ستونهای متوالی تراز شوند.
در واقع
به روشهای مرتب کردن توالیهای آرانای، دیانای و پروتئین گفته میشود بهطوریکه مکانهای مشابهت بین توالیها را مشخص کند.
اگر دو دنباله در یک Alignment یک جد مشترک داشته باشند، عدم تطابق را می توان به عنوان جهش نقطه ای و شکاف به عنوان جهش indel (یعنی جهش های درج یا حذف) که در یک یا هر دو دودمان در مدت زمانی که از یکدیگر جدا شده اند، تفسیر کرد.
در Sequence Alignment پروتئین، درجه شباهت بین اسیدهای آمینه که موقعیت خاصی را در توالی اشغال میکنند، میتواند به عنوان معیاری تقریبی از میزان حفظ یک منطقه یا موتیف توالی خاص در میان دودمان تفسیر شود. عدم وجود جایگزینی، یا وجود تنها جانشینی های بسیار محافظه کارانه (یعنی جایگزینی اسیدهای آمینه که زنجیره های جانبی آنها دارای خواص بیوشیمیایی مشابهی هستند) در یک ناحیه خاص از توالی، نشان می دهد که این ناحیه دارای اهمیت ساختاری یا عملکردی است.
اگرچه بازهای نوکلئوتیدی DNA و RNA شباهت بیشتری به یکدیگر دارند تا اسیدهای آمینه، حفظ جفت بازها می تواند نقش عملکردی یا ساختاری مشابهی را نشان دهد. تراز توالی می تواند برای توالی های غیر زیستی، مانند شناسایی شباهت ها در یک سری از حروف و کلمات موجود در زبان انسان، استفاده شود. در تجارت، به طور خاص در بازاریابی، توالی خریدها نیز به طور فزاینده ای با همان روش هایی که در بیوانفورماتیک انجام می شود، تجزیه و تحلیل می شوند.
توالی های بسیار کوتاه یا بسیار مشابه را می توان به صورت دستی تراز کرد. با این حال، بسیاری از مسائل جالب نیاز به هم ترازی دنباله های طولانی، بسیار متغیر یا بسیار متعدد دارند که نمی توانند صرفاً با تلاش انسان تراز شوند. درعوض، دانش بشری عمدتاً در ساخت الگوریتمهایی برای تولید Sequence Alignment با کیفیت بالا و گاهی اوقات در تنظیم نتایج نهایی برای انعکاس الگوهایی استفاده میشود که نمایش الگوریتمی آنها دشوار است (به ویژه در مورد توالیهای نوکلئوتیدی).
انواع Sequence Alignment
رویکردهای محاسباتی برای Sequence Alignment به طور کلی به دو دسته تقسیم می شوند:
Alignment سراسری (global Alignment) و Alignment محلی(local alignment)
محاسبه یک global Alignment شکلی از بهینهسازی سراسری است که Alignment را مجبور میکند تا کل طول تمام دنبالههای موجود را در بر بگیرد. در مقابل، local alignment، مناطق مشابه را در توالیهای طولانی شناسایی میکنند که اغلب به طور کلی کاملاً متفاوت هستند. local alignment ها اغلب ترجیح داده می شوند، اما به دلیل چالش اضافی شناسایی مناطق شبیه هم، محاسبه آنها دشوارتر است.
تصویری از همترازیهای سراسری و محلی که کیفیت «شکافی» همترازیهای سراسری را نشان میدهد که اگر دنبالهها به اندازه کافی مشابه نباشند، ممکن است رخ دهد.
تصویری از همترازیهای سراسری و محلی که کیفیت «شکافی» همترازیهای سراسری را نشان میدهد که اگر دنبالهها به اندازه کافی مشابه نباشند، ممکن است رخ دهد.
همترازیهای سراسری، که تلاش میکنند هر باقیمانده را در هر دنبالهای تراز کنند، زمانی مفید هستند که توالیهای مجموعه پرس و جو مشابه و تقریباً با اندازه برابر باشند. (این بدان معنا نیست که ترازهای سراسری نمی توانند به شکاف ختم شوند.) یک تکنیک تراز کلی جهانی، الگوریتم Needleman-Wunsch نامیده می شود و بر اساس برنامه ریزی پویا است. همترازیهای محلی برای توالیهای غیرمشابه که مشکوک به داشتن مناطق مشابه یا موتیفهای توالی مشابه در بافت توالی بزرگترشان هستند، مفیدتر هستند. الگوریتم اسمیت-واترمن یک روش هم ترازی محلی عمومی است که بر اساس برنامه نویسی پویا است. با توالی های به اندازه کافی مشابه، هیچ تفاوتی بین ترازهای محلی و سراسری وجود ندارد.
روشهای ترکیبی که به روشهای نیمهجهانی یا «گلوکال» معروف هستند، تلاش میکنند تا بهترین همترازی ممکن را پیدا کنند که شامل شروع و پایان یک یا آن توالی باشد. این می تواند به ویژه زمانی مفید باشد که قسمت پایین دست یک دنباله با قسمت بالادست دنباله دیگر همپوشانی داشته باشد. در این مورد، نه هم ترازی سراسری و نه محلی کاملاً مناسب نیست: یک هم ترازی سراسری تلاش می کند تا هم ترازی را به فراتر از منطقه همپوشانی گسترش دهد، در حالی که یک تراز محلی ممکن است به طور کامل منطقه همپوشانی را پوشش ندهد.
Pairwise alignment
روشهای Pairwise alignment برای یافتن بهترین همترازیهای محلی (local) یا سراسری (global)دو دنباله استفاده میشوند. ترازهای زوجی را می توان تنها بین دو دنباله در یک زمان استفاده کرد، اما آنها برای محاسبه کارآمد هستند و اغلب برای روش هایی استفاده می شوند که به دقت بالایی نیاز ندارند (مانند جستجو در پایگاه داده برای دنباله هایی با همسانی بالا با یک پرس و جو). سه روش اصلی برای تولید ترازهای زوجی عبارتند از روشهای ماتریس نقطهای، برنامهنویسی پویا و روشهای کلمه. با این حال، بیشتر تکنیکهای همترازی چند توالی میتوانند تنها دو دنباله را تراز کنند. اگرچه هر روش دارای نقاط قوت و ضعف فردی خود است، اما هر سه روش با توالی های بسیار تکراری با محتوای اطلاعات کم مشکل دارند – به ویژه در مواردی که تعداد تکرارها در دو دنباله ای که قرار است تراز شوند متفاوت است.
نحوه نمایش دادن Alignment ها
Alignment ها معمولاً هم به صورت گرافیکی و هم در قالب متن نمایش داده می شوند. تقریباً در تمام نمایشهایSequence Alignment، توالیها در ردیفهایی نوشته میشوند که بهگونهای مرتب شدهاند که بقایای Alignment شده در ستونهای متوالی ظاهر شوند. در قالبهای متنی، ستونهای تراز شده حاوی نویسههای یکسان یا مشابه با سیستمی از نمادهای حفاظتی نشان داده میشوند. همانطور که در تصویر بالا، یک علامت ستاره یا لوله برای نشان دادن هویت بین دو ستون استفاده شده است. بسیاری از برنامه های تجسم دنباله نیز از رنگ برای نمایش اطلاعات در مورد ویژگی های عناصر توالی فردی استفاده می کنند. در توالیهای DNA و RNA، این معادل اختصاص دادن رنگ خاص هر نوکلئوتید است. در ترازهای پروتئینی، مانند تصویر بالا، رنگ اغلب برای نشان دادن خواص اسید آمینه برای کمک به قضاوت در مورد محافظه کاری یک جایگزین اسید آمینه معین استفاده می شود.
Alignment را میتوان در طیف گستردهای از فرمتهای فایل مبتنی بر متن ذخیره کرد، که بسیاری از آنها در ابتدا در ارتباط با یک برنامه تراز یا پیادهسازی خاص توسعه داده شدند. اکثر ابزارهای مبتنی بر وب تعدادی فرمت ورودی و خروجی مانند فرمت FASTA و قالب GenBank را امکان پذیر می کنند. با این حال، استفاده از ابزارهای خاص ایجاد شده توسط آزمایشگاه های تحقیقاتی فردی می تواند به دلیل سازگاری محدود با فرمت فایل پیچیده باشد.
manisamag
مفید بود