أكثر

خوارزمية لتحديد موقع الجيران (شمال و جنوب شرق) من الطرود؟

خوارزمية لتحديد موقع الجيران (شمال و جنوب شرق) من الطرود؟


بعد أول إعلان لي ، حدد Parcel Neighbours باستخدام PYTHON حيث كنت أبحث عن طريقة أسرع لحساب جيران الطرود وموضعها ، وبعد أن نجحت في ذلك ، لكن النتيجة لم تكن كاملة وموثوقة بنسبة 100٪ ، عرض مدى تعقيد الأشكال الخاصة بك ، لذلك سيد اقترح عليّ ريتشارد فيرهورست أن أبدأ مسارًا جديدًا وأن أبحث عن خوارزمية جديدة أكثر كفاءة وتعطي نتائج أكثر اكتمالًا وموثوقية!

لذا أقترح كخوارزمية لحساب الوسط لكل مضلع ، ثم عمل إسقاطات متعددة لهذه النقطة على التقاطع بين مضلعين (الهدف والمضلع المجاور)

بعد حساب اتجاه كل خط ، تكون المحامل المرتبطة بنقاط البوصلة هي [45-135] = الشمال ، [135-225] = الغرب ، [225-315] = الجنوب ، [315-359.9 ... ، 0-45] = الشرق ...

إذن سؤالي هو:

  • ما رأيك في الخوارزمية هل هي قوية أم يمكنها التكديس ...
  • هل لديك أي طريقة أو فكرة عن كيفية عمل توقعات مشروحة من قبل؟

بالنسبة للباقي الذي قمت به من قبل كما ترون في آخر منشور تم ذكره من قبل!

أستخدم Arcgis 10.1 ولغة بايثون.


بالنسبة للمثال الموضح ، من الواضح أن المضلع 185P1 مؤهل ليكون جنوب المضلع 187. تعتبر الشرق. من الواضح أن المضلع 185P لن يتم اعتباره شمالًا أو غربًا للمضلع 187 ، هل اختبرت محامل الخطوط الموضحة ، بحيث يبدو أنها تناسب ما تريد. على أي حال ، على سبيل المثال ، يبدو أن اختبار هذه المحامل سيوفر أفضل إجابة لتحديد مجموعة اتجاهات البوصلة النسبية التي تصف علاقة المضلع 187 بالمضلع 185P1. لذلك تبدو هذه الطريقة سليمة.

لقد أشرت في مشاركتك السابقة إلى أنك تريد تضمين المضلعات التي لا تتلامس مباشرة كجيران إذا لم يكن هناك مضلع بينها. هل هذا لا يزال صحيحا أم لا؟ هل هذا ما تقصده بعبارة "هل لديك أي طريقة أو فكرة عن كيفية عمل توقعات مشروحة من قبل؟"؟

هل تريد المضلع 185P1 أن يعتبر 185P2 جارًا أم لا؟ يبدو أنها قريبة بما يكفي من بعضها البعض لاستخدام التسامح كاختبار. هل تريد المضلع 187 اعتبار المضلع T18188 / 44 جارًا أم لا؟ فهي ليست قريبة جدًا وستخلق المزيد من التحديات للتقييم بناءً على تفاوت المخزن المؤقت. إذا كنت تريد أن يتم التعامل مع أزواج المضلعات هذه كجيران ، فستكون التحديات هي كيفية تحديد مجموعة المضلعات أولاً لاختبار هذا الشرط ثم كيفية تحديد النقاط التي يجب استخدامها على أنها تمثل الحافة المشتركة المجاورة التي لم يتم حظرها من قبل شخص آخر مضلع.


حساب نموذج Ising لـ NiO

أحاول حساب نموذج Ising لـ NiO. نظرًا لأن O لا يحمل أي لحظة مغناطيسية ، فأنا بحاجة فقط إلى النظر في حالة Ni التي تتطلب نموذج Ising الثاني الأقرب. كما يتضح من الشكل أدناه ، تتفاعل ذرات Ni مع أقرب جيرانها مع ثابت اقتران J1 = 2.3 meV وثاني أقرب جيران لها مع ثابت اقتران J2 = -21 meV.

لقد قمت بإنشاء بعض الكود الذي يولد مصفوفة تتناوب 1 و -1 (تدور لأعلى / لأسفل) في كل إدخال ثانٍ و 0 لكل إدخال آخر (يمثل الأكسجين). لقد حددت أيضًا الوظائف التي ستقلب الدوران لكل جار أقرب وثاني أقرب جار. نظرًا لأن ثابت الاقتران المسيطر J2 & lt 0 ، يجب أن يكون النظام مغناطيسيًا مضادًا للمغناطيسية ، لذا يجب أن تحاذي الدورات اللفافة قطريًا تكرار النمط (1 ، 0 ، -1 ، 0) على سبيل المثال:

ومع ذلك ، عندما أقوم بتشغيل الكود ، لا يمكنني تحقيق ذلك. يمكنني الوصول إلى قدر معين من الطلب في درجات حرارة منخفضة (T.

2) ولكن ليس المغناطيسية الحديدية الكلية كما يمكن رؤيته أدناه. التراجع (على سبيل المثال ، T

أي مساعدة سيكون موضع تقدير كبير.


نبذة مختصرة

في هذا البحث ، تمت دراسة مشكلة إعادة التموضع الثابت للمركبة الواحدة. الهدف من إعادة التموضع هو تقليل المبلغ المرجح لطلبات العملاء التي لم تتم تلبيتها والوقت التشغيلي على مسار السيارة. لحل هذه المشكلة ، يُقترح تحسين التفاعل الكيميائي (CRO) للتعامل مع مسارات المركبات ، ويُقترح إجراء فرعي لتحديد كميات التحميل والتفريغ في كل محطة تمت زيارتها. تم اقتراح نسخة محسّنة من CRO لتحسين جودة حل CRO الأصلي عن طريق إضافة عوامل تشغيل وقواعد وطرق بحث مكثفة عن حلول الجوار. تم اقتراح مفهوم مجموعة عقدة الجوار لتضييق مساحة البحث عن الحلول. لتوضيح كفاءة ودقة CRO المحسن ، يتم تعيين سيناريوهات اختبار مختلفة ويتم مقارنة النتائج التي تم الحصول عليها من IBM ILOG CPLEX و CRO الأصلي و CRO المحسن. تشير النتائج الحسابية إلى أن CRO المحسن يوفر حلولًا عالية الجودة مع أوقات حوسبة أقصر من تلك الخاصة بـ IBM ILOG CPLEX ويوفر حلولًا أفضل من CRO الأصلي. توضح النتائج أيضًا أن دمج مجموعتي عقدة الجوار في CRO المحسّن يحسن جودة الحل ، ويجب أن يزداد احتمال تشغيل البحث المكثف مع التكرار في الجزء الأخير من المرحلة الرئيسية للخوارزمية للحصول على حلول أفضل.


بروتوكول التوجيه الديناميكي لقنديل البحر مع حوض متنقل لخصوصية الموقع وتجنب الازدحام في شبكات الاستشعار اللاسلكية

في الآونة الأخيرة ، غالبًا ما يُنظر إلى شبكة المستشعرات اللاسلكية (WSN) بمجموعة كبيرة من أجهزة الاستشعار التي يتم تنظيمها وتتعاون لجمع ونقل المعلومات حول الأهداف. نظرًا لأنه قد يتم وضع المستشعرات في بيئة قاسية ، فمن الضروري نقل البيانات بشكل آمن. لذلك ، يجب أن يكون مسار التوجيه الديناميكي ضروريًا لتطبيقات WSN. في هذا البحث ، تم اقتراح بروتوكول التوجيه الديناميكي لقنديل البحر (JDRP) للحفاظ على خصوصية الموقع وتجنب الازدحام مع ضمان تأخير أقل. باستخدام تقنية التوجيه هذه ، يتم تقسيم مجال المستشعر الكامل إلى أقسام فرعية مختلفة ويختار كل قسم منطقة مستهدفة عن طريق حساب مسافة الإرسال الخاصة به. يتكون العمود الفقري لبروتوكول التوجيه الديناميكي من حلقة افتراضية تسمى عقد الجرس وخط شعاعي يسمى العقد اللامسة يستخدم المزيد من العقد لبناء الشبكة. يتم تحديد مقدار الخط الشعاعي ونصف قطر الحلقة الافتراضية في الشبكة معًا لتسهيل مسار الاتصال من العقدة إلى الحوض. في هذه البنية ، يتم توجيه مسارات الخط الشعاعي اتجاهيًا ويتم توجيه العقد الجرس باتجاهات زاوية احتمالية. من مسار التوجيه ، تجمع العقد اللامسة البيانات إلى الحوض الديناميكي مما يضمن أن المعلومات سيتم جمعها بأقل تأخير ولا يستطيع المهاجم تخمين مواقعهم. أظهرت النتائج التجريبية أن طريقة JDRP المقترحة تحقق أداءً معززًا من حيث استهلاك الطاقة وتأخير تسليم الحزمة والعمر الافتراضي.


نتائج

توصيف العزلات الفطرية

العديد من أنواع الفطريات التي تنتمي إلى M. avium المركب موجودة في محيط الحيوان لكل منها قدرات مختلفة للتسبب في المرض (على سبيل المثال ، M. أب، M. avium) والقدرة على الانتشار إلى البشر (Alvarez-Uria ، 2010). قبل الشروع في تحليل الجينوم الخاص بنا لأعضاء M. avium معقدة ، بحثنا في مجموعتنا من العزلات المتفطرة الناشئة من مضيفين متنوعين وأنسجة متنوعة وكذلك من عينات بيئية من قطعان الألبان التي قد تساعد في نشر العدوى. حدد مخطط الاختيار لدينا ثماني عزلات خضعت لمزيد من بروتوكولات التنميط الجيني لتأكيد هويتها. بناءً على التلوين السريع الحمضي والتضخيم لجين الرنا الريباسي 16S باستخدام بادئات خاصة بالبكتيريا الفطرية (طلعت وآخرون ، 1997) ، تبين أن جميع العزلات الثمانية تنتمي إلى الجنس. المتفطرات. علاوة على ذلك ، الكتابة على أساس ملف hsp65 الجين (Smole et al. ، 2002) أكد هوية اثنين من العزلات المتفطرة ، DT 78 و Env 77 as M. avium الأنواع الفرعية أفيوم (M. avium) بينما كانت بقية العزلات كلها م. ا ف ب. تحديد أنواع الأغنام أو الماشية خريطة كان يعتمد على تنظيم الدولة1311 تضخيم يليه هينهضم fI (البيانات غير معروضة). كل الستة خريطة عزلات تنتمي إلى الأصل البقري (خريطة النوع الثاني). يتم عرض قائمة مجمعة لجميع العزلات المتفطرة المستخدمة في هذه الدراسة وأصلها في الجدول & # x200B الجدول 1 1.

تسلسل الجينوم الكامل للعزلات المتفطرة

أنتج جهاز التسلسل Illumina متوسط ​​طول قراءة يبلغ 50 نيوكليوتيدًا بمتوسط ​​تغطية 42 & # x0201368 & # x000d7 لكل جينوم متسلسل بعد التجميع المرجعي. يتم سرد عدد القراءات والقراءات المعينة وطول تسلسل الإجماع في الجدول & # x200B Table2. 2. النسخة المنقحة من خريطة تسلسل K-10 (Wynne et al. ، 2010) و M. avium الأنواع الفرعية hominissuis (M. avium 104) كمراجع لتجميع الجينوم المقارن للعزلات المستهدفة. كما هو متوقع ، تم فحص كل شيء خريطة أظهر الجينوم هوية تسلسل عالية (تصل إلى 99 ٪) إلى خريطة جينوم K-10. يمكن أن يفسر عدم وجود تغطية تسلسلية في بعض أجزاء الجينوم بعض الاختلافات عن الجينوم المرجعي. على الرغم من وجود مناطق صغيرة محذوفة بين خريطة الجينوم ، تم رؤية فجوتين فقط & # x0003e1 & # x02009kb بين خريطة الجينوم ، بما في ذلك المعزول عن الإنسان (خريطة 4B عزل) ، مما يشير إلى مستوى عالٍ من التشابه مع خريطة سلالة K-10 معزولة من الماشية. من ناحية أخرى ، فإن M. avium كان لسلالة DT 78 هوية تسلسل 87 ٪ فقط إلى M. avium 104 جينوم بينما كان لديه تشابه أعلى (93 ٪) مع خريطة جينوم K-10 ، على الرغم من التركيب الوراثي له M. avium عزل. في جينوم DT 78 ، كان هناك المزيد من الفجوات سواء M. avium 104 أو خريطة تم استخدام K-10 للمحاذاة المرجعية (الشكل & # x200B (الشكل 1). 1). متوسط ​​حجم الفجوة في هذا الجينوم هو

محاذاة الجينوم الكامل لـ M. avium DT 78 ، M. avium 104 و خريطة DT 78. تم استخدام خوارزمية MAUVE (دارلينج وآخرون ، 2010) لمحاذاة الجينومات الثلاثة حيث تشير المناطق البيضاء إلى فجوات تغطية منخفضة في تسلسل M. avium تم تحديد جينوم DT 78 ، وحوالي سبع مناطق كبيرة Indels في M. avium DT 78. تشير المناطق ذات اللون نفسه إلى درجة عالية من التشابه ومتصلة بأشرطة اللون نفسها. تم رسم الجينومات على نطاق واسع بناءً على المرجع M. avium 104 جينوم.

الجدول 2

تقرير موجز عن التجمع المرجعي الحيوي CLC لـ M. aviuم و خريطة يعزل.

ATCC 19698خريطة 4 بجى تى سى 1281جى تى سى 1285DT 3إنف 210DT 78
كائن مرجعيخريطة K-10خريطة K-10خريطة K-10خريطة K-10خريطة K-10خريطة K-10M. avium 104
الطول المرجعي4,832,5894,832,5894,832,5894,832,5894,832,5894,832,5895,475,491
إجمالي عدد مرات القراءة5,994,3126,729,3964,645,2305,985,9526,374,2426,294,1626,978,706
عدد مرات القراءة المتطابقة5,417,4596,522,3334,164,7315,391,6746,177,1556,080,4935,637,136
عدد المطابقة غير المحددة للقراءة أ 53,14556,05139,87954,95150,70053,34061,192
طول التوافق4,822,3284,815,9854.823.7424,823,1654,815,3764,817,3344,808,427
التنادد (٪) ب 99.7999.6699.8299.8099.6499.6887.82
متوسط ​​التغطية ج 55.7768.7142.8755.5065.0764.0551.16

تعداد قراءة المطابقة غير المحددة هي تلك القراءات التي يمكن مطابقتها أكثر من مكان واحد في الجينوم المرجعي وتم وضع هذه القراءات بشكل عشوائي في إحدى النقاط المتطابقة.

(ب) تم حساب النسبة المئوية للتماثل على النحو التالي: طول الإجماع مقسومًا على طول المرجع ثم ضرب 100.

ج متوسط ​​التغطية هو متوسط ​​تغطية جميع القراءات في كل منطقة في تسلسل الإجماع.

من بين الجينوم المتسلسل ، جينوم M. avium قدم Env 77 تحديًا كبيرًا بسبب انخفاض مستوى التشابه مع M. avium 104 جينوم خلال مرحلة التجميع المرجعي. وفقًا لذلك ، استخدمنا خوارزمية لـ من جديد التي أنتجت 772 contigs. تم استخدام هذه contigs كاستعلامات في بحث MegaBLAST مقابل الفطريات قاعدة بيانات الجينوم (blast.ncbi.nlm.nih.gov). تغطية كل كونتيج على الأقل 20 & # x000d7 ومتوسط ​​تغطية جميع contigs حوالي 30 & # x000d7 لهذه السلالة. في الواقع ، تم تسلسل جينوم Env 77 مرتين مع نتيجة مماثلة لكل تشغيل تسلسلي (البيانات غير معروضة). ومن المثير للاهتمام ، أن تحليل BLAST أظهر فقط ثلث جينوم Env 77 مع تشابه تسلسلي مع جينومات أي من خريطة K-10 أو M. avium 104 وبدرجة أقل إلى الجينوم الفطري المتسلسل الآخر ، مما يشير إلى بنية جينوم الفسيفساء (الشكل & # x200 ب (الشكل 2). 2). شارك تحليل BLAST التفصيلي لمشروع جينوم Env 77 في الجينات المحفوظة المشتركة ، بشكل أساسي مع أربعة المتفطرات الأنواع ، بما في ذلك البروتينات الريبوسومية ، وبوليميراز الحمض النووي ، والبروتيناز Clp ، وبروتين انقسام الخلايا Fts ، وبعض عوامل تنظيم النسخ أو الترجمة. كما هو مبين في الشكل & # x200B الشكل 2 ، 2 ، فإن جينوم M. avium Env 77 لديه تشابه أعلى مع M. avium 104 و خريطة K-10 من الأنواع الفطرية الأخرى. بشكل عام ، تم تعيين الجينومات المتسلسلة من جميع السلالات ، باستثناء Env 77 ، إلى الجينومات المرجعية بمستوى عالٍ من التشابه. تم إيداع جميع الجينومات المتسلسلة في قاعدة بيانات GenBank للتنزيل والتحليل الإضافي. يتم سرد أرقام الدخول للتسلسلات المودعة في الجدول & # x200B TableA1 A1 في الملحق.

تكوين الجينوم M. avium إنف 77. تم استخدام خوارزمية MegaBLAST لتحديد البكتيريا وثيقة الصلة بجميع متواليات contig من M. avium إنف 77 عزل. تم استبعاد الجينومات ذات التماثل & # x0003c10٪ من التمثيل. أعضاء مرض السل وشملت معقدة مرض السل و م. بوفيس مع اختلاف التسلسل & # x0003c5٪. تم استخدام نفس المعايير للصياغة M. avium و خريطة مجموعات.

إعادة ترتيب الجينوم بين خريطة يعزل

كان الهدف الرئيسي من تحقيقنا هو تحديد أحداث عمليات الإدراج والحذف بين الجينومات الفطرية لفهم علاقاتها التطورية بشكل أفضل. لتحديد أحداث واسعة النطاق لعمليات الإدراج / الحذف (Indels) ، قمنا بمقارنة الجينومات المجمعة للستة خريطة يعزل للمعيار خريطة جينوم K-10 باستخدام برنامج MAUVE (الإصدار 2.3.1 Darling et al. ، 2010 Figure & # x200B Figure3). 3). من بين Indels المحتملة التي يمكن أن توجد بين هذه الجينومات ، حددنا فقط الفجوات التي هي & # x0003c1 & # x02009kb. شوهدت منطقة فجوة مشتركة تقع في الموضع المرجعي 3،767،550 & # x020133،767،870 وهي جزء من الجين MAPK 3350 الذي يشفر بروتينًا افتراضيًا بين جميع السلالات الست ذات حجم الفجوة

300 & # x02009bp. في هذه المنطقة ، لوحظت تغطية قراءة منخفضة أو معدومة بين جميع السلالات الست مما يشير إلى وجود منطقة إشكالية لجهاز التسلسل Illumina. يبدو أن التسلسل في منطقة الفجوة هذه يحتوي على محتويات عالية من GC (82 ٪) ولكن لا توجد عناصر متكررة.

تحليل مقارن خريطة و M. avium من الحيوانات والمصادر البيئية. تم استخدام تسلسل الإجماع الفجوات لكل سلالة للمقارنة بواسطة MAUVE الإصدار 2.3.1. (أ) تصوير عن قرب لنقطة كسر في محاذاة ستة خريطة الجينوم بالمقارنة مع خريطة الجينوم المرجعي K-10. أشارت المناطق البيضاء إلى قراءة منخفضة أو صفرية. في هذا المثال ، تحتوي التسلسلات المرافقة لنقطة الانكسار على تسلسل نسبة مئوية عالية من GC ولكن ليس تسلسلات متكررة. (ب) Indels بين خريطة و M. avium الجينوم. عادة ما تكون إعادة ترتيب الجينوم الملحوظ حول أصل الجينوم للتكرار.

استنادًا إلى مقارنة MAUVE ، تتوافق تسلسل الإجماع لهذه السلالات الست بشكل وثيق مع خريطة K-10 الجينوم ولم يلاحظ أي انقلابات (الشكل & # x200B (الشكل 3) .3). من ناحية أخرى ، عندما تم استخدام MAUVE لمقارنة جينوم خريطة يعزل إلى M. avium 104 أو M. avium جينومات DT78 ، تم تحديد حوالي سبع مناطق كبيرة من Indels ، مما يؤكد النتائج السابقة التي توصلت إليها مجموعتنا عند استخدام المصفوفة الدقيقة للحمض النووي (Wu et al. ، 2006). على سبيل المثال ، تم العثور على واحد 11 & # x02009kb Indel في الستة خريطة سلالات في الموضع 2،318،400 & # x020132،333،740 (MAPK 2038 & # x02013MAPK 2050) ولكنها غائبة عن M. avium. تشفر هذه المنطقة 11 & # x02009kb بروتينات افتراضية في الغالب بتنسيق خريطة جينوم K-10 مع استثناءين ، MAPK 2040 و MAPK 2050. MAPK 2040 هو هيدرولاز متوقع والتحليل السابق (سانتيما وآخرون ، 2009) أظهر أيضًا عدم وجود هذا الجين في M. avium 104 ، ولكن موجودة في أخرى M. avium سلالة (الجدول & # x200B (الجدول 3). 3). بالإضافة إلى ذلك ، يمتد ما مجموعه ستة انقلابات جينومية

تم تحديد 2.4 & # x02009Mb بين الجميع خريطة سلالات بالمقارنة مع M. avium 104 جينوم ، مشابه لتحليلنا السابق لـ فقط خريطة K-10 و M. avium 104 جينومات (وو وآخرون ، 2006).

الجدول 3

قائمة الجينات في جزيرة 11 & # x02009kb الغائبة فيها M. aviuم 104.

تعليق توضيحي جديد (Wynne et al. ، 2010)الشرح القديم (لي وآخرون ، 2005)الطول (بي بي)وظيفة
خريطة 2038خريطة 1730 ج1,023البروتين افتراضية
خريطة 2039خريطة 1729 ج828البروتين افتراضية
خريطة 2040خريطة 1728 ج723يفنب هيدرولاز
خريطة 2041خريطة 1727906البروتين افتراضية
خريطة 2042خريطة 1726 ج585البروتين افتراضية
خريطة 2043خريطة 1725 ج1,029البروتين افتراضية
خريطة 2044خريطة 1724 ج558البروتين افتراضية
خريطة 2045خريطة 1723666البروتين افتراضية
خريطة 2046خريطة 17221,221البروتين افتراضية
خريطة 2047خريطة 1721 ج672البروتين افتراضية
خريطة MAPK 2048خريطة 17201,020البروتين افتراضية
خريطة 2049خريطة 1719 ج615البروتين افتراضية
خريطة 2050خريطة 1718c456بروتين معين MAP

SNPs بين خريطة يعزل

لتحليل التنوع الجيني بشكل أفضل بين خريطة العزلات ، قمنا أيضًا بفحص الاختلافات الجينية على مستوى النوكليوتيدات. لتحليل SNPs ، وضعنا معايير صارمة لاكتشاف SNP (انظر المواد والطرق). إجمالي عدد النيوكلوتايد بين ستة خريطة تراوحت جينومات من 56 إلى 131 (الشكل & # x200B (الشكل 4) ، 4) ، من بينها 17 تم العثور عليها في & # x0003e1 الجينوم (الجدول & # x200B (الجدول 4). 4). عدد SNPs غير المترادفة (nSNPs) أعلى قليلاً من SNPs المترادفة (sSNPs) ، مما يشير إلى ضغط انتقائي إيجابي على الجينات المحددة. بالإضافة إلى ذلك ، تحتوي معظم الجينات على SNP واحد مع استثناءات 23 جينًا تحتوي على اثنين أو ثلاثة من تعدد الأشكال (الجدول & # x200B (الجدول & # x200B (الجدول A2 A2 في الملحق). ومن المثير للاهتمام أن GlnE و MAPK 4304 يحتويان على ثلاثة SNPs لكل منهما ، وكلها nSNPs ، مما يشير إلى انتقائية عالية الضغط على هذين الجينين. غالبية الجينات المحتواة & # x0003e1 SNP أكبر من 1 & # x02009kb في الحجم بمتوسط ​​كثافة SNP يبلغ 1 SNP لكل 1.44 & # x02009kb. تمثل 232 جينًا المتبقية التي تحتوي على SNP واحد فقط كثافة SNP مماثلة لـ SNP واحد لكل 1.44 & # x02009kb تم تحديده في الآخر المتفطرات (تشي وآخرون ، 2009). بالنسبة إلى خريطة JTC 1281 و خريطة 4 ب ، كانت نسبة nSNPs 52.68 و 51.76٪ على التوالي ، والباقي خريطة سلالات مع & # x0003e60 ٪ من SNPs كانت nSNPs. ومن المثير للاهتمام أن الجينات التي تشفر بروتينات السيتوكروم P450 كانت تؤوي عددًا كبيرًا من الأليلات في ثلاثة من الجينومات الستة التي تم فحصها (الجدول & # x200B (الجدول 5) ، 5) ، على غرار نفس عائلة الجينات في مرض السل (كول ، 1999). تم تحديد SNPs بين الجينات وحسابها & # x0003c10 ٪ من إجمالي SNPs.

العدد الإجمالي لتعدد أشكال النوكليوتيدات المفردة (SNP) بين خريطة يعزل. عدد nSNP (غير مرادف) و sSNP (مرادف) و SNPs في المناطق الجينية مشفرة بالألوان كما هو محدد. تم اكتشاف تعدد الأشكال باستخدام تسلسلات مرجعية مجمعة لكل سلالة. تم اكتشاف حوالي 60 & # x02013130 ​​SNPs خريطة يعزل. نسبة nSNP أعلى بشكل عام من sSNP مما يشير إلى ارتفاع ضغط انتقائي في هذه السلالات.

الجدول 4

قائمة النيوكلوتايد غير المترادفة بتنسيق خريطة نتج عن الجينوم أكثر من سلالة واحدة.

سلالاتموقف K-10أليل K-10تفاوتالجينوظيفة
1كل 6 سلالات3,259,329جتيخريطة 2850سيرين بروتياز مثل التربسين
2كل 6 سلالات4,394,282أجيخريطة 3393نفاذية الفوكوز
3كل 6 سلالات2,041,445تيجglnEسينثاس الجلوتامين
4ATCC 198698 ، JTC 1281 ، JTC 1285 ، DT 3 ، Env 2101,169,976أجخريطة 1064بروتين شبيه بالهيموليسين
5ATCC 198698 ، JTC 1281 ، JTC 1285 ، DT 3 ، Env 21091,310أجينيرباختزال النترات
6جيه تى سى 1281 ، جى تى سى 1285 ، خريطة 4B ، إنف 2103,133,871جيأspeسينثاس سبيرميدين
7JTC 1281 ، خريطة 4B، DT 3، Env 2102,806,612جيتيالقرص المضغوطبروتين رابط ATP ناقل ABC CydD
8ATCC 19698 ، JTC 1281 ، JTC 1285 ، DT 33,278,891أتيpyrHUridylate كيناز PyrH
9ATCC 19698 ، JTC 1281 ، DT 31,204,735تيجbpoBبيروكسيداز ببوب
10جيه تى سى 1281 ، جى تى سى 1285 ، إنف 2104,206,587جتيpks2سينسيز بولي كيتيد Pks2
11خريطة 4B ، إنف 2101,50,857جيجشفةإستيراز ليب دبليو
12خريطة 4B ، إنف 2102,25,551جتيfctAناقل
13خريطة 4B ، إنف 2106,47,971جأنوولالوحدة الفرعية NADH نازعة الهيدروجين L
14خريطة 4B ، إنف 2102,353,857جأMAPK 2071 ، hspRبروتين منظم الصدمات الحرارية
15خريطة 4B ، إنف 2103,981,515جيأpks13سينسيز بولي كيتيد Pks13
16خريطة 4B ، إنف 2104,262,844تيجيخريطة 3814البروتين الدهني
17ATCC 19698 ، DT 31,363,662أجخريطة 1234تصاريح تدفق أرابينوز

الجدول 5

قائمة nSNP في بروتينات السيتوكروم P450.

سلالاتموقف K-10أليل K-10تفاوتالجينتغيير الأحماض الأمينية (نتيجة وظيفية)
إنف 2101,227,540أجيخريطة 1119Ile & # x02009 & # x02192 & # x02009Met (غير قطبي)
جى تى سى 12851,301,615جتيخريطة 1184Glu & # x02009 & # x02192 & # x02009Lys (Polar acidic & # x02009 & # x02192 & # x02009polar basic)
جى تى سى 12852,024,939جيأخريطة 1789Ala & # x02009 & # x02192 & # x02009Val (غير قطبي)
جى تى سى 12811,973,792أجيخريطة 1738Val & # x02009 & # x02192 & # x02009Ala (غير قطبي)
جى تى سى 12813,841,168جيجخريطة 3424Arg & # x02009 & # x02192 & # x02009Pro (Polar basic & # x02009 & # x02192 & # x02009non-polar)

بشكل عام ، تم الكشف عن عدد متواضع من SNPs بين جينومات خريطة يعزل ، على عكس M. avium يعزل. ال M. avium يحتوي جينوم DT 78 على عدد كبير جدًا من SNPs المكتشفة (6،278 SNPs) عند مقارنته بالمعيار M. avium 104 جينوم يشير إلى فصل مبكر لهذه السلالة خلال مسارها التطوري. بالإضافة إلى ذلك ، كانت & # x0003e75٪ من SNPs المحددة مترادفة ، وهو مؤشر على ارتفاع ضغط انتقائي استقرار لـ M. avium من الجينات خريطة. بالنسبة إلى M. avium Env 77 ، لم يتم إجراء اكتشاف SNP لأن التسلسل بأكمله يتماشى بشكل سيء مع أي منهما خريطة K-10 أو M. avium 104. أخيرًا ، تم اختيار 10 أشكال من النيوكلوتايد بشكل عشوائي لمزيد من التأكيد باستخدام طريقة التسلسل Sanger. تم اختيار 10 SNPs بناءً على جينوم ATCC 19698. تم العثور أيضًا على نفس الـ SNPs العشر في JTC 1281 ، بينما تم العثور على 5 SNPs مشتركة فقط في JTC 1285. تم تسلسل جميع الأمبليكونات من كل من الجدائل الأمامية والخلفية (الجدول & # x200B (الجدول A3 A3 في الملحق). لم يتم اكتشاف ثلاثة SNPs في JTC 1285 استنادًا إلى نتائج Sanger ، وهو على الأرجح ناتج عن خطأ جهاز تسلسل Illumina. بشكل عام ، كان تسلسل Illumina مفيدًا جدًا في توفير مستوى عالٍ من تعدد أشكال النوكليوتيدات المفردة في جميع الجينومات التي تم فحصها.

العلاقة بين الجينوم Phylo خريطة يعزل

النوكليوتيدات المفردة تعدد الأشكال لستة خريطة تم تسلسل السلالات واستخدامها لتحليل النشوء والتطور على مستوى الجينوم (phylo-genome) على مستوى الجينوم. السلالتان المرجعيتان ، خريطة K-10 و M. avium 104 ، تم تضمينها في التحليل. ما مجموعه 301 SNPs موجودة بين الستة خريطة سلالات وكذلك في M. avium 104 و M. avium تم تضمين جينومات DT 78 في هذا التحليل باستخدام طريقة انضمام الجار (Tamura et al. ، 2011). أظهرت الشجرة غير المتجذرة قوة تمييزية قوية لـ SNP لجميع العزلات التي تم فحصها بناءً على أصلها (الشكل & # x200B (الشكل 5 أ) 5 أ) مع الحفاظ على فروع من M. avium جينومات منفصلة عن جينومات خريطة يعزل. لم تكن هذه القوة التمييزية ممكنة عندما تمت تجربة الأنماط الجينية أحادية الجين (انظر أعلاه). ومع ذلك ، عندما تم تجذير الشجرة M. avium 104 جينوم ، وهما فرعان رئيسيان متميزان داخل خريطة تم تمييز الجينوم بسهولة (الشكل & # x200 ب (الشكل 5 5 ب).

تحليل النشوء والتطور خريطة و M. avium سلالات. (أ) مخطط شجري يعرض شجرة غير متجذرة ، متجاورة متصلة من SNPs المتسلسلة من جميع العزلات الفطرية الثمانية قيد الدراسة. (ب) الشجرة المتجذرة التي تربط الجار باستخدام م. آه 104 جينوم كمجموعة خارجية. يتم أخذ شجرة الإجماع التمهيدية المستنبطة من 1000 مكرر لتمثيل التاريخ التطوري للأصناف التي تم تحليلها. يتم تمييز نسخ التمهيد المتماثلة على كل فرع ويتم طي أقل من 50٪ من نسخ التمهيد. تظهر النسبة المئوية للأشجار المكررة التي تتجمع فيها الأصناف المرتبطة معًا في اختبار التمهيد بجوار الفروع.

في فرع واحد داخل خريطة الجينوم (الشكل & # x200 ب (الشكل 5 ب) ، 5 ب) ، عزلة من الأيل الأحمر (خريطة DT 3) وثيق الصلة بسلالات الماشية القياسية (خريطة K-10 و ATCC 19698). من ناحية أخرى ، يعزل من الماعز والمها (خريطة كان JTC 1281 و JTC 1285 ، على التوالي) أكثر ارتباطًا بسلالة نوع الماشية المعزولة مؤخرًا (خريطة K-10) مقارنة بالسلالات المختبرية الأخرى (ATCC 19698) ، مما يشير إلى مصدر للعدوى من الماشية. في الفرع الآخر من الشجرة ، خريطة 4B و خريطة ارتبطت عزلة إنف 210 من مزرعة الإنسان والألبان ، على التوالي ، ارتباطًا وثيقًا ببعضها البعض. جدير بالذكر هنا أن جمعية M. avium DT 78 الجينوم إلى M. avium أكدت سلالة 104 بناءً على تحليل الجينوم phylo تحديدنا السابق لهذه العزلة للانتماء M. avium على الرغم من تشابهها العام الأعلى مع خريطة K-10. أخيرًا ، عندما جربنا ثلاث طرق إضافية لبناء الأشجار (MP ، ML ، MLK) على قوائم مستقلة من sSNPs و nSNPs ، تم الحصول على طوبولوجيا مجمعة لجميع الأشجار ذات دعم التمهيد العالي ، على غرار الطريقة الموضحة في الشكل & # x200B الشكل 5 ب. 5 ب. أشار اختبار نسبة احتمالية السجل لشجرة إجماع MLK مقابل شجرة ML إلى أن افتراض الساعة الجزيئية لم يكن صالحًا (ص& # x02009 & # x0003c & # x020090.007). بشكل عام ، تشير طوبولوجيا الشجرة المحددة إلى ذلك M. avium 104 كجد مشترك منها خريطة ظهرت على الأرجح وتنوعت إلى سلالتين: سلالة جمعت Env 210 مع خريطة 4B (الإنسان) في حين أن المجموعة الثانية جمعت جميع سلالات النوع الثاني من خريطة. في كلا السلالتين ، تكون الأبقار المصابة هي المستودع الأكثر احتمالا لنشر النوع الثاني خريطة سلالات.


2 إجابات 2

يمكنك بالتأكيد القيام بشيء كهذا باستخدام OpenMP ، لكن الأمر ليس بهذه البساطة مثل وضع #pragma omp متوازيًا حول حلقة for. بالنسبة لهذه البنية ، يحتاج المترجم إلى معرفة وقت إدخال الحلقة عدد التكرارات التي سيتم إجراؤها ، حتى يتمكن من تحليل التكرارات عبر سلاسل الرسائل ، وليس لديك بالضرورة هذه المعلومات هنا عند الخروج بمجرد ' لقد وجدت شيئًا ما.

يمكنك عمل شيء مثل هذا - ويمكن أن يكون مفيدًا جدًا إذا كان الاختبار الذي تريد إجراؤه ثقيلًا جدًا في وحدة المعالجة المركزية (هنا ، لدي مثال مصطنع لاختبار بدائية القوة الغاشمة) ، بحيث تنفصل العمل بين العديد من النوى ، وأنت تهتم فقط بالبحث عنه أ نتيجة (أو أنه لا يوجد شيء). لكن لاحظ أنك بالتأكيد ليس يضمن أن القيام بذلك بالتوازي سيعيد أول نتيجة.

في المثال أدناه ، لدينا علامة تم العثور عليها (باستخدام بنية الالتقاط الذري) عندما يعثر مؤشر الترابط على عنصر. إذا كان أول من وضع العلم ، فإنه يخزن القيمة والموقع. بمجرد أن ترى الخيوط (في النهاية) العلم قد تم تعيينه ، فإنهم يعودون جميعًا من حلقة while.


أداء

اليوم (2019-12-09) أجري اختبارات الأداء على macOS v10.13.6 (High Sierra) للحلول المختارة. أعرض الحذف (A) ، لكنني لا أستخدمه مقارنة بالطرق الأخرى ، لأنه ترك مساحة فارغة في المصفوفة.

  • الحل الأسرع هو array.splice (C) (باستثناء Safari للمصفوفات الصغيرة حيث توجد المرة الثانية)
  • بالنسبة إلى المصفوفات الكبيرة ، يعد array.slice + splice (H) أسرع حل غير قابل للتغيير لمتصفح Firefox و Safari Array.from (B) هو الأسرع في Chrome
  • عادة ما تكون الحلول القابلة للتغيير 1.5x-6x أسرع من الحلول غير القابلة للتغيير
  • بالنسبة للطاولات الصغيرة على Safari ، من المدهش أن الحل القابل للتغيير (C) أبطأ من الحل الثابت (G)

قضايا قابلية التوسع والتناثر في مجموعات البيانات الموصى بها: مسح

تم استخدام أنظمة التوصية على نطاق واسع في مجالات مختلفة بما في ذلك الأفلام والأخبار والموسيقى بهدف تقديم المقترحات الأكثر صلة للمستخدمين من مجموعة متنوعة من الخيارات المتاحة. تم تصميم أنظمة التوصية باستخدام تقنيات من العديد من المجالات ، بعضها: التعلم الآلي ، واسترجاع المعلومات ، واستخراج البيانات ، والجبر الخطي ، والذكاء الاصطناعي. على الرغم من أن حساب الجار الأقرب في الذاكرة هو نهج نموذجي للترشيح التعاوني نظرًا لدقة توصياته العالية ، إلا أن أداءه في قابلية التوسع لا يزال ضعيفًا نظرًا لقاعدة مستخدم وعناصر ضخمة وتوافر عدد قليل فقط من التقييمات (أي تباين البيانات) في التجارة النموذجية التطبيقات. من أجل التخفيف من مشكلات قابلية التوسع والتناثر في أنظمة التوصية ، تم اقتراح العديد من الأساليب القائمة على النماذج في الماضي. ومع ذلك ، إذا كان البحث في نظام التوصية لتحقيق إمكاناته ، فهناك حاجة إلى فهم التقنيات البارزة المستخدمة مباشرة لبناء أنظمة التوصية أو للمعالجة المسبقة لمجموعات بيانات التوصية ، إلى جانب نقاط القوة والضعف فيها. في هذا العمل ، نقدم لمحة عامة عن بعض التقنيات التقليدية والمتقدمة البارزة التي يمكنها التعامل بفعالية مع أبعاد البيانات وتناثر البيانات. يركز هذا الاستطلاع على تقديم نظرة عامة على قابلية تطبيق بعض التقنيات المتقدمة ، لا سيما التجميع ، biclustering ، عامل المصفوفة ، تقنيات الرسم البياني ، والتقنيات الضبابية في أنظمة التوصية. بالإضافة إلى ذلك ، فإنه يسلط الضوء على قابلية التطبيق وأعمال البحث الحديثة التي تم إجراؤها باستخدام كل تقنية.

هذه معاينة لمحتوى الاشتراك ، والوصول عبر مؤسستك.


توصية طريق التسليم عبر الإنترنت في التعهيد الجماعي المكاني

مع ظهور العديد من منصات التعهيد الجماعي ، اكتسب التعهيد الجماعي اهتمامًا كبيرًا. التعهيد الجماعي المكاني هو امتداد سريع التطور للتعهيد الجماعي التقليدي ، وهدفه هو تنظيم العمال لأداء المهام المكانية. توصية المسار هي مصدر قلق مهم في التعهيد المكاني الجماعي. في هذه الورقة ، نحدد مشكلة جديدة تسمى مشكلة توصية طريق التسليم عبر الإنترنت (OnlineDRR) ، حيث يتم تعظيم دخل عامل واحد في ظل سيناريوهات عبر الإنترنت. ثبت أنه لا توجد خوارزمية حتمية عبر الإنترنت لهذه المشكلة لها نسبة تنافسية ثابتة. نقترح خوارزمية لتحقيق التوازن بين ثلاثة عوامل تأثير على اختيار العامل من حيث المهمة التي يتعين القيام بها بعد ذلك. من أجل التغلب على عيوبه الناتجة عن الطبيعة الديناميكية للمهام ، نبتكر نسخة موسعة تعلق أهمية متزايدة تدريجيًا على وجهة العامل بمرور الوقت. يتم إجراء تجارب مكثفة على كل من مجموعات البيانات التركيبية والعالمية الواقعية ، وتثبت النتائج أن الخوارزميات المقترحة في هذه الورقة فعالة وفعالة.

هذه معاينة لمحتوى الاشتراك ، والوصول عبر مؤسستك.


مقدمة

تعد معلومات الموقع أمرًا بالغ الأهمية لمعظم التطبيقات وتصميمات البروتوكولات في الشبكات المخصصة للمركبات عالية السرعة (VANET) ، بدءًا من تبادل المعلومات إلى التخزين داخل الشبكة. في الأساليب التقليدية ، يمكن الحصول على معلومات الموقع من خلال تقنيات التعريب. مع وجود آليات معينة لتتبع الكائنات ونشر المعلومات ، فإن مواقع الكائن المتحرك متاحة أيضًا للمستخدمين. تعد عمليات التعريب وتتبع الكائنات من الموضوعات المدروسة على نطاق واسع وقد تم اقتراح العديد من الخوارزميات المفيدة. في الآونة الأخيرة ، تم إدخال تتبع وخرائط حقيقية لحركة المرور وحتى أنماط حركة المرور للمساعدة في التوجيه في شبكات المركبات [1-3].

في البيئات الديناميكية للغاية مثل VANET ، ومع ذلك ، فإن هذه الأساليب ليست فعالة بسبب الحركة العالية للأشياء. في VANETs ، عادةً ما تكون الأشياء عبارة عن مركبات تقدم تنقل مئات الكيلومترات في الساعة. لذلك ، تتغير مواقع أجسام السيارة بشكل كبير على نطاق واسع. تتطلب هذه الطبيعة استدعاء تقنيات التعريب بشكل متكرر وتحديث معلومات الموقع باستمرار ، مما يؤدي إلى قدر كبير من الاتصالات والتحكم في النفقات العامة. تذكر أن قدرة الاتصال للشبكات اللاسلكية مقيدة بالوسيط اللاسلكي [4]. مع زيادة حجم الشبكة ، يزداد الطلب على تبادل حزم التحكم بينما تقل سعة الشبكة ، مما يؤدي إلى أن تصبح المشكلة أكثر خطورة. بمعنى آخر ، هذه الأساليب التقليدية ليست قابلة للتطوير في VANETs واسعة النطاق.

في هذه المقالة ، نقترح نهجًا جديدًا ، يعتمد على ملاحظتنا أن البيئات الحضرية للمركبات حسنة التصرف ويمكن التنبؤ بها بدقة. وبشكل أكثر تحديدًا ، يتم تنظيم VANETs في البيئة الحضرية بناءً على شبكة النقل المرورية مثل الطرق والجسور والأنفاق. يجب أن تتبع المركبات الطريق بدقة وأن تسير في اتجاه واحد لكل جزء من الطريق. When the speeds of vehicles are available (it can be obtained through speedometer on vehicles directly), the locations of the vehicles in the future short period of time can be calculated by a simple equation. Moreover, vehicles in urban area often have clear destinations and the desired transport routes are limited. When the destinations are predicted according to the source of the vehicles, the present location, and the moving directions, the locations of the vehicles in a relatively long time can also accurately be predicted in a large degree. As such for each vehicle we can obtain its location in a proactive manner rather than the traditional reactive manner, and a large amount of control overhead can be saved.

To validate this idea, we firstly extract Vehicular Mobility Pattern (VMP) by employing the Variable-order Markov (VOM) models[5] from real trace data collected from over 4,000 taxis over several months in Shanghai. We find that because of the intrinsic nature of roads, such as single and dual carriageway, free way and the individual driving habit, there exist large amounts of reusable mobility patterns in the traffic trace, which accounts for around 40% of the whole traces, i.e., VMP typically includes fixed route or vehicle’s favorite paths given the starting place and the destination of vehicles. To see the benefits of VMP, we propose then a Prediction-based Soft Routing Protocol (PSR) in which the traffic trace and the real digital road map are utilized to assist packet routing. In PSR, the disseminated state information carries vehicle’s current state and the predictive states, and the state information is only requested and updated when the last predictive state information is not consistent with the vehicle’s current state, which significantly save the control packet overhead. Finally, extensive experimental results show that VMP exhibits quit high accuracy, and offers significant enhancement to routing design in cutting control overhead. In PSR, the control traffic overhead increases linearly with the number of nodes in the network, regardless of network size or mobility.

The rest of the article is organized as follows. In the following section, we present the network model and the VOM scheme which is used to generate VMP. We discuss the design of PSR in Section “PSR design”, followed by the performance evaluations in Section “Performance evaluation”. Section “Related study” gives a review of related works. We conclude the study in Section “Conclusions” as well as the possible future work directions.

يترك T = r1, ص2, …, ص ن denote a vehicle node trajectory sequence, where ص أنا depict the node’s أنا th passing road, ص1, ص2, … ص نص = <ص 1 , ص 2 , … ص م >, ص is the set of all roads, and م = |ص| is the cardinality of ص. A sequence segment ص أنا ك is denoted as ص أنا ك = ص أناصi+ 1صi+k- 1، أين ك is the length of the sequence segment and ص أنا 0 = ε.

Definition 1

على المدى VMP is a trajectory segment ص أنا ك with high probability, that is F (ص أنا ك ) = Pr (صi+k- 1|ص أنا k– 1 ) ≧ σ، أين σ ∈ [0, 1] is a predefined threshold.

VMP in the real trace

Previous study[6] shows people’s regularity of movement and repetition of journeys to the same place. Our analysis on the traffic trace also shows that people have a high degree of regularity in their movement despite the complex driving behavior. For example, consider the condition of roads. Freeways normally have limited accesses and outcomes. The vehicles’ speed and direction are relatively stable and we can easily know vehicles’ future trajectories based on their current position and velocity information until they reach the end of freeways. Or if a road only has one connected road on some end which is meanwhile the popular path, we can estimate that most vehicles will turn that way, with a very few exceptions making U-turns to the prior road. Also, the paths to some hot spots are relatively fixed.

Figure 1 displays some VMP mined in accordance to the road condition. South Chongqing Road is a bidirectional freeway, on which vehicle nodes are characterized with high speed and run all the way along the freeway until they arrive at the outcomes. VMP in Figure 1a shows pairs of bidirectional segments in accordance to above analysis. Another example, the path from urban area to Shanghai Pudong International Airport is a highway, which is preferred by most drivers to go to the airport. Therefore, it forms VMP as shown in Figure 1b.

VMP on the digital road map of Shanghai. (أ) VMP around South Chongqing Rd. on the digital map. (ب) VMP from urban area to Shanghai Pudong International Airport.

We can also take the behavior of individual vehicle nodes into account. Admittedly, there is no apparent regulation to follow due to diverse individual habits. Yet, we still uncover some hidden patterns. Since people are prone to repeating the same journey to the same place[6], we are able to mine the potential VMP from their historical statistics.

We randomly choose a set of real traces of one taxi with period of 6 months to generate VMP, and mark the patterns correspondingly on the map to get a straightforward view as shown in Figure 2. From this distribution of VMP on the map of Shanghai urban area, we find that VMP occupies a great proportion of roads.

Distribution of VMP on the map of Shanghai urban area.

VMP generation

ال VMP mining problem presents interesting stochastic chains of finite order which means transition probabilities depend on a finite suffix of the past and the set of the lengths of all suffix is bounded. More specifically, for a vehicle node in the current road ص ج, its possible patterns يمكن ان يكون ص c–k ك ص جصc+ 1 (1 ≤ كك)، أين ك is the maximal number of the proceeding roads of ص ج and is a predefined value. بوضوح، ك is the upper bound on the maximal Markov order. Among all these possible patterns, the ones whose probability is above the value σ will be the final VMP.

The tool Markov chain has widely been used for predicting the future location of an object. In a Markov chain however, each random variable in a sequence with a Markov property depends on a fixed number of random variables. Consequently, the number of possible patterns would be very large: patterns which incur overwhelming complexity to check all the possible patterns. We reduce the cost by pruning unnecessary patterns. First, since our patterns are not with the same length, VOM model is more adaptive in our problem which enables the state space reduced significantly. Second, although there are totally |ص| roads, the patterns possibly with high frequency are obviously the ones whose consecutive sequence segments are connected roads. Third, the value ك is generally a small number as shown later in Section “Performance evaluation” so that the value is set to 5 in our simulation.

We adapt an effective VOM model[3], which is very popular in the area of lossless compression and is also used widely in sequence prediction for estimating the probability and mining VMP. The algorithm is as follows.

Incrementally parsing procedure. We sequentially parse ص1 ن into ‘phrases’ which are adjacent while non-overlapping. The first phrase is an empty phrase ا. A new phrase is then created as soon as a prefix of the unparsed part of the string differs from all preceding phrases. Figure?3 shows an instance of road map, according to which a road sequence acdacbacdabdc is generated. We parse the sequence and get phases ا, أ, ج, د, ac, ب, acd, أب, العاصمة.

Learning phase. A multi-way parsing tree is constructed to display the parsed phrases. Each node in the tree carries a counter that hold statistics of ص1 ن and each internal node has exactly |ص| children (|ص|?=?4 in the above example). Each phrase can find a path in the tree starting from the root while ending at some internal node. By going through the parsed sequence starting with ا we add each phrase to the tree as follows. First empty phrase ا is added to the tree as root and then its |ص| children are added to it as leaf nodes. The counter of each leaf node in the tree is always set to 1. The counter of internal node is updated to ensure it is always equal to the sum of all its children’s counter. Then for each phrase, we traverse the tree starting at the root. Once a leaf node is reached, it is transformed into an internal node by adding |ص| leaf children to it.

To estimate the probability F (ص أنا ك )?=?Pr (صi+k– 1|ص أنا k– 1 ). We traverse the parsing tree starting from the root ا according to the sequence ص أنا k– 1. If we reach a leaf node before ending the sequence ص أنا k– 1 , we will jump to the root to continue the traverse until we use up the sequence. We then go one step further according to صi+k– 1 and reach the final node د. Thus we can compute the estimation Pr(صi+k– 1|ص أنا k– 1 )?=?ج(د)/ج(Parent(د)), where ج(د) denotes the counter of node د.

An instance of road map.

A pseudo code of our VMP generating algorithm is given in Figure 4. Denote ص as the final pattern set, Adj(ص أنا) as the set of adjacent roads of road ص أنا. We show a parsing tree according to the above sequence instance acdacbacdabdc in Figure 5. To estimate Pr(د|ac), we traverse the tree in the following order: O → a → c → d and get the result Pr(د|ac) = 4/7 = 0.57. إلى عن على Pr(ج|دا), we traverse in the order: O → d → a → O → c and get Pr(د|ac) = 4/28 = 0.14.


شاهد الفيديو: #1- Introduction to Algorithms - مقدمة فالخوارزميات