بيان بمناسبة الذكرى الخامسة عشر لتأسيس نادي الإحياء العربي  ::   تـأكيـد وتنـويـه .. نادي الإحياء العربي يؤكد على أنه منظمة عربية غير حكومية  ::  
أعداد المجلة
المكتب التنفيذي
temp-thumb
temp-thumb
temp-thumb
temp-thumb
 
التفاصيل
جامعة باريس الرابعة جان – بيير ديسكاليه جامعة باريس الرابعة أفتح فازندار جامعة مونتريال كندا جيي لابالم، جان – بيير ديسكاليه
( 2006-04-06 )

مستخلص

تهتم الدراسة بتطبيق جديد للمختصرات الآلية وشكل خاص من الوثائق القانونية وهى سوابق أحكام المحاكم الكندية، وذلك بهدف خلق مختزلات آلية قصيرة تجيب عن حاجيات المحامين وخبراء المجال.

 

 

1. مقدمة

إن هدف نظام التلخيص الآلي هو إنتاج شكل مختزل للوثيقة يحتفظ بالمعلومات المهمة الواردة في النص الأصلي. وفي هذا المجال يجب اعتبار حاجيات المستعمل ومتطلبات المهمة. علما بأن أنظمة إنتاج الملخصات يمكن أن تستعمل كمساعد في تنظيم المعارف أو التحليل وكذا البحث عن المعلومات في الشبكة. وقد عرضت العديد من المقاربات في ميدان الخلق الآلي للملخصات: توزيع الكلمات [لوهن 69] والعبارات النوعية [إدموند 69] [بايس81] وتحديد السلاسل المعجمية [بارزيلاي 97] وبلاغة الخطاب [ماركو97] والعناوين الدلالية [مينيل 01] والنمط المفهومي واللساني للتوليد [ ساجيون 01]. ومؤخرا نُظمت سلسلة DUC لتقييم أنظمة الملخصات الآلية.[DUC 03].  ويقدم كل من ماني [ماني 01  ماني  99] وماركو [ماركو 00] و مينيل [مينيل02] مداخلا للوضع الحالي في هذا الميدان.

وأغلب مقاربات إنتاج الملخصات ترتبط بشكل ونمط الكتابة، وسوقية المقاربة التي تتلخص  في اعتبار الفقرة الأولى ليست بكونية ممثلة فهي لا تعطي نتائج جيدة إلا في المقالات الصحافية والمجلات. ولإنتاج ملخص سيرة حياة فإن موقع الجمل ليس دوما عنصرا طاغيا. وأغلب التقنيات تعتبر معامل ثقل لكل جملة على حدا في الوقت الذي تولي فيه الطرق الأحدث للعلاقة بين الجمل أهمية كبرى.

ودراساتنا تهتم بتطبيق جديد للمختصرات الآلية وشكل خاص من الوثائق القانونية وهي سوابق أحكام المحاكم الكندية. وهدف هذا البرنامج هو خلق مختزلات آلية قصيرة تجيب عن حاجيات المحامين وخبراء المجال[فازندار04أ] .

ومقاربتنا ترتكز على استغلال البنية الموضوعية لحكم ما. إذ أن تحديد التنظيم الهيكلي للوثيقة يمكننا من إمكانية تصنيف المعلومات والحصول على قواطع تبدل الموضوع في الوثيقة بهدف استخراج الأفكار الأساسية. وفي هذا المقال نوضح أن الأحكام القضائية تمتلك بنية موضوعية. إذ أن مختلف الموضوعات في الأحكام تقطع تتابع الفقرات إلى مقاطع موضوعية. ولكل موضوع نحدد له دورا بلاغيا في الحكم. والدور البلاغي يشير إلى موضوع المقطع. وفي هذه المقالة نستعمل فكرة الموضوع والتي تشابه الدور البلاغي لكل مقطع موضوعي. وهذه الدراسة تظهر أهمية تحليل الجمل في سياقها وهو ما يمكن من استخراج الجمل الأكثر أهمية من خلال موضوعها[فازندار 04ب].

وفي الأجزاء التالية من هذه المقالة سنتطرق إلى معللات هذا البحث ونتائج دراستنا للمتن القانوني. وسوف نعرض طريقتنا لتحديد البنية الموضوعية للأحكام بهدف إنتاج ملخص متماسك على شكل جذاذة تلخيص مهيكلة. وسنقدم مختلف وحدات نظام "ملخص النصوص الشرعية"LetSum  المرتكز على هذه المقاربة وكذلك تثبيته ونتائج التقييم الجزئي لتشغيل الوحدات وتقييما عاما للنتائج المحصل عليها.

2.سياق العمل

قام مركز الأبحاث في القانون العام في كندا بإنشاء معهد المعلومات القانونية الكندي  وهدف من ذلك  إلى خلق مكتبة قانونية رقمية تمنح منفذا شبكيا مجانيا إلى قرارات كل المحاكم الكندية.  مع العلم بأن عدد الأحكام الصادرة سنويا يصل إلى ما يقارب 200000 حكم. ووجود هذا العدد الوافر من الأحكام على شكل رقمي يتطلب خلق وإنتاج آليات حاسوبية متطورة لاستخراج المعلومة المهمة على شكل مختزل وبوسائل ناجعة وقليلة الكلفة.

وهنا يطرح سؤال أولي لماذا نهتم بمعالجة الأحكام القضائية القديمة وكذا ملخصاتها؟

أولا لأن المحامين ولحل معضلة لا وجد لذكرها بالحرف في القانون يرجعون إلى الأحكام السابقة بحثا عن شبيه لها من القضايا، وتحليل الحلول التي اتبعها القضاة والمحامون. لأن كل حكم سابق  يعتبر قانونا ملزما للأطراف وهو سابقة قانونية يستخرج منه حلول لمثيله من القضايا. فلحل قضية يجب تفحص المئات من السوابق وهي مهمة طويلة. إذ أن قراءة كل الوثائق للعثور على القرارات المهمة عمل شاق ولذلك يبحث طلاب وخبراء القانون على مثل ملخصات الأحكام القضائية هذه.

في منطقة كيبك الكندية يوجد الدليل الرقمي للأحكام القضائية للمحاكم وكذا الجمعية الكيبيكية للمعلومات القضائية وهما هيئتان تعرضان الملخصات اليدوية للمادة القضائية ولكن الوقت والخبرة الضروريتان يرفعان من تكاليف استعمال خدماتهما. فثمن ملخص ونصه الأصلي (آذار 2004) تقدمه الجمعية مثلا يساوي 705دولار كندي. في حين أنه يتوجب لدراسة حالة معينة تفحص المئات من ملخصات الأحكام كسوابق قضائية. واستفسار عن موضوع كاللغات الرسمية في كندا في قاعدة معلومات المعهد القانوني الكندي حسب المحكمة الاتحادية يعطي 500 حكما كسوابق قضائية وهذا يبين أهمية إنتاج الملخصات. وهناك بعض أنظمة المعلومات القضائية التي طورتها شركات خاصة كأنظمة :.QuickLaw  في كندا WestLaw وLexis في الولايات المتحدة غير أنها لا توفي كليا  بالمطلوب وبالشروط الخاصة في المجال.

ومن أسباب الصعوبة في المجال هو تعقد المجال : وضرورة معاجم خاصة بالمجال القانوني وتأويل التعابير القضائية والتي قد تحمل لبسا.  فكلمة  sentenceالإنجليـزية قد يكون لها معنيين، معنى جملة ومعنى خاص بالموضوع هو : الحكم. ومثل آخر كلمة dispositif فمعناها العام هو آلية وطريقة تشكل مكونات جهاز على العكس ففي القانون تعني الكلمة الجزء النهائي من الحكم والذي يتضمن ما قرر.

ثم إن تجارب أنظمة التلخيص الآلية الحالية محصورة أساسا بدراسة مقالات الجرائد وبعض الأنظمة الموجهة للمقالات المتخصصة[ساجيون 02]. وطبعا هناك اختلافات كبيرة بين لغة الصحافة ولغة القانون (: إحصائيات الكلمات وكلمات العناوين والعلاقة بين السلاسل المعجمية في العنوان مع الأفكار الأساسية في النص والعلاقة بين الجملة وسابقيها وتاليها وكذلك للفقرات وبنية النص). فبالنسبة للأحكام نبين في هذا المقال أنه من  الممكن تحديد البنيات السردية لمختلف أجزاء القرار وربطها بموضوعات. في حين فإن مقالات الصحف تكرر دوما الرسالة الأكثر أهمية حيث لا يتكرر ذلك النص القانوني أزيد من مرة واحدة. ومعالجة النصوص القانونية تتطلب حذرا خاصا وليس بالسهل تحوير وأقلمة التقنيات المستعملة في أنواع أخرى من النصوص.

3. متن الدراسة

3/1 التشكيل

يتكون متننا من 3500 وثيقة حكم قضائي باللغة الإنجليزية أصدرتها المحكمة الاتحادية في الحكم البدائي بين سنوات 2000 و2003 وموجودة على الرابط الشبكي http://www.canlii.org. وقد حللنا 50 حكما وملخصاتها البشرية المعدة من رجل قانوني وملخص مهني ونتوفر على عدد من ملخصات قرارات المحكمة الاتحادية منشورة على شكل جذاذات تحليلية على الرابط http://reports.fja.gc.ca. ودرسنا أيضا مجموعات من الوثائق بالفرنسية والتي تجمع 15 حكما وملخصاتها أنتجها  الدليل الرقمي القضائي للمحاكم وقرارات المحكمة الاتحادية. وعكس مشروع سالمون[أويتندالك 96] الذي يهتم بأحكام القضايا الإجرامية، فإن دراستنا مفتوحة على مختلف أنواع السوابق القضائية كالأحكام بخصوص المعلومات وسوابق الأحكام الإدارية والجوية والمنافسة والدستور وحقوق التأليف والبيئة وحقوق الإنسان والبحرية واللغة الرسمية والسجون وضمانة الشغل.....

ولتقدير متوسط طول الأحكام كمدخل لنظامنا فقد حسبنا توزيع الكلمات لكل من 3500 وثيقة من متننا. ونلاحظ أن 75% من القرارات  بطول ما بين 500 و 4000 كلمة (2 إلى 8 صفحة). إذن في عملنا نركز اهتمامنا على النصوص في هذا الحيز من الطول؛ 10% من الوثائق بها أقل من 500 كلمة (صفحة) أي أنه من الضرورة تلخيص 15% فقط من الوثائق التي تتكون من أزيد من 4000 كلمة.

وفي متننا الطول المتوسط للأحكام هو 3600 كلمة وطول الملخصات المتوسط هو 360 أي بمعل اختزال 10% .

3/2 هيكلة النصوص القانونية

في مجالات متخصصة كالمجال القانوني فإن السياق قد يغير القيمة الدلالية للجملة. وعادة فلتأويل جملة يجب معاينة موضعها في الفقرة النصية والوضع التي استعملت فيه هذه الجملة. ولاستخراج الجمل المهمة في القرارات القضائية فمن المهم تقديم السياق الذي جاءت فيه هذه الجمل. فمثلا للحصول على تأويل صحيح للجملة :The application is dismissed فمن الضروري اعتبار سياقها فإذا كانت هذه الجملة تظهر في الجزء من النص الذي يفسر التاريخ القضائي للحالات المشابهة فذلك يعني طلب مراجعة حكم واستئناف لحكم سابق لمحكمة أخرى وإذا ظهرت هذه الجملة في الجزء النهائي من الحكم فهي تعبر عن القرار النهائي المذكور.

ولمقاربة هذا الموضوع فقد درسنا تنظيم النصوص القضائية. ومن خلال تحليلنا ظهر أن الأحكام منظمة على شكل بنية كبرى(شاملة) تحوي مختلف مستويات المعلومات باستقلال عن مجال الحكم. والأبحاث الميدانية  للقاضي مايو[مايو96] ، من محكمة الاستئناف الكيبيكية، استعملت لتوجيه القضاة لكتابة حكم وتؤكد هذه الفكرة  أنه من الممكن تحديد بنية تنظيمية لهذه القرارات. والأحكام القضائية ينظمها الخطاب نفسه وهو ما يمكن من تقسيمها ارتكازا على تنظيم البنية الخطابية المضمنة. ومجموع الوحدات النصية التي تعالج نفس الموضوع  تشكل مقطعا موضوعيا. ولكل موضوع حد يدل على تغيير في الخطاب أو في موضوع المقطع. ولتحديد حدود المقطع الموضوعي درسنا عدة عناصر مؤشرة كالعناوين الدالة للمقاطع وموقع أجزاء النص والعبارات اللسانية وسنذكر كل ذلك  في فقرة تالية. وداخل كل مقطع موضوعي فإن الجمل تتعلق بنفس الموضوع وكل جملة تتبادل التأثير مع جوارها.

ولتحليلنا للمتن قارنا الملخصات النموذجية من عمل بشري مع نصوص أحكام أصلية. وحددنا البنية التنظيمية للحكم. والفقرات التي تعالج موضوعا معينا تعتبر عناصر من مجموع موضوعي. وعلقنا على المقاطع مع وسم عناوين موضوعها.  وكتبنا  معلقين على وحدات الشواهد (الاستشهادات) والوحدات النصية (فقرة أو جملة) التي يسوقها القاضي كمراجع (مثلا بند من فانون). ومقاطع الشواهد لها حيز كبير في الحكم ولكنها لا تعتبر مهمة في التلخيص وبالتالي فهذه المقاطع سوف يتم إذن سحبها خلال تصفية المعلومات.

صففت الوحدات النصية التي تعتبر مهمة للملخصين المهنيين يدويا مع عنصر أو مع عناصر من النص الأصلي. ويظهر هذا الربط مثلا بين الملخص الإنساني والنص الأصلي.

 

 

 

الجدول1

قرار المحكمة الاتحادية لكندا

ويظهر فيها ربط الوحدات النصية للنص الأصلي للحكم مع وحدات التلخيص اليدوية

النص الأصلي

ملف T-1557-98
   

ملخص رجل القانون
   

مقطع

[1]This application for judicial review arises out of a decision (the Decision) announced on or about the 30h of June 1998 by the Minister of Canadian Heritage ( the Minister) to close the Maligne River (the River) in Jasper National Park to all boating activity, beginning in 1999.
   

Judicial review of Minister of Canadian Heritage’s decision to close Maligne River in Jasper National Park to all boating activity beginning in 1999 to protect habitat of harlequin ducks
   

افتتاحية

[7]The applicants offer commercial rafting trips to Park visitors in the this area year from mid-June to sometime in September.
   

Applicants offer commercial rafting trips on River.
   

وقائع

[10] Consequently, a further environmental assessment regarding commercial rafting on the Maligne River was prepared in 1999. The assessment indicated that rafting activity had expanded since 1986, with an adverse impact on Harlequin ducks along the Maligne River.
   

1991 environmental assessment indicating rafting having adverse impact on harlequin ducks along river.
   

وقائع

 وحين نبحث عن المعلومات التي تعتبر مهمة في ملخصات رجال القانون ومعلومات الوثائق الأصلية، نلاحظ أن أصحاب القانون ينتجون ملخصات باستخراج الوحدات المهمة وفي نفس الآن يتابعون الخطوط الموجهة للنص. وجمع هذه الوحدات المختارة تكون الملخص.

إن تحديد البنيات الموضوعية يفصل الأفكار الأساسية  عن التفاصيل الثانوية لحكم ويحسن من مقروئية الملخص عن طريق إنتاج نصوص متماسكة. وفرضيتنا هي أنه رغم تغير أصناف الأحكام فإنه يمكننا تمييز البنية بالمعلومات المعروضة في حكم. وبقصد اكتشاف موضوعات الحكم فقد طورنا لذلك مُقطعا موضوعيا متمركزا على المعلومات اللسانية والقضائية. واستخرجنا مخططا تنظيميا موضوعيا فيه  تأخذ الوحدات المكونة للخطاب موقعا بتوالي ظهورها في الحكم. وسنعرض وظيفية الموضوعات وأهميتها في الحكم من وجهة نظر الأفكار الأساسية والمهمة.  ويظهر الجدول الثاني تنظيم نص الحكم وموضوعاته وهي : "معطيات القرار" و"مقدمة" و"سياق" و"حيثيات قانونية" و"خاتمة". وعرض الملخص النهائي يحترم هذا التنظيم والهدف هو تكوين جذاذة تلخيص للقرار في خمس موضوعات.

معطيات القرار تمثل المرجعية التامة والعلاقة بين الأطراف على المستوى القانوني وهي : اسم المحكمة ومكان الجلسة وتاريخ الحكم ورقم التسجيل وإحالة محايدة وتحديد الأطراف واسم الحكم والمرجعيات والنظريات المذكورة.

المقدمة: وهي تحوي الفقرات المفسرة المذكورة في بداية الحكم ومقدمة الموضوع. وتصف بتلخيص الوضع المعروض أمام المحكمة وتجيب عن أسئلة من نوع من؟  فعل شيئا؟ وضد من؟ وقد يحدث أن تكون الأسئلة القانونية المتعلقة التي تحدد الموضوع القضائي المعروضة على المحكمة مطروحة مباشرة بعد المقدمة.

السياق: وهو يشمل الوقائع والتاريخ القضائي وكل الظروف التي حدثت فيها الوقائع. ويعيد تشكيلا لتاريخ القضية انطلاقا من الوقائع والأحداث المذكورة خلال تقديم البراهين والمذكورة في الحكم.

التعليل/الحيثيات القانونية: وفيها نقاش انطلاقا من السياقات ووقائع الخصام بالارتكاز على المراجع القانونية والمرجعيات  للوصول إلى خاتمة. وتجيب عن أسئلة قانونية وتشمل تفسيرا لمعللات الحكم.  وهذا الجزء هو الأهم في ملخص القرار القضائي لأنها تشمل تعليل القرار النهائي للمحكمة وتعطي الحل. وتعليلات المحكمة يجب أن تكون إجابات على أسئلة القانون التي طرحتها الأطراف. وبعد الحكم تصبح العلل قاعدة قانونية.

الخاتمة: وهي الجزء الأخير من الحكم والذي يعرف بقرار القاضي. ويعرف بحكم المحكمة وهو الجزء الختامي من الحكم وفيه تذكر المبالغ المحكومة إذا وجدت. وفي القانون الجزائي مثلا يجب تخصيص ما  إذا كان شخص قد حكم عليه نافذا أو أطلق سراحه.

وقد حددنا في متننا هذا التنظيم النصي على شكل مقاطع موضوعية. وبمتابعة الموضوعات ينتقل القارئ من تعريف النزاع إلى حكم المحكمة كنتيجة وهي قد تكون حلا للمشاكل بين الطرفين أو طرحا للقضية على محكمة أخرى لتكملة المسار القضائي.

الجدول الثاني البنية الموضوعية لحكم

البنية الموضوعية
   

التفسير

معطيات القرار
   

اسم المحكمة

مكان المحكمة

تاريخ الحكم

رقم السجل

تحديد الأطراف

إحالة محايدة

اسم الحكم

المراجع والمرجعيات والنظرية

المقدمة
   

من؟ فعل ماذا؟ ضد من؟

السياق
   

وقائع تعيد تشكيل تاريخ الخصام

التاريخ القضائي

الحيثيات القانونية
   

تحليل الحكم وتحديد الوقائع

تفسير علل الحل المختار

الخاتمة
   

القرار النهائي للمحكمة

4. مصادر المعلومات

وخلال تحليلنا لمتن الملخصات المرتبطة بالنصوص القانونية حسبنا توزيع المعلومات (بعدد الكلمات) لكل موضوع حكم. والحيز الذي تأخذه هذه الحقول في مجال المنبع والملخصات هي في الجدول الثالث. ولاحظنا أهمية كثافة اشتراك كل موضوع قضائي في الملخص وهو ما مكننا من منحه درجة مشاركة كقيمة دلالية للموضوعات. وهذه القيم الدلالية ترفع أو تقلل حظوظ  الجمل المرشحة للظهور في الملخص النهائي. مثلا في المرحلة النهائية ومراقبة حجم الملخص نستحسن جملة في الحكم في الحيثيات القانونية على مقطع سياقي لأن الأول يعتبر مهما لقيمته الدلالية المرتفعة.

وكل حكم يحيل عادة إلى أحكام سابقة ويذكرها. وهذه المقتطفات يمكن أن توضع في عدة مقاطع موضوعية  حسب الحالات. والشواهد المذكورة لا تعبر عن الأفكار الأساسية/ المفاتيح للأحكام ولكن النتائج المعتبرة والمستخلصة من هذه الجمل كبيرة. وعادة فإن الشواهد تشمل مرحلتين تشكل الأولى المرامي وعلل طرف كل في  النزاع. وهذه الفقرة تشمل أطروحات وعروض كل طرف للمشكلة وموقفه  والتي اعتبرناها كجزء من موضوع السياق. والفقرة الثانية من المسرود هي نقل لبنود القانون وما قد يعالج المرامي من وجهة قانونية ويطبق قانونيا على الحالة. وهذه المقاطع المذكورة هي فقرات وأجزاء من القانون والأحكام أو نظريات قانونية يرتئيها القاضي كمرجعية في علله. وفي أغلب الحالات تعبر هذه الشواهد جزءا من موضوع الحيثيات القانونية. وفي نظامنا نحدد الشواهد بغية تحديد النتائج والاحتفاظ بها في لائحة الوحدات المرشحة للاستخراج.

الجدول الثالث

 نسبة مشاركة كل موضوع في الملخص والأحكام الأصلية

البنية الدلالية
   

الحكم
   

الملخص

المقدمة
   

5%
   

2%

السياق
   

24%
   

20%

الحيثيات القانونية
   

67%
   

60%

الخاتمة
   

4%
   

8%

الجميع
   

100%
   

100%

5.معجم المعارف اللسانية

كونا معجما للمعارف اللسانية والكلمات المختصة في المجال القانوني. ويشمل المعجم 250 معلما لسانيا ذي قيمة عايناه في المتن. وهذا المعجم مرتب على ثلاثة أصناف.

الأول يشمل المعلمات المشتركة بين عدة أنواع من النصوص وقسم على ثلاثة أقسام : الأفعال والمفاهيم  (أسماء ونعوتا وظروفا) والمؤشرات المكملة (كالمعلمات/علامات الترقيم في الطباعة والأرقام والموصولات).

 والصنف الثاني للمعلمات يشمل عبارات نمطية والتي تدل عن الأجزاء المهمة من الخطاب.

و الصنف الثالث يشمل الكلمات والعبارات الخاصة بمجال القانون والتي تمكن من إزالة اللبس في العبارات المتعددة المعاني في معجم عام ولكنها في القانون لها معنى خاص مثلا "استئناف" والفرق بين استئناف العمل واستئناف الحديث والاستئناف القضائي.

6. طريقة التكوين الآلي لجذاذات الملخصات

دراستنا للمتن المرتكزة على تحليل جمل الملخصات النموذجية المربوطة يدويا بالأحكام  الأصلية أبرزت البنية الموضوعية للحكم. ومقاربتنا للتلخيص الآلي مبنية على هذا التحليل. وكذلك تجميع الفقرات التي تتناول نفس الموضوع وهو ما يدفع إلى استكشاف الحدود الفواصل بين مختلف الموضوعات في الوثيقة. وبتقسيم الوثيقة يقسم النص إلى مقاطع موضوعية. و نخص كلا منها بموضوع معين كموضوع تعالجه فقرة من المقطع. ومن خلال موضوع المقطع نستخرج الجمل المؤثرة الحاملة للمعلومات المهمة على الموضوع. ولكن قبل مرحلة الاختيار فإن تصفية للمقاطع المذكورة وغير المهمة تقلص كمية النصوص المحللة. وأخيرا يشكل مجموع الجمل المستخرجة التلخيص.

وفي الأسطر  التالية سنفسر بتفصيل طريقتنا لإنتاج التلخيص الآلي المتركزة على تحديد البنية الموضوعية للحكم باستعمال تقنيات استخراج الوحدات الموضوعية البارزة مع تقديم للتلخيص النهائي على شكل جذاذة تشمل فقرات متشابهة من المعلومات. وهذه الجذاذة تمكن من عرض للمعلومات التي رئي  أنها مهمة ومرتبطة بموضوعات محددة مما يسهل القراءة والتنقل بين الملخص ونص الحكم الأصلي. ولكل جملة من الملخص المنتج يمكن للمستعمل تحديد الموضوع بمعاينة الموضوعات المرتبطة بالمقطع الموضعي. وإذا ظهر بأن جملة هي أكبر أهمية للمستعمل ويريد مزيدا من المعلومات على الموضوع نقترح عليه المقطع الموضوعي بكامله والذي يشمل الجملة المختارة للحصول على معلومات مكملة في الموضوع. و نظامنا يتوفر على معالجة أولية للنص مما يعني توزيع النص على وحدات نصية (فقرة وجملة وكلمات وأرقام وتنقيط) ووحدات لسانية. وتشكيل جذاذة الملخص تتم عبر أربع مراحل هي: التقطيع الموضوعي وغربلة الوحدات الأقل أهمية كالشواهد مثل بنود القوانين واختيار الوحدات النصية المرشحة للتلخيص وإنتاج الملخص بالحجم المرغوب فيه.

ومرحلة التقطيع تستكشف الهيكل البنيوي للنص،  وكل مستوى من هذه البنية له موضوع خاص في الحكم. وبحسب الموضوع نحاول تحديد الوحدات المهمة في المقطع المقابل مع احترام حدود حجم الملخص.

6/1 تقطيع بحسب الموضوعات

في المرحلة الأولى نهتم بتحديد الوثيقة الأصلية والتقطيع الموضوعي بهدف توزيع النص على مقاطع ذات موضوع موحد.

6/1/1 تجريب

وللتقطيع الموضوعي قمنا ببعض التجارب باستعمال مُقَطعين نظام TexTiling  الذي وصفه هيرست[هيرست 94] والمُقطِّع C99 الذي وصفه شواي[شواي00]. وهذان المقطعان الإحصائيان يستعملان وظيفة التجميع العنقودي لتقسيم الوثيقة على موضوعات. وكانت نتائج هذا التقسيم غير مشجعة في تحديد البنيات الموضوعية للأحكام. فالمقطع الأول أعطانا كنتيجة مقطعا موضوعيا لكل فقرة والثاني لم يعطينا إلا بعض التقسيمات (فقرات أو شواهد. وبالتالي قمنا بتقطيع موضوعي مرتكز على المعرفة الخاصة بالمجال القانوني. وللتحصل على ذلك يجب تحديد الحدود الفواصل للبنية الموضوعية لتأطير مقاطع النص المرتبطة بموضوع معين في الأحكام.

وسيلة شرح خطية 2 (بلا حدود)‏: نص السوابق القضائية تخطيط انسيابي: معالجة: المعالجة الأولية -تقسيم النص على - فقرات - جمل - كلمات، أرقام ، علامات تنقيط - تحديد الأجناس اللغوية   

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


 

وسيلة شرح خطية 1 (بلا حدود)‏: تقطيع موضوعي باستغلال بنية الحكم يمكن أن ندل على الشواهد في النصوص. واستكشاف الشواهد شيء مهم للمرحلة التالية من تصفية المعلومات. ولكي نتعرف على الشواهد في الأحكام طورنا طريقة تعرف المعلمات المباشرة وغير المباشرة للاستشهاد.  وهو ما سنتطرق له فيما بعد.

6/1/2 وحدة التقطيع الدلالي للموضوع

مُقطعنا مبني على المعرفة الدلالية للحكم. وقد حددنا المؤشرات اللسانية والمعجم الخاص للمجال الذي يدل على تغيير الموضوع. ولتحديد موضوعات المقاطع والمعلمات الأكثر أهمية نستعمل : المؤشرات والمعلمات اللسانية في عناوين الأجزاء وموقع الفقرات والمعلمات اللسانية والعبارات المنوالية للمجال. وللتقطيع فقد  طرحنا  200 قاعدة دلالية تضبط المعلمات اللسانية باعتبار السياقات التي استعملت فيها الكلمات.

وحددنا العناوين المهمة للأجزاء النص التي تفرق بين مختلف مراحل نص الحكم. ويظهر الجدول الرابع أمثلة المعلمات المحددة في العناوين وأمثلة للعناوين المعاينة في الأحكام المرتبة حسب موضوعاتها في الوثيقة.

الجدول الرابع المعلمات المهمة التي تتواجد بكثرة في عناوين الأجزاء

صنف العنوان
   

معلمات لسانية
   

أمثلة العناوين

المقدمة
   

Introduction, summary
   

Introduction , summary

السياق
   

Facts, background
   

The factual background, Agreed statement of facts

الحيثيات القانونية
   

Analysis, decision, discussion
   

Analysis and decision of the court

الخاتمة
   

Conclusion, disposition, cost
   

conclusion

 

إن معطيات القرار يمكن أن تستخرج من المعلومات المقدمة في الصفحة الأولى لغلاف وثيقة الحكم. وفي مجال المرجعيات والمرجعية نحتفظ بالمراجع والإحالات القانونية المذكورة في الوثيقة. وهذه الفقرة تتواجد متفرقة في نص الحكم تحت عناوين Reasons for order أو  reasons for judgement. وفي غالبية أحكام المحاكم الكندية يبدأ الحكم بمدخل في الموضوع والتي يشكل الفقرات الأولى من الوثيقة معطيا في العموم معلومات مهمة حول القضية. وقد سمينا موضوع هذا المقطع في وصفنا بمقدمة. وبعد المدخل نجد المعلومات حول وقائع وتاريخ النزاع وهذا المقطع مرتبط بموضوع السياق. وعناوين فقرة السياق يمكن أن تشمل مثلا The factual background  أو Agreed statement of facts. والسياق يتكون من مستويي خطاب، الأول يخص بتقديم أطراف النزاع وطلباتها والثاني يتكون من الجزء السردي للحكم وفيه يسرد القاضي الأحداث والوقائع. ولتقديم الأطراف فإن المعلِّمات المستعملة هي :appelant, applicant, defendant, plaintiff, respondent متبوعة بهويتها مثلا المدعى هي شركة سين وللطلب فلأفعال التالية هي المستعملة advise, indicate, request....

وبهدف رفع درجة دقة هوية الأطراف حددنا بعض القواعد التي تأخذ بعين الاعتبار الدلالة. مثلا إذا وجدت الجملة التالية في مقطع السياق رب العمل فإنthe responent ليست هوية طرف: On February 14, 1996, the Minister issued, pursuant to subsection 70(5) of the immigration Act, an opinion that the respondent is a ‘ danger to the public ‘. فقواعد الدلالية إذن تتأكد من النقاط التالية :

هل هذه الجملة تعكس رأيا عاما أو أنها وجهة نظر مخصصة؟ هل هذه الجملة تعكس تعريفا في حالة معينة ( the person constitutes a danger to the public in Canada is …) ؟ أم أنها استشهاد؟

ومن الجزء السردي من الخطاب يمكن أن نستخرج ما وقع بين الطرفين وتاريخ قضية التنازع. والنص السردي لموضوع السياق يمكن أن يكون محددا بالسمات التالية:

- وجود متوالية حوادث تشكل كلا من واقعة،

- وجود تواريخ تامة للأحداث،

- وجود روابط منطقية زمنية (إذن  وبعده وتاليا..)

- وجود زمن ( الماضي في عموم الأحيان)

- أفعال "العمل".

في بعض الأحكام تتوارد عدة فقرات بعناوين مثل  respondent’s position  أو Aplicant’s submissions تفسر موقف طرف أمام القاضي. وفقرة المسائلة حول النزاع تشمل أسئلة عن الوقائع أو الحق القانوني والتي على القاضي أن يجيب عليها لتحديد نتيجة النزاع. وهذه الفقرة لها عناوين مثل تساؤل وقضايا issues, The questions of law قانونية. وحسب الحالات فإن القاضي قد يكون مدعوا للإجابة عن سؤال أو عدة أسئلة وقد يحدث أن يطرح القاضي هذه الأسئلة بوضوح وبالحرف في حيثياته. هذه الأسئلة القانونية هي مهمة لأنها تحدد هدف تعليل القاضي. والفقرتان الأخيرتان تسبقان فقرة التعليل القانوني واعتبرناهما كفاصل بين موضوعي السياق والتعليل القانوني.

وبعد أن يعرض القاضي المعلومات التاريخية حول القضية يبدأ في التعليل والحيثيات القانونية،  الجزء الأهم في القرار، والذي يؤدي مساره من السياق إلى القرار الختامي للمحكمة.  هذا المقطع  يمكن أن يكون له عنوان هو مناقشة أو تحليلAnalysis or discussion. وكما ذكر في جزء السياق يستعمل في أغلب الأحكام أسلوبان في لغة القرار بحسب موقعهما في النص. ففي فقرة الجزء السابق الحيثيات القانونية يتكلم القاضي بأسلوب سردي لوصف الوقائع الناتجة عن النزاع  والقاضي هو الذي يحلـل القوانيــن والسوابق القضائية للوصول إلى خاتمة. فإذن في خطاب موضوع الحيثيات القانونية فإن القاضي يتكلم بضمير المتكلم  والعبارات  المستعملة في الحيثيات والتعليل القانونية هي :

In reviewing the sections No. Of act, Pursuant to section No., As I have stated, In the present case, The case at bar is, I am of the view that, etc.

والجزء الأخير من الحكم يعبر عن الخاتمة حيث ينطق القاضي بنتائج الحكم وآلياته والتي يشير فيه إلى ما قرر. وفي العادة فإن الجمل المتضمنة لآليات القرار  تبرز في الفقرة الأخيرة للحكم بصيغة  المبني للمجهول. ووجود المعلِّمات اللسانية لتحديد نتائج الحكم مهمة. ومن أمثلة الجمل التي تتعلق بآليات القرار هي : The motion is dismissed, the application must be granted. وحددنا لائحة بالمعلمات لأقسام الأفعال والتي تعبر عن القرار القضائي: allow, deny, dismiss, grant, refuse, award......

وقد نجد في حكم جزءا من فقرة كأمرorder  بجملة أو بجملتين تصف نتيجة المحاكمة باختزال. وهذا الجزء قد يوجد في البداية أو في آخر الحكم بعد الخاتمة.

واعتبرنا كخاتمة للحكم توقيع القاضي مع معلمات مثل اسم القاضي وصفتهjudge وتاريخ ومكان الجلسة.

و قد يكمل بعد ذلك الحكم بمعلومات وافية عن مراجع لكل بنود القانون والنظريات المذكورة ... الخ وهي معلومات  غير مهمة للملخص.

6/2  التصفية

هدف التصفية والغربلة هو تحديد الأمثلة السلبية والتي يمكن حذفها من الوثيقة دون ضياع المعلومات المهمة للملخص والأمثلة الإيجابية التي ترفع حظوظ  ترشيح وحدة نصية للظهور في الملخص النهائي. وفي حالة الشواهد، وكأمثلة الجدول الخامس، فوجود المعلمات يدل على تغير موضوعي للشواهد. وهذه الطريقة تمكن من اختزال طول النص المحلل.

وفي وثيقة الحكم تشكل الشواهد حجما كبيرا في النص أي ما يقارب 30% من وثيقة الحكم وفي حين يكون محتواها أقل أهمية للتلخيص، ولذلك اعتبرناها كأمثلة سلبية.  ولهذا السبب حددنا في داخل المقاطع الموضوعية  الشواهد المقصية. والشواهد هي من نوعين : الأولى الإدعاءات ودلائل الأطراف  فيما يخص وجهات نظرها حول النزاع، والثانية الدعاوي القانونية فيما يخص الاستشهاد ببنود القانون القابلة للتطبيق على القضية. وكمثل إيجابي حددنا نتائج حالات الشواهد التي من الممكن الاحتفاظ بها في الوحدات النصية المرشحة للتلخيص.

وتحديد الشواهد متركز على نوعين من المعلمات وهما المباشرة وغير المباشرة.

 والنوع الأول يشمل المعلمات اللسانية. والجدول السادس يظهر المعلمات اللسانية المحددة قي ثلاثة أصناف : أفعال الشواهد والمفاهيم (أسماءـ ونعوت ، وظروف) والمؤشرات المكملة. والأفعال التي حددناها في الإنجليزية تساير أبحاث مراد اللسانية حول تحديد الأفعال في الشواهد [مراد00، مراد03] والتي طبقها  على النصوص الفرنسية وأنواع من مقالات الجرائد الفرنسية وكذا تقارير علمية.

والصنف الثاني يشمل معلمات الشاهد غيرالمباشرة. والوحدات النصية المذكورة بطريقة غير مباشرة هي الوحدات المجاورة للجمل المذكورة مباشرة. وفي الجدول الخامس فإن معلمات الشاهد المباشرة هي الكلمات المكتوبة بالخط الغليظ "section 20(1) of act reads as follows :" ولكن الوحدات النصية التي تتبع هذه الجملة هي أيضا الوحدات المذكورة. وقد أدمجنا آلية تحديد للدمج الخطي بين الجمل التالية والجملة المذكورة في الأول مع المعلمات المباشرة. وللحصول على فواصل الشاهد من المهم تحديد بدايته ونهايته . ولكل وحدة معلمة كشاهد اعتبرنا الجوار المتضمن للوحدات النصية (جملة أو فقرة) المتواجدة قبل أو بعد الوحدة المعلمة مع احتمال أن تكون هي أيضا شاهدا. وقد طورنا قواعد دلالية لمتابعة جوار الوحدة المذكورة والموصوفة في الجزء السابع المتعلق بتثبيت النظام.

الجدول الخامس

مثال لشاهد: والخط الفاصل بين الفقرتين يبرز تغيرا موضوعيا يدل على وجود شاهد. والكلمات المغلظة الخط هي معلمات الشاهد. وهذه الوحدة تشير إلى الكتلة المرقمة والذي سوف تعتبر شاهدا لأن جمل هذه الكتلة هي مرتبطة بتكامل خطي مع الوحدة الأولى المحتوية على معلمات الشاهد.

 

عنوان الحكم: الوصول للمعلومة، رقم التسجيل: T-1819-98

In support of this application the plaintiff maintained that the Department had erred in fact and in  then it decided that the plant inspection reports could be disclosed to :Mr. D.,  since the tests for exceptions to the disclosure of documents contained in s. 20(1) (c) and (d) of the Act had not been met. Section 20(1) of the Act reads as follows :

20.(1) Subject to this section, the head of a government institution shall refuse to disclose any record requested under this Act that contains :

(a) trade secret of a third party.

(b) financial, commercial, scientific or technical information that is confidential information supplied to a government institution by a third party an is treated consistently in a confidential manner by the third party.

(a) information disclosure of which could reasonably be expected to result in material financial loss or gain to, or could reasonably be expected to prejudice the competitive position of, a third party.

(5) information the disclosure of which could reasonably be expected to interfere with contractual or other negotiations of a third party.

 ومن المهم تحديد بداية ونهاية الشاهد. ولكل وحدة معلمة كشاهد اعتبرنا الجوار الذي يحوي الوحدات النصية (جملة أو فقرة) المتواجدة قبل وبعد الوحدة المعلمة كساهد مع احتمال أن تكون شاهدا. وطورنا قواعد دلالية لمعاينة جوار الوحدة المذكورة والتي سنتعرض لها في القسم السابع حول تثبيت النظام.

6/3 انتقاء الوحدات النصية.

والمرحلة التالية في معالجة المقاطع هي اختيار الوحدات النصية لبناء لائحة وحدات بارزة مرشحة لكل مقطع موضوعي في الملخص. ويجب تحديد ما هي المعلومة التي يجب ضرورة أن تتواجد في الملخص. والجدول السابع يبرز المعلمات اللسانية المستعملة في نمط الاختيار للوحدات النصية التي تدل على الجمل المهمة في وثيقة الحكم. والمعلمات مرتبة حسب موضوعها في الحكم. ومعلمات المقدمة تحدد الوحدات التي تشير إلى المشكل وربما المراجع القانونية المستعملة خلال التعليل. ومعلمات السياق تحدد المقاطع النصية التي تمثل الجزأين وموضوع النزاع غير أن وجهات نظر الأطراف ليست مهمة للملخص. ومعلمات التعليل القانوني تحدد المقاطع النصية التي تخص تحاليل القاضي والاستنتاجات المحصل عليها بهذه التحليلات. ومعلمات الخاتمة تشير إلى جمل الآليات التي تصف القرار النهائي للقاضي.

الجدول السادس

المعلمات اللسانية في الشواهد

أجناس الأفعال
   

أصناف المفاهيم
   

أصناف المؤشرات

Conclude, define, indicate, provide, read, reference, refer, say, state, summarize…
   

Following, section, subsection, page, paragraph, pursuant…
   

علامات الترقيم: نقطتين، ومعقوفتين

حروف at (page), (pursuant)

أرقام : جزء، صفحة بند قانون

موصولات: اسم وصل

 

ولإعطاء الوحدات وزنها النسبي فقد منحنا ثقلا : "ث" قيمة ما بين 0 و10 لكل وحدة نصية وارتكزنا على الوظائف التوثيقية.  ومجموع الأوزان النسبية يمكن من حساب ناتج لكل جملة.  ولتطوير نمط الاختيار ومنح الأوزان أخذنا بعين الاعتبار النقاط التالية:

- موقع الجمل في الفقرة:  للجملة الأولى من الفقرة قيمة "ب" تساوي 3 وللجملة الأخيرة (للفقرات الأطول من جملة) "ب" تساوي 2.

- موقع الفقرات في المقطع الموضوعي : للفقرتين الأوليتين في المقطع قيمة "ب" تساوي على التوالي 2 و1. وثقل الفقرة الأخيرة من المقطع (للمقاطع الأطول من فقرتين) هي 1.

- قيمات المعلمات اللسانية : للجمل المشتملة على معلمات (صنف الجمل والمفاهيم  والمؤشرات؛ وعبارات نمطية ومعجم مراقبة للمجال)  وقد منحنا قيمة للثقل بحسب أهمية المقاطع.  وقيمة "ب" للجمل هي ما بين 7 و10.

واستعملنا بعض الأنماط الحسابية الإحصائية للكلمات الفردية وللكلمات في سياق الوثيقة. واعتبرنا نمطا يحسب تكرار الكلمات وآخر يحسب  Stf*idf حيث tf تدل على تكرار الكلمة في الوثيقة و idf  (inverted document frequency) تدل على ما إذا كان هذا اللفظ مميزا في الوثيقة أو أنه موزع بتساو في المتن. والكلمات التي تمتلك أعلى قيمةtf*idf   يجب أن تكون في نفس الوقت الأهم في هذه الوثيقة وقليلة الظهور في وثائق أخرى. وهي حالة كون الكلمة المعنية تقابل ميزة مهمة ووحيدة للوثيقة ويمكن أن تعبر عن موضعية الوثيقة. ونتيجة هذه المرحلة هي لائحة من الجمل لها ثقل أكبر والتي تأخذ 30% من حجم الوثيقة الأصلية.

الجدول السابع

المؤشرات اللسانية المستعملة في وحدة الاختيار للوحدات النصية التي تدل على الجمل المهمة في الحكم.

المواضيع
   

المؤشرات اللسانية

التقديم
   

مفاهيم:decision, motion, application, determination, order, proceeding, against, rule, reason

أفعال: raise, strike, determine, describe, declare, date.

 تعابير:

 application, for judicial review, application to review a decision, motion field by, Statement of Claim.

المواضيع
   

المؤشرات اللسانية

السياق
   

مفاهيم: الأطراف appellant, applicant, defendant, plaintiff, respondent

أفعال: advise, indicate, request, claim, allege, concern..

 

الحيثيات القانونية
   

مفاهيم:opinion, conclusion, summary, because, cost, action, view, reason, I, my.

أفعال: note, accept, summarize, scrutinize, think, say, satisfy, discus, conclude, find, believe, reach, indicate, persuade, agree, see, review, recommend, answer.

تعابير:in the case at bar, for all the above reasons, in my view, my review of, i, view of the the evidence, in the result, finally, thus, consequently,

 

الخاتمة
   

مفاهيم:motion, application, action, parties,,

أفعال:allow, deny, dismiss, grant, /

 refuse, award,

تعابير:for (all) the above reasons, for all of the foregoing reasons

 

 

6/4 إنتاج الملخص

وبعد أن يتم اختيار الوحدات المرشحة المحتملة للتلخيص وفي هذه المرحلة تنتقى الوحدات للتلخيص النهائي بهدف إنتاج ملخص مكون من 10 % من حجم وثيقة الحكم الأصلية.  وطريقة اختيار الوحدات مرتكزة على معامل الثقل النسبي للمقطع الموضوعي المشتمل الوحدات المرشحة.  وحسب تحليلاتنا للمتن المقدم في الجدول الثالث، فإن توزيع المعلومات في ملخصات القانونيين يعطي إمكانية قياس أهمية المقاطع الموضوعية.

وخلال هذه المرحلة من اختيار لائحة الوحدات المرشحة ننتقي وحدات المقطع الموضوعي المقدمة ذات الحاصل الأعلى بلوغا لحد 10% من حجم الملخص. وفي مقطع السياق فالوحدات المختارة تأخذ 24% من طول الملخص ويشارك مقطع الحيثيات القانونية بنسبة 60% ووحدات الخاتمة لها نسبة 6% من الملخص.

7. التثبيت

نظام التثبيت في هذه المقاربة الإنتاجية الآلية للملخص هي نظام سمي بـــ: LetSum مطور بلغة جافا وبيرل. ومدخل النظام هي وثيقة من السوابق القانونية قد يكون لها شكل XML, HTML, SGML, RTF أو نصا لا معلم له. ولتحليل الوثيقة يقوم البرنامج بمعالجة أولية للوثيقة والنص مقسم على فقرات وجمل وحدات أصغر كالكلمات والأرقام وعلامات التنقيط. والمحلل التركيبي المستعمل لتحديد الأصناف النحوية للكلمات هو نمط وصفه هيبل[هيبل 00].  والقواعد والنحويات الدلالية كتبت بلغة جاپJava Annotations Pattern Engine والتي يمكن أن تعمل مع مترجم رموز لجات [كونينغام02] ويمنح الأخير إمكانية استخراج بعض الوحدات المسماة (كالأشخاص والتواريخ والأمكنة...) وإحالة مشتركة [ساجيون 03].

وتثبيت البرنامج حسب نمط التصور في الشكل الأول يشمل المراحل تالية:

1) تقطيع موضوعي: واخترنا الشروط التالية لتقسيم المقطع على موضوعات. وإذا تحقق  الشرط الأول توقفت المعالجة.

- وجود عناوين وأجزاء وترتيب بين أصناف العناوين (الجدول الرابع) وجزء بعنوان له معنى يتقطع موضوعيا مع موضوع محدد بعنوانه.

- الموقع المطلق للمقطع: فأول فقرة هي مدخل والفقرتين الأخيرتين هما خاتمة.

- الموقع النسبي للمقطع (وحسب نتائج دراستنا لمتن المقاطع الموضوعية المحددة في وثيقة الحكم  فإن المقاطع  مرتبة خطيا) وإذا وجد جزءان  موضوعيا  محددان وجزء بين هذين المقطعين ليس له علامة موضعية  بعد فإن  موقع هذا الجزء هو معلِّم.

- وجود المعلمات اللسانية:  يحسب النظام عدد معلمات التقطيع  للفقرات. وإذا وجد جزء له عدة معلمات من نفس الصنف فإن هذا الجزء يمكن أن يأخذ نفس العلامة مقارنة بصنف المعلمات التي يشملها.

- تحديد الأسلوب السردي والمباشر (مؤشر حدود مقاطع السياق والحيثيات القانونية) : مع إنذار بوجود أسلوبين نمطيين  عن طريق عنصر الزمن والحدثة للمجموعات الفعلية.

2) تصفية الشواهد والتي تشمل أربع مراحل:

-       تحديد المعلمات وحوامل الوحدات النصية.

-       استخراج الجمل المشتملة على هذه الوحدات.

-       إشعار بوجود معلمات التكامل الخطي: حيث يحدد النظام أولا الجمل المشتملة على وحدات مرقمة وبعده يكتل هذه الجمل. والنظام يتأكد من شروط علاقة الشاهد بين الوحدة الموسومة كشاهد مع الكتلة المسرودة.  وفي حالة كون الشاهد يرتبط بالكتلة المذكورة فإن الكتلة تعتبر هي أيضا شاهدا.

-       مراقبة فقرة الشواهد بالجوار (ما قبل وما بعد) للوحدات المذكورة في حالة فقدان علامات السرد.

3)      اختيار الوحدات البارزة: يقوم البرنامج بحساب ثقل كل جملة في وثيقة الحكم من خلال الوظائف التوثيقية  المفسرة في الفقرة السادسة والمرتكزة على المعلومات التالية: موقع الفقرات في الوثيقة وموقع الجمل في الفقرة والمعلمات اللسانية  والمصطلحات الملحوظة في المجال القانوني. والمنوال الإحصائي للنظام يحسب تكرار الكلمات ويحسب قيمة    Stf*idf    لكل جملة. وقمنا بحساب inverted document frequency باستعمال مجموعة الأحكام الصادرة عن المحكمة الفيدرالية بكندا والتي تشمل ملفات القرارات القضائية والتي فتحت أمام العموم من عام 1992 إلى 2004. وتشمل المجموعة على 10317 حكما باللغة الإنجليزية موجودا على الشبكة في http://canalii.org/ca/cas/fct/.

4)      إنتاج جذاذات للملخصات: ينتج البرنامج ملخصا قصيرا بإزالة الوحدات الأقل أهمية من لائحة الوحدات المرشحة وذلك على مستوى كل مقطع موضوعي. والنظام لا يحتفظ إلا بالوحدات النصية في حدود الحجم المرخص به للمقطع حسب إحصائية الجدول الثالث. والنظام يولد  جذاذة تلخيص بجمع الوحدات المختارة لكل مقطع موضوعي بالإشارة إلى الموضوع والفقرة في الحكم.

8.  مثال لناتج البرنامج

الجدول الثامن يعطي مثلا للفقرات النصية المهمة التي اختارها البرنامج تطبيقا على حكم للمحكمة الفيدرالية الكندية (2468 كلمة). والمعلومات الموجودة في مقطع معطيات القرار هي معلومات مهمة مستقاة من الصفحة الافتتاحية للحكم ومعلومات حقل المرجعية والنظرية المذكورة هي آثار لمرجعية مذكورة في الحكم. ووحدة التقطيع الموضوعي تقسم النص إلى مقاطع موضوعية (المواضيع مكتوبة في القسم اليميني من خانات الجدول الثامن). ووحدة التصفية تزيح الجمل التي تشير إلى الشواهد وكذا الفقرات المعدودة (فقرة 15 معلمة كاستشهاد في الجدول الثامن), ووحدة الانتخاب تختار الوحدات النصية (بالخط الغليظ في الجدول الثامن) لكل مقطع موضوعي.  وتختار الوحدات  بحسب موضوعها في الحكم.  وانطلاقا من كل هذه المعلومات تقوم وحدة  الإنتاج بمراقبة حجم الملخص وإذا كانت مجموع الجمل المنتخبة يفوق 10% من طول النص الأصلي فإنه يزيل بعض الجمل المرشحة على اعتبار أهمية المقاطع الموضوعية.

الجدول الثامن

مثال لخارج برنامج LetSum, الحكم الأصلي مقسم إلى مقاطع موضوعية وكتلة الشواهد سوف تحذف بوحدة التصفية. والوحدات بالخط الغليظ اعتبرت مهمة والجمل التي تحويها ستشكل الملخص النهائي.

المعطيات
   

اسم المحكمة : المحكمة الفيدرالية الكندية

مكان الجلسة : مدينة أوتاوا

التاريخ 1/12/97 رقم التسجيل T-1989-96

هوية الأطراف المدعي مفتشية  اللغات الرسمية المدعى عليه طيران كندا

موضوع الدعوة اللغات الرسمية

المراجع والنظريات المذكورة  جزء 78 من قانون اللغات الرسمية

المقدمة
   

(1) an order was made by this Court on February 4.1997 authorizing the respondent (Air Canada) to raise preliminary objections to the notice of an originating motion filed by the applicant (the commissioner). As a result, this motion filed by Air Canada on March 18,1997 raises six alternative preliminary objections asking the Court to strike out part the motion made by the Commissioner on September 6, 1996 under section 78 of the Official Languages Act.

السياق
   

1.                  Facts

(2) The commissioner’s originating motion, which was filed with the consent of the complainant Paul Comeau, concerns Air Canada’s failure to provide ground services in the French language at the Halifax airport.

(3)The commissioner’s motion is filed by the complainant Paul Comeau.

الشواهد
   

(15) The point of departure is paragraph 78(1), which reads as follows :

78(1) The commissioner may

(a)                within the time limits prescribed by paragraph 77(2) (a) or (b), apply to the Court for a remedy under this Part in relation to a complaint investigated by the Commissioner if the Commissioner has the consent of the complainant.

(b)               Appear before the Court on behalf of any person who has applied under section 77 for a remedy under this Part….

التعليل
   

(18) In my view, the purpose of section 79 is to enable the Commissioner to prove to the Court that there is a systemic problem and that it has existed for a number of years. Unless all similar complaints are filed in evidence, the Court cannot assess the scope of the problem and the circumstances of the application.

…..

الخاتمة
   

7. Conclusion

(30) This motion to strike by Air Canada with respect to the preliminary objections must accordingly be dismissed.

 

9. التقييم

ولتقييم مستوى ناتج النظام فقد اعتبرنا طريقتين: الأولى نقارن فيها الملخص المولد بالنظام مع ملخص نموذجي موجود في ذاكرة النظام. وتوجد آلية تمكن من تقييم الملاحظات حول الوحدات البارزة. ومن الممكن أن نصفف آليا وحدات  نصين لمقارنة التشابه بين الملخصات النموذجية والملخصات الناتجة بهدف حساب الدقة والتذكير هو الذي يحسب نسبة الملخص النموذجي الموجودة في محتوى الملخص الناتج بالنظام. وهذا التدقيق يحسب كذلك نسبة الوحدات المهمة من بين كل الوحدات الموجودة في الوثيقة. وكثيرا ما نستعمل حساب فاء كرابط بين الدقة والتذكير وهي تحسب الوزن المتوسط لهما.

وتوجد طريقة أخرى لتقييم الملخص يمكن استعمالها حين لا يتوفر الملخص النموذجي. وذلك بمساعدة برنامج دلفي، وهو اجتماع لخبراء في الميدان، حيث يقيم كل خبير الملخصات الناتجة بالنظام. وبعد مناقشة يخلص الاجتماع إلى نتيجة تقييم نهائية لكل ملخص مولد. وفي حالتنا يتكون الاجتماع من محامين وحاسوبيين يقيمون الملخصات الناتجة بالنظام. وكل عضو من الاجتماع يجيب عن طاقم أسئلة تخص جودة الملخص وفي النهاية تجمع لكل ملخص أراء لجنة التحكيم.

وقمنا في البداية بتقييم لنماذج وحدات النظام منفصلة. وقارنا نتائج وحدات النظام مع المتن المعلم يدويا. وقد استعملنا متنا من   25000 كلمة محصلة من 15 حكما والتي لم تستعمل في تجارب البرنامج ولم تستعمل في بناء معاجم المؤشرات. وكانت نتيجة تقييم للمقطع الموضوعي هي 0.90 لحساب فاء. وتقييم وحدة التصفية لتحديد الشواهد هي 0.98 وللدقة هي 0.95 وللتذكير فقد حصلنا على قيمة 0.96 لحساب فاء. ومن بين 60 حالة  شاهد حددت بدقة 57 وحدة. وسنقوم في القريب تميما بتقييمات للوحدات الإحصائية وكذا بتقييم عام للملخص الناتج.

10.الأعمال المقبلة

لنا القدرة حاليا على إنتاج ملخصات بالإنجليزية بالتعرف على البنيات الموضوعية وفي المرحلة المقبلة سنستعمل البنيات الموضوعية المعاينة في مهمات خاصة ولتحليل الجمل المستخرجة بتفصيل. ومثل لتطبيقات هذا التحليل هو توليد العناوين المهمة لسوابق الأحكام. وفي مرحلة ثانية من أعمالنا المستقبلية  سنحور منهجيتنا لتطبيقها على النصوص الفرنسية وهي اللغة الثانية المستعملة على العنوان الشبكيCanLII .

10/1 توليد العناوين الأكثر أهمية

في مقالات الجرائد تبرز  الرسائل المهمة في كلمات العناوين. ولكن في الأحكام لا يوجد عنوان للوثيقة بالمعنى الحقيقي. بيد أن الفقرات الأولى من الحكم تعطي صورة شاملة للحالة المعروضة. ومن المقاطع الأولى، والتي أسميناها بالمقدمة في جذاذة  الملخص، نولد عنوانا مخبرا عن الحكم لا يفوق 15 كلمة. وهذا العنوان هو ملخص شديد للحكم و يعرف بسرعة بهدف الوثيقة.

ومن التطبيقات على العناوين المهمة عرض نتائج البحث عن المعلومات.  ففي استفسار في قاعدة المعطيات CanLII يمكن لعشرات الوثائق  أن تقدم بعناوينها المعنوية وبمعاينة عناوين الأحكام، والتي تظهر هدف كل وثيقة،  يمكن للمستعمل أن يقرر بسرعة ما إذا كان حكم سابق ما مهما لبحثه.

10/2 معالجة الأحكام بالفرنسية

طريقتنا لخلق الملخصات الآلية طورت بداية للأحكام باللغة الإنجليزية غير أننا نرغب في تحويرها لتوافق الوثائق المكتوبة باللغة الفرنسية. و ستبقى أهم مكونات البرنامج نفسها بلا تغيير ولكن يجب تحوير معاجم المؤشرات اللسانية. ومن حظنا أنه يوجد في حوزتنا متن ثنائي اللغة فرنسي إنجليزي وهو مما يمنحنا إمكانية صف النصوص بالتوازي في اللغتين والتي تمكننا من استخراج المصطلحات الفرنسية المقابلة للفظ الإنجليزي الذي نستعمله حاليا. وسنطور أيضا القواعد الدلالية بالفرنسية التي تتأكد من وجود مؤشرات في السياق.

11 أبحاث مرتبطة

البرنامج هو أحد البرامج الأولى لمعالجة النصوص القضائية. غير أنه توجد أبحاث سابقة في الميدان القضائي لتزويد المحامين والقانونيين بالآليات اللسانية التي تساعدهم.

وبرنامج FLEXICON، من إنتاج جامعة كولومبيا البريطانية [سميث 87][ جيلبارت91] [سميث95]، وهو نظام طور لتسيير المعلومات القضائية وإنتاج الملخصات ويشمل معالجة النصوص مع تحليل على أساس الحالات. وهذه المقاربة تستعمل أنماط استخراج لتحديد المفاهيم والحالات القانونية والوقائع وتفاعلها في صنع القرار وذلك بهدف تشكيل صورة مهيكلة للوثيقة وإنتاج آلي لأبرز النقاط.  والمفاهيم  تحدد "بتوحيد" ومقابلة كلمات النص مع لائحة العبارات المهمة باستعمال قواعد توثق بسيطة.  ولتقديم الأجزاء المهمة من النص يولد البرنامج لائحة من أربعة صور قضائية وهي : المفاهيم الأكثر أهمية والوقائع والحالات ومجموع القوانين المطبقة.  ويقوم البرنامج بحساب وزن هذه اللائحة بترتيب تنازلي.  ويستخرج الفقرات المهمة كاملة ويزيح الفقرات القصيرة والتي تحوي الشواهد الأقل قيمة في وثيقة الحكم.

وفي بحثنا ورغم بساطة هذه المقاربة فإن صورة الوثيقة المعروضة تهمنا لأن هذا النظام طور للنصوص القضائية الكندية من شاكلة القانون العام وهي تشكل بالذات متن نصوصنا.

مشروعSALOMON ، من إنتاج جامعة الكاثوليكية بلوفان، [موينس 96] [موينس 99]، وهو ينتج ملخصا آليا للحالات القضائية الإجرامية البلجيكية (المكتوبة بالهولندية). وهذا النظام يستخرج الوحدات المهمة من الوثيقة انطلاقا من نص الحكم لتكوين ملخص.  وهدفه هو تحديد واستخراج المعلومات المهمة انطلاقا من السوابق. وقد استعملت طريقتين لتطوير البرنامج. ففي البداية يحدد النظام أصناف الحالات والبنيات والوحدات غير المهمة في النص. هذا المنهج يرتكز على تمثيل المعارف المجمعة في نحو نصي.  وبعد ذلك يستخرج المعطيات العامة والأساسية لموضوع القرار.  وفي مرحلة ثانية ينتج النظام ملخصا يخبر عن الوحدات النصية من وجهة نظر المحكمة باستعمال تقنيات إحصائية.  وفي هذا المشروع تستعمل المعلومات اللسانية المعمقة. وتستخرج المفاهيم والوحدات النصية البارزة باستعمال الكلمات الأساسية والمقاطع المؤشرة والمعالم السياقية وقد طورت للغة الهولندية.  ويظهر في هذا البحث أيضا أهمية استعمال البنيات الموضوعية للنصوص القضائية.

ويوجد مشروعSUM  ،وهو من إنتاج  جامعة أندنبرة، [جروفر03] ويستعمل المعلومات البلاغية وبنية الخطاب على مستوى تحليل الكلمات وذلك لكل جملة لتوليد ملخصات بتطبيق مقاربة توفيل للمقالات العلمية [توفيل 02] على النصوص القضائية. وهذا البرنامج هو قيد التطوير.

12 الخلاصة.

في الوقت الذي تعترضنا مشكلة كثرة النصوص القانونية والحاجة إلى تقديمها على شكل ملخصات قصيرة فقد أظهر بحثنا قلة الأبحاث في هذا المجال وبأن مسألة معالجة النصوص القضائية مفتوحة. والمقاربات المطروحة تحاول حل جزء من المشكل ولكن نتيجة تقييم الأنظمة ومستوى الملخصات الناتجة ليست في المستوى المرغوب.  وقد طورت العديد من الأنظمة لعدة لغات كالهولندية والفرنسية والإنجليزية ولكن مقاربة قد تكون ناجعة لتحديد المؤشرات البارزة في جمل مهمة وفي لغة ما قد تكون غير نافعة في لغات وأساليب أخرى. وكذلك فيما يتعلق بتنظيم الحكم الذي قد يتغير حسب القانون والتقاليد التشريعية لكل  بلد.

وقدمنا في هذا المقال منهجيتنا لإنتاج ملخص قانوني مطاط ومترابط وهذه المقاربة ترتكز على تحليل يدوي يقابل بين جمل الملخص النموذجي والأحكام بهدف استغلال البنيات الموضوعية للنص. ومتننا يشمل قرارات المحكمة الفيدرالية لكندا بالإنجليزية. ونقترح شكلا جديدا لعرض الملخصات للاستعمال على شكل جذاذات ملخصات تقسم الملخص إلى عدة مقاطع موضوعية. وكل مقطع من هذه الجذاذة مرتبط بموضوع مثل: "معطيات الحكم" و "المقدمة" و"السياق" و"الحيثيات القانونية" و"الخاتمة". ونظامنا التجريبي يستقبل الحكم بالإنجليزية ويعالجه على المراحل التالية وهي "التحليل الأولي" (تقسيم الفقرات والجمل والكلمات وتحليل التركيب والدلالة) و"تقطيع موضوعي" و"تصفية للشواهد" و"انتقاء الوحدات المهمة" و"إنتاج الملخصات".

وسندرس مستقبلا إمكانية ملائمة منهجنا لإنتاج الملخصات القانونية بالفرنسية. وفي المرحلة الأولى من هذا المشروع فقد صففنا يدويا الملخصات النموذجية والوثائق الأصلية لدراسة جدوى المشروع وسندرس جدوى الإنتاج الآلي للملخصات القانونية و في المرحلة الثانية من المشروع سندرس إيجابيات استعمال التصفيف الآلي بهدف بناء متن بهوامش أكبر حجما.

شكر

نغتم الفرصة لنقدم شكرنا إلى مجموعة مختبر المعلومات القانونية في مركز أبحاث القانون العام لكلية القانون في جامعة مونريال لتعاونها. وقد استفادت هذه الأبحاث من بنيات بوابة تحليل النصوص للأبحاث. ففي جامعة مونريال توجد بوابة  لتحليل النصوص أنشئت بتمويل من صندوق الهيئة الكندية للابتكار ووزارة التعليم الكيبيكية. والبحث المقدم هنا مدعوم من مجلس الأبحاث في العلوم الطبيعية والهندسة في كندا.

 

مراجع :

1.        BARZILAY R., ELHADAD M., « Using Lexical Chains for Text Summarization », Proceedings of the ACL/EACL’97 Workshop on Intelligent Scalable Text Summarization, Madrid, July.

2.        CHOI F., « Advances in domain independent linear text segmentation », Proceding of the 1st North American Chapter  of the Association for Computational Linguistics, Seattle, Washington, 2000, p. 26-33.

3.        CUNNIGHAM H., MAYNARD D., BONTCHEVA K., TABLAN V., « GATE : A Framework and Graphical Development Environment for Robust NLP Tools and Application », Proceedings of the 40th Anniversary Meeting of the Association for Computational Linguistics (ACL’02), Philadelphia, July 2002.

4.        DUC, « Document Understanding Conference 2003. NAACL, Text Summarization Workshop », http:// duc.nist.gov, May 31-June 1 2003.

 

5.        EDMUNDSON H.P. , « New Methods in Automatic Extracting », journal of the Association for Computing Machinery, vol. 16, n° 2, 1969, p. 264-285.

6.        FAEZINDAR A., « Développement d’un système de résumé automatique de textes juridiques », TALN-RECITAL’2004, Fes, Maroc, 12-22 avril 2004, p. 39-44.

7.        FARZINDAR A., LAPALME G., « Legal text summarization by exploration of the thematic structures and argumentative roles », Text Summarization Branches Out Workshop held in conjunction with ACL’2004, Barcelona, Spain, 25-26 July 2004, p. 27-34.

8.        GELBART D., SMITH J.C., « Beyond Boolean search, Flexion, a legal text-based intelligent system » The International Conference on Artificial intelligence and Law, New York, U.S.A., 1991.

9.        GROVER C., HACHEY B., KORYCINSKI C., « Summarizing Legal Texts : Sentential Tense and Argumentation Roles », RADEV D., TEUFEL S., Eds., HLT-NAACL 2003 Workshop : Text Summarization (DUCO03), Edmonton, Alberta, Canada, May 31-June 1 2003, p.33-40.

10.    HEARST M.A., « Multi-Paragraph Segmentation of Expository Text », the 32nd Meeting of the Association for Computational Linguistics, Los Cruces, NM, June 1994.

11.    HEPPLE M., « Independence and Commitment : Assumptions for Rapid Training and Execution of Rule-based Part-of-speech Taggers », the 38th Annual Meeting of the Association for Computational Linguistics 5ACL-2000), October 2000, p. 278-285.

12.    JING H., « Using Hidden Markov Modelling to Decompose Human-Written Summaries », Computational Linguistics, vol. 28, n°4,2004.

13.    LUHN H., « The Automatic Creation of Literature Abstracts », IBM Journal of Research and Development, vol. 2, n° 2, 1959, p. 159-165.

14.    MAILHOT L., écrire la décision : guide pratique de rédaction juridique, Editions Yvon Blais, Québec, Canada, 1996.

15.    MANI I., Automatic Text Summarization, John Benjamins Publishing Company, 2001.

16.    MANI I., MAYBURY M., Advances in automatic text summarization, Kluwer Academic Publishers, Boston, USA., 1999.

17.    MARCU D., « the Rhetorical Parsing , Summarization , and Generation of Natural Language Texts », PhD thesis, University of Toronto, 1997.

18.    MARCU D., The Theory and Practice of Discourse Parsing and Summarization, MIT Press, Cambridge, London, 2000.

19.    MINEL J.-L, DESCLES J.-P., CARTIER E., CRISPINO G., BEN HAZEZ S., JACKIEWICZ A., « Résumé automatique par filtrage sémantique d’informations dans des textes », Revue Technique et science Informatique, vol 20, n° 3, 2001.

20.    MINEL J.-L., Filtrage sémantique : du résumé automatique à la fouille de textes, Editions Hermes, Paris, France, 2002.

21.    MOENS M.-F., GEBRUERS R.,UYTTENDALEC C., « SALOMON : Final report », rapport, 1996, Katholieke Universiteit Leuven.

22.    MOENS M.-F., UYTTENDALEC C., DUMORTIER J., « Abstracting of legal cases : the potential of clustering based on the selection of representative objects », Journal of the American Society for Information Science vol. 50, n° 2, 1999, p. 151-161.

23.    MOURAD G., « Présentation de connaissances linguistiques pour le repérage et l’extraction de citations », RECITAL’2000, Lausanne, 16-18 october 2000.

24.    MOURAD G., DESCLES J.-P., » identification et extraction automatique des informations citationnelles dans un texte », Ci-Dit, Colloque international et interdisciplinaire, Bruxelles, 8-11 novembre 2003.

25.    PAICE C.D., « The automatic Generation of Literary Abstracts : An Approach based on Identification of Self-Indicating Phrases », NORMAN O.R., ROBERTSON S. , E., VAN RISBERGEN C. J., WILLIAMS P.W., Eds., Information Retrieval Research, London, Butterworth, 1981.

26.    SAGGION H., « Génération automatique de résumés par analyse sélective », PhD thesis, Université de Montréal, 2001.

27.    SAGGION H., BONTCHEVA K., CUNNIGHAM H., « Robust Generic and Query-based Summarization . » EACL’2003, Budapest, Hungary, April 12-1702003

28.    SAGGION H., LAPALME G., « Generating Indicative-Informative Summaries with SumUM », Computational Linguistics, vol. 28, n° 4, 2002

29.    SMITH J.C., DEEDMAN C., « The Application of Expert System Technology to Case-Based Law », ICAIL, Boston, 1987, p. 84-93.

30.    SMITH J.C., GELBART D., MACCRIMMON K., ATHERTON B., MACCLEAN J., SHINEHOFT M., QUINTANA L., «  Artificial Intelligence and Legal Discourse : The Flexlaw Legal Text Management System », Artificial Intelligence and Law, vol. 3, n° 1-2, 1995, p. 55-95.

31.    TEUFAL S., MOENS M.. « Summarizing Scientific Articles- Experiments with Relevance and rhetorical Status », Computational Linguistics, vol. 28, n° 4, 2002, p. 409-445.

32.    UYTTENDALE C., MOENS M.-F., DUMORTIER J., « SALOMON/ Abstracting of Legal Cases for Effective Access to Court Decisions », Proceeding of JURIX 96 Ninth International Conference on Legal Knowledge Based Systems, Tilburg, University Press, 1996, p. 47-58.

 

(*)منشور بمجلة المعالجة الآلية للغاتTAL  ، مجلد 45 العدد 1/2004، ص ص 39-64.
    




الاسم:*
البريد الالكتروني :
رمز التحقق :*
التعليق:*