הפתרון לקריאת מאמרים ארוכים: טכנולוגיה חדשה תכין תקציר אוטומטי למאמרים בכל שפה

חוקרים באוניברסיטת בן גוריון מציגים שיטה אוטומטית לתמצות טקסטים בכל שפה

פרופ' מרק לסט. תמונה: דני מכליס

הצורך העולה של סטודנטים ועובדים בתחום השירות להיחשף למידע חדש מביא לטכנולוגיות חדישות לסריקה וקיצור מאמרים. חברת Technologies BGN מציגה כלי חדש, אוטומטי לתמצות טקסטים שאינו תלוי שפה.

על פי BGN, רוב השיטות האוטומטיות הקיימות כיום תלויות-שפה והאלגוריתמים שבבסיסן צריכים לעבור אימון מוקדם על כמויות גדולות של טקסט. חברת מסחור הטכנולוגיה של אוניברסיטת בן-גוריון בנגב מציעה שיטה ישימה לתמצות מאמרים, כתבי עת, מסמכים וטקסטים אחרים במסגרת מאגרים עצמם או עבור משתמשי קצה כמו ספריות, מכוני מחקר או מנועי חיפוש כלליים.

השיטה החדשה, שהומצאה על ידי פרופ’ מרק לסט, דר’ מרינה ליטבק ודר’ מנחם פרידמן, במחלקה להנדסת מערכות תוכנה ומידע באוניברסיטת בן-גוריון, מספקת תקצירים של טקסטים בשפות שונות, על סמך אלגוריתם שמדרג את המשפטים במסמך, בעזרת מאפיינים סטטיסטיים על המשפטים. את הדירוג הזה ניתן לבצע למשפטים בכל שפה שהיא, ואז לחלץ משפטים בעלי דירוג גבוה לכדי תקציר. השיטה, שקרויה MUSE (קיצור של מחלץ משפטים רב-לשוני), נבדקה על תשע שפות: אנגלית, עברית, ערבית, פרסית, רוסית, סינית, גרמנית, צרפתית וספרדית ואיכות התמצות שלה, נבחנה עד כה על ארבע שפות – אנגלית, עברית, ערבית ופרסית, והראתה דמיון רב לתקצירים שנעשו על ידי בני אדם.

ניסויים מראים שלאחר אימון ראשוני של האלגוריתמים על מאגר מוער של תקצירי מסמכים, בו כל מסמך מלווה במספר תקצירים מעשה ידי אדם, התוכנה לא חייבת לעבור אימון מחדש על תקצירים ידניים בשפות חדשות, ואותו מודל לדירוג משפטים יכול לשמש מספר שפות שונות.

פרופ’ מרק לסט: “תמצות מסוג זה, שבוחר את המשפטים הרלוונטיים ביותר מתוך הטקסט, על ידי דירוגם, חיוני כדי לייצר במהירות סיכומים של כמויות טקסט גדולות באופן בשפות שונות.  יכולת זו חשובה ביותר למנועי חיפוש, כמו גם עבור משתמשי קצה כמו מכוני מחקר, ספריות והמדיה”.

צפריר לוי, סמנכ”ל בכיר פיתוח עסקי ב-BGN Technologies, הוסיף, “כלי זה יהווה תוספת רבת ערך ליכולת שלנו להפיק תועלת מהכמויות העצומות של טקסט שזמינות באופן מקוון. לאחר שהגשנו בקשת פטנט עבור הטכנולוגיה, אנחנו מחפשים כעת שותפים פוטנציאליים להמשך הפיתוח והמסחור של המצאה מבטיחה זו”.

Be the first to comment

Leave a Reply