AV-HuBERT: כלי AI להבנת דיבור המנתח תנועות שפתיים מאת META

Friday, 20-01-23, 11:47, ACT ::: ::: נושא: AI בינה מלאכותית @ 8243

המערכת הראשונה המנתחת בו-זמנית דיבור ותנועות שפתיים באמצעות בינה מלאכותית

AV-HuBERT: כלי AI להבנת דיבור המנתח תנועות שפתיים מאת META

התמונה באדיבות META

״יחידת אודיו-ויזואלית נסתרת״ BERT (AV-Hubert) היא מערכת מתקדמת להבנת דיבור הלומדתבאמצעות ראייה ושמיעה של אנשים מדברים, וזאת כדי לפתח טכנולוגיות זיהוי דיבור מגוונות וחזקות יותר.

זוהי המערכת הראשונה המנתחת בו-זמנית דיבור ותנועות שפתיים מנתונים ללא מתוייגים או וידאו לא מתומלל. AV-Hubert מדויק ב-75% יותר ממערכות זיהוי הדיבור האודיו-ויזואלי המובילות כיום, כאשר משתמשים באותו מספר של תעתיקים (המשתמשים גם בצליל וגם בתמונות של הדובר כדי להבין מה האדם אומר).

יש לציין, טכניקה זו פותרת מחסום משמעותי בהוראת AI לבצע משימות בעלות ערך רב: AV-Hubert מנצח את מערכת זיהוי הדיבור האודיו-ויזואלית הטובה ביותר שהייתה קיימת עד כה, ומכיוון שקשה לאסוף נפחים משמעותיים של נתונים מתויגים עבור רוב השפות, הטכניקה בפיקוח עצמי של AV-Hubert תיצור מערכות זיהוי דיבור אוטומטי (ASR) עמידות בפני רעשים ביותר שפות ויישומים.

מטרה

AV-Hubert יקרב את עזרי הקול להבנת הדיבור ברמת האדם זאת על ידי שילוב נתונים הן של תנועת שפתיים גלויה וגם על מילים מדוברות. טכניקה זו עשויה יום אחד לאפשר לכלים מובני משקפים, סמארטפון ומציאות רבודה (AR) להבין את מה שאנו אומרים ללא קשר לרצפת הרעש בסביבה, בזמן הופעה או סתם שיחה כאשר מטוס חולף מעל.

מכיוון שהמודלים של זיהוי הדיבור עד היום קיבלו רק אודיו כקלט, עליהם להעריך אם אדם אחד או יותר מדברים או אם צליל הוא פשוט רעשי רקע. מצד שני, AV-Hubert לומד באותו אופן שבו אנשים עושים - מולטי-מודל - על ידי קבלה ורכישת שפה באמצעות שילוב של אותות שמיעתיים ותנועת שפתיים - ממש כפי שתינוק למד את שפת הוריו. המודל הוכשר באמצעות הקלטות וידאו ממערכי הנתונים LRS3 ו- VoxCeleb הזמינים לציבור.

אפשר לדמיין את מגוון השימושים לכלי כזה, ממערכות אבטחה ובטחון ציבורי, ריגול, עזרה למוגבלים, ניתוח מגמות המוני ועוד.

רוצים להתנסות?! בקשה: בקישור כאן ניתן להעלות וידאו של מישהו מדבר (נטול אודיו), והמערכת תזהה מה הדובר אומר. הנה דרך להבין מה אמרו עליכם מאחורי הגב...

הפיתוח של המערכת בידי META

הכותב: ראובן מנשרוף, מייסד ועורך אקט מוסיקלי ומומחה אודיו בעל 45 שנות ניסיון.

למידע נוסף/רכישה: AI that understands speech by looking קישור ישיר לכתבה זו

גלו מבצעים מדהימים! לחצו כאן כדי לגלות את רבי המכר של Temu ולקבל את חבילת הקופון שלכם בשווי ₪400. קבלו חיסכון ללא תחרות בכל זמן ובכל מקום. אל תחכו - פעלו עכשיו וחסכו בגדול!

הבזאר - הלוח של אקט מוסיקלי

הלוח מסווג לפי קטגוריות ותת מחלקות, ומאפשר לכל אחד להציג מודעות בהתאם למטרה: דרוש, מציע, למכירה וכדומה

קטגוריות :::: מודעות אחרונות ::: + פרסם מודעה

שיגור מודעה חדשה

שווה קריאה

מהפורומים

כלים וירטואליים, פלאגים - VST/i

RE: VST ARSENAL 2024
mixtrim: :headphones: העולם הדיגיטלי הקנה לנו מכשירי אפקטים ורוורב פיזיים... …לשרשור המלא אחרון
אקוסטיקה, סביבת עבודה

איטום לחדר של תופים במרכז לימודי נגינה
שאול: אני יש לי מרכז לימודי נגינה ויש כמה חדרים של חוגים אני עכשיו עובר... …לשרשור המלא אחרון
קידום עצמי

RE: Boketto - הרכב אינסטרומנטלי חדש
acidhead: היה הרכב ישראלי אחר עם אותו השם …לשרשור המלא אחרון
SoundBoard - סאונד מקצועי

RE: הסרת צלילי תופים מתקליט קיים
Rock_Artist: בפועל יש יחסית מעט מודלים קיימים שבהם משתמשים כולם. רוב המודלים... …לשרשור המלא אחרון