מפחיד ומהפכני - ה-Voice Engine משכפל קול אדם מתוך 15 שניות דגימה
Monday, 01-04-24, 14:47, ACT ::: ::: נושא: AI בינה מלאכותית @ 28863
OpenAI חשפה את Voice Engine - מודל AI המשכפל קול מתוך 15 שניות אודיו
יותר ויותר קשה לזהות מה אמיתי או מזויף באינטרנט.
סינתזת קול עברה כברת דרך ארוכה מאז צעצועי Speak & Spell משנת 1978, שפעם הדהימו אנשים עם היכולת המתקדמת שלו לקרוא מילים בקול רם באמצעות קול אלקטרוני. כעת, באמצעות מודלים של בינה מלאכותית בלמידה עמוקה, תוכנה יכולה ליצור לא רק קולות שנשמעים מציאותיים, אלא גם לחקות באופן משכנע קולות קיימים באמצעות דגימות קטנות של אודיו.
15 שניות של קול - זה כל מה שצריך!
ברוח זו, OpenAI הכריזה השבוע על Voice Engine, מודל בינה מלאכותית של טקסט לדיבור ליצירת קולות סינתטיים המבוססים על קטע של 15 שניות של דגימת אודיו. היא סיפקה דגימות שמע של מנוע הקול בפעולה באתר האינטרנט שלה, וזה משכנע בצורה מפחידה!
ככל שהדיפ-פייק מתפשט, OpenAI משכללת את הטכנולוגיה המשמשת לשיבוט קולות - אך החברה מתעקשת שהיא עושה זאת הפעם באחריות, והכלי ישוחרר רק לאחר שיוודאו שלא יהיה לזה שימוש לרעה כמו הונאה. כנ״ל גם הכלי SORA שכתבנו עליו כאן, המפיק סרטים באיכות מטורפת, וגם כאן מחשש להונאות וכו׳.
ככל שהדיפ-פייק מתפשט, OpenAI משכללת את הטכנולוגיה המשמשת לשיבוט קולות - אך החברה מתעקשת שהיא עושה זאת הפעם באחריות, והכלי ישוחרר רק לאחר שיוודאו שלא יהיה לזה שימוש לרעה כמו הונאה. כנ״ל גם הכלי SORA שכתבנו עליו כאן, המפיק סרטים באיכות מטורפת, וגם כאן מחשש להונאות וכו׳.
מה שונה מכל מה שידענו עד כה?
באופן מפתיע, Voice Engine אינו מאומן או מכוונן את נתוני המשתמשים. זה נובע בחלקו מהאופן הארעי שבו המודל – שילוב של תהליך דיפוזיה וטרנספורמציה מייצר דיבור.
"אנחנו לוקחים דגימת שמע קטנה וטקסט ומייצרים דיבור מציאותי שתואם את הדובר המקורי", אומר ג׳ף האריס, חבר בצוות המוצר ב-OpenAI, "השמע שבו נעשה שימוש מושמט לאחר השלמת המשימה."
כפי שהוא מסביר זאת, המודל מנתח בו זמנית את נתוני הדיבור שמהם הוא שואב ואת נתוני הטקסט שנועדו להיקרא בקול רם, ומייצר קול תואם ללא צורך לבנות מודל מותאם אישית לכל דובר.
זו לא טכנולוגיה חדשנית. מספר סטארט-אפים סיפקו מוצרי שיבוט קול במשך שנים, מ-ElevenLabs לאולפני Replica ל-Papercup ל-Deepdub ול-Respeecher. כך גם חברות טכנולוגיה גדולות כמו אמזון, גוגל ומיקרוסופט - האחרונה שבהן היא משקיעה גדולה של OpenAI אגב.
האריס טען כי הגישה של OpenAI מספקת דיבור באיכות גבוהה יותר מכולן.
כמה?!
כבר ברור שזה יתומחר באגרסיביות. למרות ש-OpenAI הסירה את התמחור של Voice Engine מהחומרים השיווקיים שפרסמה בימים האחרונים, במסמכים שנצפו על ידי טכנוקרטים רשום שהשימוש עולה 15 דולר למיליון תווים, או ~162,500 מילים. כלומר - הסכום יתאים ל"אוליבר טוויסט" של דיקנס עם קצת מקום פנוי. (אפשרות איכות "HD" עולה פי שניים, אבל באופן מבלבל, דובר OpenAI אמר שאין הבדל בין קולות HD ושאינם HD. לכו תבינו.)
הלאה: התוצר בעלות כזו מתורגם לכ-18 שעות של אודיו, מה שהופך את המחיר מעט נמוך מ-1 דולר לשעה. זה אכן זול יותר ממה שאחת הספקיות המתחרות הפופולריות יותר, ElevenLabs, גובה; 11 דולר עבור 100,000 תווים בחודש. אבל זה כן בא על חשבון התאמה אישית מסוימת.
Voice Engine אינו מציע כלי שליטה לכוונון הטון, גובה הצליל או קצב הצליל של קול, מה שקיים ברוב כלי סינתזת קול. למעשה, הוא אינו מציע כפתורים או חוגות לכוונון עדין בכלל, אם כי האריס מציין כי כל הבעה בדגימת הקול בת 15 השניות תימשך לאורך הדורות הבאים (לדוגמה, אם תדברו בטון נרגש, הקול הסינתטי שיתקבל יישמע נרגש באופן עקבי). נראה כיצד איכות הקריאה משתווה למודלים אחרים כאשר ניתן להשוות ביניהם ישירות.
למה זה טוב?
כדי להבין טוב יותר את השימושים הפוטנציאליים של טכנולוגיה זו, בסוף השנה שעברה החברה התחילה לבדוק אותה באופן פרטי עם קבוצה קטנה של שותפים מהימנים. התרשמנו מהיישומים שקבוצה זו פיתחה. ה-Voice Engine מאפשר המרת טקסט לדיבור טבעי ורגשי, עם מגוון רחב יותר של קולות דוברים בהשוואה לקולות מוקלטים מראש. להלן מספר דוגמאות לשימושים מוקדמים של הטכנולוגיה:
השאלה היא מתי האנושות תיכנע ותתמסר טוטלית לגברת בינה. התשובה״ קרוב מכפי שחשבתם.
- סיוע בקריאה: עזרה לילדים ולאנשים שאינם יודעים לקרוא באמצעות קריינות טבעית ורגשית המותאמת לקהל יעד רחב יותר. לדוגמה, חברת Age of Learning, העוסקת בטכנולוגיה חינוכית, משתמשת במנוע הקול כדי ליצור קריינות טקסט קיים, וכן תגובות מותאמות בזמן אמת המותאמות לכל תלמיד.
- תרגום תוכן: תרגום סרטונים ופודקאסטים כך שיוצרים ועסקים יוכלו להגיע לקהל רחב יותר ברחבי העולם. לדוגמה, חברת HeyGen משתמשת במנוע הקול כדי לתרגם את הקול של דובר בשפות שונות, תוך שמירה על המבטא המקורי. מעולה גם לדיבוב סרטים בקול השחקן המקורי.
- הגעה לקהילות גלובליות: שיפור מתן שירותים חיוניים באזורים מרוחקים. לדוגמה, הארגון Dimagi משתמש במנוע הקול כדי לספק משוב אינטראקטיבי בשפת האם של עובדי בריאות הקהילה, כולל סווהילי או שפות לא רשמיות כמו שנג (Sheng).
- תמיכה באנשים שאינם יכולים לדבר: סיוע לאנשים עם הפרעות דיבור ולימוד. לדוגמה, אפליקציית התקשורת Livox משתמשת במנוע הקול כדי לספק קולות ייחודיים ולא רבוטיים בשפות רבות עבור אנשים שאינם יכולים לדבר.
- שיקום קול: סיוע לחולים שאיבדו את היכולת לדבר עקב מחלות ניווניות או בפתאומיות. לדוגמה, מכון פרינס לחקר מדעי המוח בבית החולים Lifespan, משתמש במנוע הקול כדי לשחזר את קולם של מטופלים שאיבדו את יכולת הדיבור.
השאלה היא מתי האנושות תיכנע ותתמסר טוטלית לגברת בינה. התשובה״ קרוב מכפי שחשבתם.
הכותב: ראובן מנשרוף, מייסד ועורך אקט מוסיקלי ומומחה אודיו בעל 45 שנות ניסיון.