The Future of Sound Production: Exploring the Latest Innovations in Audio Technology
תפריט
שלום אורח ::: Mon, 29 Sep 2025, 04:40
logo המגזין הישראלי לטכנולוגיות באודיו ומוסיקה Musical Act Magazine AI

VALL-E - כלי AI יכול לדמות קול של כל אחד לאחר 3 שניות דגימת אודיו ואנחנו בדרך למיותרות

Wednesday, 11-01-23, 00:00, ACT ::: ::: נושא: AI בינה מלאכותית @ 9700

מהקראת טקסט שכתבת בקול של קריין מקצועי ועד האזנה ליקירך שהלכו לעולמם - הבינה המלאכותית זהו.

VALL-E - כלי AI יכול לדמות קול של כל אחד לאחר 3 שניות דגימת אודיו ואנחנו בדרך למיותרות

VALL-E, שנוצר על ידי מיקרוסופט, יכול להקליט ​​שלוש שניות nקול של מישהו.  מכאן, ובהתאם להקשר של הטקסט שמזינים אותו, הוא ממיר מילים כתובות לקול עם אינטונציה ורגש אמיתיים בקולו של מי שנדגם.
הכלי אף יכול לשאת נאום שלם לאחר שאומן באמצעות 60,000 שעות של הקלטות דיבור באנגלית.
 
VALL-E - כלי AI יכול לדמות קול של כל אחד לאחר 3 שניות דגימת אודיו ואנחנו בדרך למיותרות
 
מגוון שימושים אדיר קופץ מיד בדימיוננו, מהקראה של טקסט אותו כתבת, דרך הלבשת הטקסט שלך על כל דמות אחרת בקולך (כמו לדוגמה על קרינית חדשות ידועה), ועד דגימת קול מאנשים או יקירך שכבר אינם איתנו וברצונך לשמוע אותם שוב ושוב.

ראוי לציין, בהקשר לאפשרות האחרונה שהוזכרה, כי ישנם כלים יקרים יותר שחלקם כבר בשלבי גימור, המאפשרים לך גם לשוחח עם יקירך שהלכו לעולמם, כולל צ׳אט ווידאו עימם - כל זאת באמצעות בינה מלאכותית המסוגלת לדגום תמונה ולהפוך אותך לווידאו, בנוסף לדגימת קול המשמשת להקראת הדיבור.
 

בהשוואה למתחרים אחרים של טקסט לדיבור (TTS), מיקרוסופט אומרת ש-VALL-E ״מתעלה באופן משמעותי על מערכת ה-TTS במונחים של טבעיות הדיבור ודמיון הדוברים״. במילים אחרות, VALL-E נשמע הרבה יותר כמו בני אדם אמיתיים מאשר בינה מלאכותית מתחרה שנתקלת במקורות אודיו שהיא לא אומנה עליהם.
ב-GitHub, מיקרוסופט יצרה ספרייה קטנה של דוגמאות שנוצרו באמצעות VALL-E. התוצאות ברובן מרשימות מאוד, עם דגימות רבות שמשחזרות את התחושה והמבטא של קולות הדוברים. חלק מהדוגמאות פחות משכנעות, מה שמציין ש-VALL-E הוא כנראה לא מוצר מוגמר, אבל בסך הכל הפלט משכנע.


האם זה מסוכן

במאמר המציג את VALL-E, מיקרוסופט מסבירה ש-VALL-E ״עלול לשאת סיכונים פוטנציאליים בשימוש לרעה במודל, כגון זיוף זיהוי קולי או התחזות לדובר ספציפי״. כלי כל כך חזק יכול ליצור דיבור מציאותי ומעלה חששות של זיופים משכנעים יותר ויותר, כאלה היכולים לשמש כדי לחקות כל שיח, מאהוב רומנטי ועד אישיות בינלאומית בולטת.
 
כדי להפחית את האיום הזה, מיקרוסופט אומרת ״שאפשר לבנות מודל זיהוי כדי להבחין אם קטע אודיו סונתז על ידי VALL-E.״ החברה אומרת שהיא גם תשתמש בעקרונות הבינה המלאכותית שלה בעת פיתוח עבודתה. עקרונות אלה מכסים תחומים כמו הוגנות, בטיחות, פרטיות ואחריות.
 
מיקרוסופט ביצעה השקעה משמעותית בבינה מלאכותית והיא אף מהתומכים הראשיים ב-OpenAI, החברה מאחורי ChatGPT ו-DALL-E, כלי טקסט לתמונה או אמנות. הכל כל כך מדוברים כיום.
 
מפעל התוכנה השקיע מיליארד דולר (930 מיליון אירו) ב-OpenAI ב-2019, ודוח שפורסם השבוע באתר semafor.com הצביע על כך שהיא שוקלת השקעה נוספת של 10 מיליארד דולר (9.3 מיליארד אירו) בחברה.
 
ניתן כעת כבר לבחון את הדוגמאות באתר הפרויקט - כאן
 
הכותב: ראובן מנשרוף, מייסד ועורך אקט מוסיקלי ומומחה אודיו בעל 45 שנות ניסיון.

גלו מבצעים מדהימים! לחצו כאן כדי לגלות את רבי המכר של Temu ולקבל את חבילת הקופון שלכם בשווי ₪400. קבלו חיסכון ללא תחרות בכל זמן ובכל מקום. אל תחכו - פעלו עכשיו וחסכו בגדול!
  • כלים וירטואליים, פלאגים - VST/i
    RE: VST ARSENAL 2024
    mixtrim: :headphones: העולם הדיגיטלי הקנה לנו מכשירי אפקטים ורוורב פיזיים... לשרשור המלא אחרון
  • אקוסטיקה, סביבת עבודה
    איטום לחדר של תופים במרכז לימודי נגינה
    שאול: אני יש לי מרכז לימודי נגינה ויש כמה חדרים של חוגים אני עכשיו עובר... לשרשור המלא אחרון
  • קידום עצמי
    RE: Boketto - הרכב אינסטרומנטלי חדש
    acidhead: היה הרכב ישראלי אחר עם אותו השם לשרשור המלא אחרון
  • SoundBoard - סאונד מקצועי
    RE: הסרת צלילי תופים מתקליט קיים
    Rock_Artist: בפועל יש יחסית מעט מודלים קיימים שבהם משתמשים כולם. רוב המודלים... לשרשור המלא אחרון
VALL-E - כלי AI יכול לדמות קול של כל אחד לאחר 3 שניות דגימת אודיו ואנחנו בדרך למיותרות
by