گوگل با هوش مصنوعی جمینای، مجموعه اصلی مدلها، برنامهها و سرویسهای هوش مصنوعی تولیدی خود، تلاش میکند تأثیرات بزرگی ایجاد کند. اما جمینای چیست؟ چگونه میتوانید از آن استفاده کنید؟ و چگونه در مقایسه با ابزارهای هوش مصنوعی تولیدی دیگر مانند ChatGPT شرکت OpenAI، Llama متا و Copilot مایکروسافت قرار میگیرد؟
برای سهولت در پیگیری جدیدترین تحولات مربوط به جمینای، این راهنمای مفید را تهیه کردهایم و با انتشار مدلها، ویژگیها و اخبار جدید مربوط به برنامههای گوگل برای جمینای، آن را بهروزرسانی خواهیم کرد.
جمینای چیست؟
جمینای خانوادهای از مدلهای نسل جدید هوش مصنوعی تولیدی گوگل است که مدتها منتظر آن بودهایم. این مدلها توسط آزمایشگاههای تحقیقاتی هوش مصنوعی گوگل، یعنی DeepMind و Google Research توسعه یافتهاند و در چهار نسخه عرضه میشوند:
- جمینای Ultra
- جمینای Pro
- جمینای Flash، نسخهای سریعتر و “تقطیر شده” از Pro
- جمینای Nano، دو مدل کوچک به نامهای Nano-1 و Nano-2 که Nano-2 کمی قدرتمندتر است و قابلیت اجرا بهصورت آفلاین دارد.
همه مدلهای جمینای به صورت چندوجهی و چندرسانهای آموزش دیدهاند، به این معنی که میتوانند با دادههایی غیر از متن کار کنند و آنها را تحلیل کنند. گوگل اعلام کرده که این مدلها روی مجموعهای از دادههای صوتی، تصاویر و ویدیوها، پایگاههای کد و متن در زبانهای مختلف آموزش دیدهاند و از دادههای عمومی، اختصاصی و دارای مجوز استفاده کردهاند.
این ویژگی جمینای را از مدلهایی مانند LaMDA خود گوگل متمایز میکند که فقط بر اساس دادههای متنی آموزش دیده است. LaMDA توانایی درک یا تولید چیزی جز متن (مانند مقالهها، ایمیلها و غیره) را ندارد، اما این مورد در مدلهای جمینای صدق نمیکند.
نکتهای که باید به آن اشاره کنیم، این است که اخلاقیات و قانونی بودن آموزش مدلها با استفاده از دادههای عمومی، گاهی بدون آگاهی یا رضایت صاحبان دادهها، همچنان در هالهای از ابهام قرار دارد. گوگل سیاستی در مورد حمایت قانونی برای برخی از مشتریان سرویسهای ابری خود دارد، اما این سیاست شامل استثناهایی میشود. در نتیجه، اگر قصد استفاده تجاری از جمینای را دارید، باید با دقت بیشتری عمل کنید.
تفاوت بین اپلیکیشنهای جمینای و مدلهای جمینای چیست؟
جمینای با اپلیکیشنهای وب و موبایل جمینای (که قبلاً به نام Bard شناخته میشد) کاملاً متفاوت است.
اپلیکیشنهای جمینای به عنوان کلاینتهایی عمل میکنند که به مدلهای مختلف جمینای متصل شده و یک رابط شبیه به چتبات را روی آنها قرار میدهند. این اپلیکیشنها به عنوان واسطهایی برای هوش مصنوعی تولیدی گوگل عمل میکنند و شبیه به ChatGPT و خانواده اپلیکیشنهای Claude شرکت Anthropic هستند.
نسخه وب جمینای در اینجا قرار دارد. در اندروید، اپلیکیشن جمینای جایگزین اپلیکیشن دستیار گوگل شده است و در iOS، اپلیکیشنهای Google و Google Search به عنوان کلاینتهای جمینای در آن پلتفرم عمل میکنند.
در اندروید، همچنین اخیراً امکان آوردن پنل جمینای روی هر اپلیکیشنی برای پرسش درباره محتوای نمایش داده شده (مثلاً یک ویدئوی YouTube) فراهم شده است. کافی است دکمه پاور گوشی هوشمند پشتیبانیشده را نگه دارید یا بگویید “Hey Google” تا این پنل ظاهر شود.
اپلیکیشنهای جمینای میتوانند تصاویر، دستورات صوتی و متنی را دریافت کنند — از جمله فایلهایی مانند PDF و به زودی ویدئوها که یا آپلود شده یا از Google Drive وارد شدهاند — و تصاویر تولید کنند. همانطور که انتظار دارید، مکالمات شما با اپلیکیشنهای جمینای روی موبایل به نسخه وب جمینای منتقل میشوند و برعکس، به شرطی که در هر دو دستگاه با یک حساب Google وارد شده باشید.
جمینای پیشرفته
هوش مصنوعی گوگل فقط با استفاده از اپلیکیشنهای جمینای دردسترس نیستند. به تدریج، ویژگیهای جمینای به برنامهها و سرویسهای اصلی گوگل مانند Gmail و Google Docs راه پیدا میکنند.
برای استفاده از بیشتر این ویژگیها، نیاز به طرح Google One AI Premium دارید. این طرح که به طور فنی بخشی از Google One است، هزینهای معادل ۲۰ دلار دارد و به شما امکان دسترسی به جمینای در برنامههای Google Workspace مانند Docs، Slides، Sheets و Meet را میدهد. این طرح همچنین امکان استفاده از ویژگی “جمینای پیشرفته” را فراهم میکند که مدلهای پیشرفتهتر جمینای را به اپلیکیشنهای جمینای میآورد.
کاربران جمینای پیشرفته از مزایای بیشتری برخوردار میشوند، مانند دسترسی به ویژگیهای جدید در اولویت، قابلیت اجرای کد Python به صورت مستقیم در جمینای و پنجره محتوای بزرگتر. جمینای پیشرفته میتواند محتوای حدود ۷۵۰,۰۰۰ کلمه را در یک مکالمه (یا ۱۵۰۰ صفحه سند) به خاطر بسپارد و درک کند، که در مقایسه با ۲۴,۰۰۰ کلمه (یا ۴۸ صفحه) که نسخه معمولی جمینای میتواند مدیریت کند، قابل توجه است.
یکی دیگر از ویژگیهای منحصر به فرد جمینای پیشرفته، برنامهریزی سفر در Google Search است که از ایمیلهای موجود در جیمیل، ترجیحات غذایی، اطلاعات جاذبههای محلی و فاصله بین این جاذبهها استفاده میکند و برنامهای سفارشی ایجاد میکند که به صورت خودکار با هرگونه تغییر بهروزرسانی میشود.
جمینای در سرویسهای گوگل همچنین از طریق دو طرح به مشتریان شرکتی ارائه میشود: جمینای بیزینس (به عنوان افزونهای برای Google Workspace) و جمینای اینترپرایز. هزینه طرح جمینای بیزینس از ۲۰ دلار برای هر کاربر در ماه شروع میشود و جمینای اینترپرایز که شامل امکاناتی مانند یادداشتبرداری از جلسات و ترجمه زیرنویسها میشود، از ۳۰ دلار به بالا برای هر کاربر در ماه قیمت دارد. (هر دو طرح به یک تعهد سالانه نیاز دارند.)
جمینای در Gmail، Docs، Chrome، ابزارهای توسعه و موارد دیگر
در Gmail، جمینای در یک پنل جانبی قرار دارد که میتواند ایمیلها را بنویسد و موضوعات پیامها را خلاصه کند. همین پنل در Docs نیز وجود دارد که به شما در نوشتن، اصلاح محتوا و ایدهپردازی کمک میکند. جمینای در Slides اسلایدها و تصاویر سفارشی ایجاد میکند و در Google Sheets دادهها را پیگیری و سازماندهی میکند و جدولها و فرمولها را ایجاد میکند.
جمینای به Google Drive نیز راه پیدا کرده است، جایی که میتواند فایلها را خلاصه کرده و اطلاعات پروژهها را به سرعت ارائه دهد. در Meet، جمینای زیرنویسها را به زبانهای دیگر ترجمه میکند.
جمینای اخیراً به مرورگر Chrome گوگل نیز به عنوان ابزاری برای نوشتن هوشمند وارد شده است. میتوانید از آن برای نوشتن محتوای جدید یا بازنویسی متن موجود استفاده کنید؛ گوگل اعلام کرده که این ابزار بر اساس محتوای وبسایتی که در آن حضور دارید، پیشنهاداتی ارائه خواهد داد.
در دیگر سرویسهای گوگل مانند محصولات پایگاهداده، ابزارهای امنیتی ابری و پلتفرمهای توسعه اپلیکیشن (از جمله Firebase و Project IDX)، نشانههایی از جمینای مشاهده میشود. همچنین در برنامههایی مانند Google Photos (که جمینای به جستجوهای متنی طبیعی پاسخ میدهد)، YouTube (که ایدههای ویدئویی ارائه میدهد) و دستیار یادداشتبرداری NotebookLM استفاده میشود.
Code Assist (که قبلاً به عنوان Duet AI for Developers شناخته میشد)، مجموعه ابزارهای کمکی گوگل برای تکمیل و تولید کد، از جمینای برای انجام محاسبات سنگین استفاده میکند. همچنین محصولات امنیتی گوگل که توسط جمینای پشتیبانی میشوند، مانند Threat Intelligence جمینای، که میتواند قسمتهای بزرگی از کدهای مخرب احتمالی را تحلیل کند و به کاربران اجازه جستجوهای متنی طبیعی برای تهدیدهای جاری یا نشانههای مشکل را بدهد، از این مدل بهره میبرند.
افزونهها و Gems در جمینای
در کنفرانس Google I/O 2024، اعلام شد که کاربران جمینای پیشرفته میتوانند Gems، چتباتهای سفارشی که توسط مدلهای جمینای پشتیبانی میشوند، ایجاد کنند. Gems از توضیحات زبان طبیعی تولید میشوند — به عنوان مثال، “تو مربی دویدن من هستی. برای من یک برنامه دویدن روزانه طراحی کن” — و میتوانند با دیگران به اشتراک گذاشته شوند یا خصوصی نگه داشته شوند.
Gems در دسکتاپ و موبایل در ۱۵۰ کشور و اکثر زبانها در دسترس هستند. در نهایت، این چتباتها قادر خواهند بود به مجموعهای گسترشیافته از یکپارچگی با سرویسهای گوگل، از جمله Google Calendar، Tasks، Keep، و YouTube Music، دسترسی پیدا کنند تا وظایف سفارشی را تکمیل کنند.
در مورد یکپارچگیها، اپلیکیشنهای جمینای روی وب و موبایل میتوانند از طریق آنچه گوگل “افزونههای جمینای” مینامد، به سرویسهای گوگل متصل شوند. در حال حاضر، جمینای با Google Drive، Gmail، و YouTube ادغام شده است تا به پرسشهایی مانند “میتوانید سه ایمیل آخر من را خلاصه کنید؟” پاسخ دهد. در اواخر امسال، جمینای قادر خواهد بود تا اقدامات بیشتری با Google Calendar، Keep، Tasks، YouTube Music و اپلیکیشنهای اختصاصی اندروید برای کنترل ویژگیهای دستگاه مانند تایمرها و زنگها، کنترلهای رسانهای، چراغ قوه، حجم صدا، Wi-Fi، بلوتوث و غیره انجام دهد.
چتهای صوتی عمیق جمینای Live
یک تجربه جدید به نام Gemini Live، که منحصر به کاربران جمینای پیشرفته است، به کاربران این امکان را میدهد تا چتهای صوتی عمیقی با جمینای داشته باشند. این ویژگی در اپلیکیشنهای جمینای روی موبایل و Pixel Buds Pro 2 در دسترس است، جایی که حتی در زمانی که گوشی قفل است، قابل دسترسی است.
با فعال کردن Gemini Live، شما میتوانید هنگام صحبت کردن جمینای آن را متوقف کرده و سوالی شفافسازی بپرسید و جمینای به الگوهای گفتاری شما در زمان واقعی پاسخ خواهد داد. همچنین، اواخر امسال، جمینای قادر خواهد بود تا محیط اطراف شما را از طریق عکسها یا ویدئوهای گرفته شده توسط دوربینهای گوشی هوشمند شما مشاهده کرده و به آنها پاسخ دهد.
Gemini Live همچنین به عنوان یک مربی مجازی عمل میکند و به شما کمک میکند برای رویدادها تمرین کنید، ایدهپردازی کنید و غیره. برای مثال، Live میتواند به شما پیشنهاد دهد که چه مهارتهایی را در یک مصاحبه شغلی یا کارآموزی آینده برجسته کنید و میتواند مشاورههایی درباره سخنرانی عمومی ارائه دهد.
شما میتوانید نقد و بررسی ما درباره Gemini Live را اینجا بخوانید. هشدار اسپویلر: ما فکر میکنیم این ویژگی هنوز راه زیادی دارد تا به یک ابزار فوقالعاده مفید تبدیل شود — البته هنوز در مراحل ابتدایی است.
تولید تصویر با مدل Imagen 3
کاربران جمینای میتوانند آثار هنری و تصاویر را با استفاده از مدل Imagen 3 داخلی گوگل ایجاد کنند.
گوگل ادعا میکند که Imagen 3 نسبت به نسخه قبلی خود، Imagen 2، متون دستوری را که به تصاویر ترجمه میکند، با دقت بیشتری درک میکند و تولیدات آن خلاقانهتر و جزئیات بیشتری دارد. همچنین، این مدل تعداد کمتری از آثار و خطاهای بصری تولید میکند (حداقل به گفته گوگل) و بهترین مدل Imagen برای رندر کردن متن است. در ماه فوریه، گوگل مجبور شد قابلیت جمینای در تولید تصاویر افراد را متوقف کند، چرا که کاربران از نواقص تاریخی در تصاویر شکایت کردند. اما در ماه آگوست، این شرکت مجدداً امکان تولید تصاویر افراد را برای برخی از کاربران، به ویژه کاربران انگلیسیزبان که به یکی از طرحهای پولی جمینای (مانند جمینای پیشرفته) ثبت نام کرده بودند، به عنوان بخشی از یک برنامه آزمایشی، بازگرداند.
جمینای برای نوجوانان
در ماه ژوئن، گوگل یک تجربه جمینای متمرکز بر نوجوانان را معرفی کرد که به دانشآموزان اجازه میداد از طریق حسابهای Google Workspace for Education مدارس خود ثبت نام کنند.
نسخه جمینای نوجوانان دارای “سیاستها و محافظتهای اضافی” است که شامل یک فرآیند آغازین سفارشی و یک “راهنمای سواد هوش مصنوعی” میشود تا به گفته گوگل، به نوجوانان کمک کند از هوش مصنوعی به طور مسئولانه استفاده کنند. در غیر این صورت، این تجربه تقریباً مشابه تجربه استاندارد جمینای است، تا حدی که ویژگی “بررسی دوگانه” نیز وجود دارد که به بررسی وب میپردازد تا اطمینان حاصل شود که پاسخهای جمینای دقیق هستند.
جمینای در دستگاههای هوشمند خانگی
تعداد فزایندهای از دستگاههای ساخت گوگل برای بهبود عملکرد خود از جمینای بهره میبرند، از جمله Google TV Streamer، Pixel 9 و ۹ Pro، و جدیدترین Nest Learning Thermostat.
در Google TV Streamer، جمینای از ترجیحات شما برای پیشنهاد محتوا از میان اشتراکهایتان استفاده میکند و بررسیها و حتی فصلهای کامل سریالهای تلویزیونی را خلاصه میکند. در جدیدترین ترموستات Nest (و همچنین بلندگوها، دوربینها و نمایشگرهای هوشمند Nest)، جمینای به زودی تواناییهای تحلیلی و مکالمهای دستیار گوگل را تقویت خواهد کرد.
مشترکان طرح Nest Aware گوگل در اواخر امسال پیشنمایشی از تجربههای جدید جمینای خواهند داشت، مانند توضیحات مبتنی بر هوش مصنوعی برای فیلمهای دوربین Nest، جستجوی ویدیویی به زبان طبیعی، و اتوماسیونهای توصیهشده. دوربینهای Nest قادر خواهند بود تا آنچه که در ویدیوهای زنده در حال رخ دادن است را درک کنند (مثلاً وقتی سگی در حال کندن زمین در باغ است)، در حالی که اپلیکیشن همراه Google Home ویدیوها را نمایش داده و اتوماسیون دستگاهها را براساس توضیحات ایجاد میکند (برای مثال، “آیا بچهها دوچرخههایشان را در مسیر ورودی رها کردهاند؟” یا “آیا ترموستات Nest من باید هر سهشنبه وقتی از سر کار به خانه میآیم، گرمایش را روشن کند؟”).
همچنین در اواخر امسال، دستیار گوگل در دستگاههای هوشمند برند Nest و دیگر دستگاههای هوشمند خانگی چندین ارتقاء دریافت خواهد کرد تا مکالمات طبیعیتر شوند. صداهای بهبودیافته در راه هستند، به علاوه امکان پرسیدن سوالات پیگیری و رفت و برگشت راحتتر در مکالمات نیز اضافه خواهد شد.
چه کارهایی میتوان با مدلهای Gemini انجام داد؟
مدلهای Gemini چندرسانهای هستند و میتوانند طیف وسیعی از وظایف چندرسانهای را انجام دهند، از جمله تبدیل گفتار به متن، توضیح تصاویر و ویدیوها در زمان واقعی. بسیاری از این قابلیتها به مرحله محصول رسیدهاند (همانطور که در بخش قبلی اشاره شد) و گوگل وعدههای بیشتری برای آیندهای نزدیک دارد.
البته، اعتماد به قولهای شرکت کمی دشوار است. گوگل در ارائه اولیه Bard عملکرد ضعیفی داشت. اخیراً نیز با ویدیویی که به قابلیتهای Gemini اشاره داشت و بیشتر جنبه آرزویی داشت تا واقعی، حاشیههایی ایجاد کرد.
همچنین، گوگل هیچ راهحلی برای برخی از مشکلات اصلی فناوریهای هوش مصنوعی تولیدی امروز ارائه نمیدهد، مانند تعصبات ذاتی و تمایل به ساختن چیزها (یعنی توهم). رقبای آن نیز به همین ترتیب، اما باید به این نکته توجه کرد که هنگام استفاده یا پرداخت برای Gemini این موضوع را مدنظر قرار دهید.
با فرض این که گوگل در ادعاهای اخیر خود صادق است، در اینجا به قابلیتهای مختلف مدلهای هوش مصنوعی گوگل جمینای اکنون و آنچه که قادر به انجام آن خواهند بود، اشاره میشود:
چه کارهایی میتوان با Gemini Ultra انجام داد
گوگل میگوید که Gemini Ultra – به لطف چندرسانهای بودنش – میتواند در انجام کارهایی مانند کمک به تکالیف فیزیک، حل مسائل گام به گام در یک برگه، و شناسایی اشتباهات احتمالی در پاسخهای پر شده استفاده شود.
Ultra همچنین میتواند برای شناسایی مقالات علمی مرتبط با یک مشکل، به گفته گوگل، استفاده شود. این مدل میتواند اطلاعات را از چندین مقاله استخراج کرده و برای مثال، یک نمودار را از یکی بهروزرسانی کند و فرمولهای لازم برای بازسازی نمودار با دادههای بهروزتر را تولید کند.
Gemini Ultra به طور تکنیکی از تولید تصویر پشتیبانی میکند. اما این قابلیت هنوز به نسخه محصولی مدل وارد نشده است – شاید به این دلیل که مکانیزم آن پیچیدهتر از نحوه تولید تصاویر در برنامههایی مانند ChatGPT است. به جای ارسال درخواستها به یک تولیدکننده تصویر (مانند DALL-E 3 در مورد ChatGPT)، هوش مصنوعی گوگل جمینای تصاویر را “به طور بومی” تولید میکند، بدون مرحله میانجی.
Ultra به عنوان یک API از طریق Vertex AI، پلتفرم توسعه هوش مصنوعی کاملاً مدیریتشده گوگل، و AI Studio، ابزار تحت وب گوگل برای توسعهدهندگان برنامهها و پلتفرمها، در دسترس است.
قابلیتهای Gemini Pro
گوگل میگوید که Gemini Pro بهبود یافتهای نسبت به LaMDA در تواناییهای استدلال، برنامهریزی و درک دارد. نسخه جدید، Gemini 1.5 Pro – که اپلیکیشنهای Gemini برای مشترکین Gemini Advanced را تأمین میکند – در برخی از زمینهها حتی عملکرد بهتری نسبت به Ultra دارد.
Gemini 1.5 Pro در مقایسه با نسخه قبلی خود، Gemini 1.0 Pro، در چندین زمینه بهبود یافته است، شاید به وضوح در مقدار دادهای که میتواند پردازش کند. Gemini 1.5 Pro میتواند تا ۱.۴ میلیون کلمه، دو ساعت ویدیو، یا ۲۲ ساعت صوت را دریافت کند و میتواند در مورد آن دادهها استدلال کند یا به سوالات پاسخ دهد (به نسبت).
Gemini 1.5 Pro از ماه ژوئن به طور عمومی در Vertex AI و AI Studio در دسترس قرار گرفت، همراه با ویژگیای به نام اجرای کد، که به هدف کاهش اشکالات در کدی که مدل تولید میکند، با اصلاح تدریجی کد در چندین مرحله عمل میکند. (اجرای کد همچنین از Gemini Flash پشتیبانی میکند.)
در Vertex AI، توسعهدهندگان میتوانند Gemini Pro را به زمینهها و موارد استفاده خاص سفارشی کنند از طریق فرآیند تنظیم یا “زمینهسازی”. برای مثال، Pro (همراه با دیگر مدلهای Gemini) میتواند دستور داده شود تا از دادههای تأمینکنندگان ثالث مانند Moody’s، Thomson Reuters، ZoomInfo و MSCI، یا از مجموعههای داده شرکتی یا جستجوی گوگل به جای بانک اطلاعاتی گسترده خود اطلاعات جمعآوری کند. Gemini Pro همچنین میتواند به APIهای خارجی ثالث متصل شود تا اقداماتی خاص را انجام دهد، مانند اتوماسیون یک جریان کاری در پشت صحنه.
AI Studio الگوهایی برای ایجاد درخواستهای گفتاری ساختاریافته با Pro ارائه میدهد. توسعهدهندگان میتوانند دامنه خلاقیت مدل را کنترل کنند و مثالهایی برای ارائه دستورالعملهای لحن و سبک فراهم کنند – و همچنین تنظیمات ایمنی Pro را تنظیم کنند.
Vertex AI Agent Builder به مردم اجازه میدهد تا “نمایندگانی” که توسط Gemini قدرت گرفتهاند، درون Vertex AI بسازند. برای مثال، یک شرکت میتواند نمایندهای ایجاد کند که کمپینهای بازاریابی قبلی را تحلیل کند تا سبک برند را درک کند و سپس آن دانش را برای کمک به تولید ایدههای جدید متناسب با سبک به کار ببرد.
Gemini Flash برای کارهای کمتر demanding
برای کاربردهای کمتر demanding، Gemini Flash وجود دارد. جدیدترین نسخه آن ۱.۵ Flash است؛ کاربران اپلیکیشن Gemini که مشترک Gemini Advanced نیستند به این نسخه دسترسی دارند.
یک انشعاب از Gemini Pro که کوچک و کارآمد است، برای بارهای کاری تولیدی با فرکانس بالا و باریک طراحی شده است، Flash نیز چندرسانهای مانند Gemini Pro است، به این معنی که میتواند صوت، ویدیو، تصاویر و متن را تحلیل کند (اما تنها میتواند متن تولید کند). گوگل میگوید که Flash بهویژه برای وظایفی مانند خلاصهسازی و برنامههای چت، همچنین توضیح تصاویر و ویدیوها و استخراج دادهها از اسناد و جداول طولانی مناسب است.
توسعهدهندگان استفادهکننده از Flash و Pro میتوانند به صورت اختیاری از ذخیرهسازی context استفاده کنند، که به آنها اجازه میدهد مقادیر زیادی از اطلاعات (برای مثال، یک پایگاه دانش یا پایگاه دادهای از مقالات تحقیقاتی) را در یک کش ذخیره کنند که مدلهای Gemini میتوانند به سرعت و به نسبت ارزان به آن دسترسی پیدا کنند. ذخیرهسازی context هزینه اضافی بر روی هزینههای دیگر استفاده از مدلهای هوش مصنوعی گوگل جمینای دارد.
Gemini Nano بر روی گوشی شما قابل اجراست
Gemini Nano نسخهای بسیار کوچکتر از مدلهای Gemini Pro و Ultra است و به اندازه کافی کارآمد است که مستقیماً بر روی (برخی از) دستگاهها اجرا شود به جای ارسال وظیفه به یک سرور در جایی دیگر. تا کنون، Nano چندین ویژگی را در Pixel 8 Pro، Pixel 8، Pixel 9 Pro، Pixel 9 و Samsung Galaxy S24 تأمین کرده است، از جمله خلاصهسازی در Recorder و پاسخ هوشمند در Gboard.
اپلیکیشن Recorder، که به کاربران اجازه میدهد با فشار دادن یک دکمه صدا را ضبط و تبدیل به متن کند، شامل خلاصهای از مکالمات ضبط شده، مصاحبهها، ارائهها و دیگر تکههای صوتی است. کاربران حتی اگر سیگنال یا اتصال Wi-Fi نداشته باشند، خلاصهها را دریافت میکنند – و به احترام به حریم خصوصی، هیچ دادهای در این فرآیند از گوشی آنها خارج نمیشود.
Nano همچنین در Gboard، جایگزین صفحهکلید گوگل، موجود است. در آنجا، این مدل ویژگیای به نام پاسخ هوشمند را تأمین میکند که به کمک به پیشنهاد گفتار بعدی شما هنگام مکالمه در برنامههای پیامرسان مانند WhatsApp میپردازد.
در اپلیکیشن Google Messages بر روی دستگاههای پشتیبانیشده، Nano Magic Compose را هدایت میکند، که میتواند پیامها را به سبکهای “هیجانزده”، “رسمی” و “شاعری” بنویسد.
گوگل میگوید که نسخه آینده Android از Nano برای هشدار دادن به کاربران در مورد کلاهبرداریهای احتمالی در طول تماسها استفاده خواهد کرد. اپلیکیشن جدید آب و هوا در تلفنهای Pixel از Gemini Nano برای تولید گزارشهای آب و هوای شخصیسازیشده استفاده میکند. و TalkBack، سرویس دسترسی گوگل، از Nano برای ایجاد توصیفهای صوتی از اشیاء برای کاربران کمبینایی و نابینا استفاده میکند.
هزینه مدلهای Gemini چقدر است؟
مدلهای Gemini 1.0 Pro (نسخه اول Gemini Pro)، ۱.۵ Pro، و Flash از طریق API Gemini گوگل برای ساخت برنامهها و خدمات در دسترس هستند — که همگی با گزینههای رایگان ارائه میشوند. اما گزینههای رایگان محدودیتهایی در استفاده دارند و برخی ویژگیها مانند ذخیرهسازی context و گروهبندی را شامل نمیشوند.
مدلهای هوش مصنوعی گوگل جمینای به طور کلی به صورت پرداخت به ازای استفاده هستند. در اینجا قیمتهای پایه — بدون احتساب افزودنیها مانند ذخیرهسازی context — از سپتامبر ۲۰۲۴ آمده است:
- Gemini 1.0 Pro: ۵۰ سنت به ازای هر ۱ میلیون توکن ورودی، ۱.۵۰ دلار به ازای هر ۱ میلیون توکن خروجی
- Gemini 1.5 Pro: ۳.۵۰ دلار به ازای هر ۱ میلیون توکن ورودی (برای درخواستهایی تا ۱۲۸ هزار توکن) یا ۷ دلار به ازای هر ۱ میلیون توکن ورودی (برای درخواستهای طولانیتر از ۱۲۸ هزار توکن)؛ ۱۰.۵۰ دلار به ازای هر ۱ میلیون توکن خروجی (برای درخواستهایی تا ۱۲۸ هزار توکن) یا ۲۱ دلار به ازای هر ۱ میلیون توکن خروجی (برای درخواستهای طولانیتر از ۱۲۸ هزار توکن)
- Gemini 1.5 Flash: ۷.۵ سنت به ازای هر ۱ میلیون توکن ورودی (برای درخواستهایی تا ۱۲۸ هزار توکن)، ۱۵ سنت به ازای هر ۱ میلیون توکن ورودی (برای درخواستهای طولانیتر از ۱۲۸ هزار توکن)، ۳۰ سنت به ازای هر ۱ میلیون توکن خروجی (برای درخواستهایی تا ۱۲۸ هزار توکن)، ۶۰ سنت به ازای هر ۱ میلیون توکن خروجی (برای درخواستهای طولانیتر از ۱۲۸ هزار توکن)
توکنها قطعات داده خام هستند، مانند هجاهای “fan”، “tas”، و “tic” در کلمه “fantastic”؛ ۱ میلیون توکن معادل حدود ۷۰۰ هزار کلمه است. ورودی به توکنهایی اشاره دارد که به مدل داده میشود، در حالی که خروجی به توکنهایی اشاره دارد که مدل تولید میکند.
قیمت مدل Ultra هنوز اعلام نشده است و Nano هنوز در دسترس اولیه است.
آیا Gemini به آیفون خواهد آمد؟
ممکن است.
اپل گفته است که در حال گفتگو برای استفاده از مدلهای Gemini و سایر مدلهای شخص ثالث در تعدادی از ویژگیهای مجموعه Apple Intelligence است. پس از ارائهای در WWDC 2024، Craig Federighi، معاون ارشد اپل، تایید کرد که برنامههایی برای همکاری با مدلها از جمله هوش مصنوعی گوگل جمینای وجود دارد، اما جزئیات بیشتری را فاش نکرد.
این پست در تاریخ ۱۶ فوریه ۲۰۲۴ منتشر شد و از آن زمان بهروزرسانیهایی شامل اطلاعات جدید درباره Gemini و برنامههای گوگل برای آن دریافت کرده است.
برای دریافت جدیدترین اخبار تکنولوژی و آموزشها لطفا عضو خبرنامه سامانه ایران شوید.
دیدگاهتان را بنویسید