Форум об интернет-маркетинге
Вернуться   Форум об интернет-маркетинге > Не про работу > Курилка

Курилка Автомобили, хобби, спорт. И Garik77 с металлоискателем. Коммерция запрещена.

Ответ
 
Опции темы
Старый 28.10.2025, 15:06   #101
HappySoftX
Senior Member
Доцент
 
Аватар для HappySoftX
 
Регистрация: 23.06.2020
Сообщений: 490
Сказал(а) спасибо: 1,960
Получил(а) "Спасибо": 2,556
Нарушения: 0/0 (0)
Репутация: 80425

Thread Starter Re: И снова об ИИ

Цитата:
Сообщение от burunduk Посмотреть сообщение
это обработка - разбор и кластеризация почти 1 миллиона текстовых строк

у HappySoftX, более простая обработка с помощью AI на питоне занимает сутки и как я понимаю на значительно меньшем объёме информации
С чего взял что более простая?
С чего взял что на питоне?
С чего взял что на значительно меньшем объеме информации?

зы как в анекдоте только не квартиру, а машину, не в лотерею а в покер, и не выиграл а проиграл
HappySoftX вне форума   Ответить с цитированием
Старый 28.10.2025, 22:28   #102
burunduk
попробуй отними
Профессор
 
Аватар для burunduk
 
Регистрация: 14.07.2020
Сообщений: 911
Сказал(а) спасибо: 1,129
Получил(а) "Спасибо": 2,182
Нарушения: 0/0 (0)
Репутация: 757769

По умолчанию Re: И снова об ИИ

Цитата:
Сообщение от HappySoftX Посмотреть сообщение
С чего взял что более простая?
потому что ты сам об этом говорил - тебе нужно определить деталь по названию
Цитата:
Сообщение от HappySoftX Посмотреть сообщение
С чего взял что на питоне?
ты же сам о нём писал
Цитата:
Сообщение от HappySoftX Посмотреть сообщение
С чего взял что на значительно меньшем объеме информации?
потому что у тебя ассортимент не 1м+ позиций, а максимум 20к и это очень оптимистично скорей всего не более 2к позиций
burunduk вне форума   Ответить с цитированием
Старый 29.10.2025, 00:15   #103
HappySoftX
Senior Member
Доцент
 
Аватар для HappySoftX
 
Регистрация: 23.06.2020
Сообщений: 490
Сказал(а) спасибо: 1,960
Получил(а) "Спасибо": 2,556
Нарушения: 0/0 (0)
Репутация: 80425

Thread Starter Re: И снова об ИИ

Цитата:
Сообщение от burunduk Посмотреть сообщение
потому что ты сам об этом говорил - тебе нужно определить деталь по названию
Это всего лишь говорит о том, что ты не понимаешь сложность задачи.

Цитата:
Сообщение от burunduk Посмотреть сообщение
ты же сам о нём писал
Ты тоже про него писал, и?

Цитата:
Сообщение от burunduk Посмотреть сообщение
потому что у тебя ассортимент не 1м+ позиций, а максимум 20к и это очень оптимистично скорей всего не более 2к позиций
Ты путаешь объем информации с объемом данных.
HappySoftX вне форума   Ответить с цитированием
Старый 29.10.2025, 06:09   #104
Неуч
Senior Member
Доцент
 
Регистрация: 24.05.2021
Сообщений: 235
Сказал(а) спасибо: 1,228
Получил(а) "Спасибо": 762
Нарушения: 0/0 (0)
Репутация: 1325791

По умолчанию Re: И снова об ИИ

Цитата:
Сообщение от burunduk Посмотреть сообщение
это обработка - разбор и кластеризация почти 1 миллиона текстовых строк

у HappySoftX, более простая обработка с помощью AI на питоне занимает сутки и как я понимаю на значительно меньшем объёме информации
Зависит от того что делать. Но вообще 1 лям строк - для питона это копейки. И 30 минут это реально долго. Просто надо уметь готовить

Ты же не знаешь что именно он делает, какие конкретно входные данные и какая конкретно задача. Только предположения. Сутки - это я хз что делать надо.
Лок'тар огар!
Неуч вне форума   Ответить с цитированием
Старый 29.10.2025, 09:52   #105
burunduk
попробуй отними
Профессор
 
Аватар для burunduk
 
Регистрация: 14.07.2020
Сообщений: 911
Сказал(а) спасибо: 1,129
Получил(а) "Спасибо": 2,182
Нарушения: 0/0 (0)
Репутация: 757769

По умолчанию Re: И снова об ИИ

Цитата:
Сообщение от Неуч Посмотреть сообщение
И 30 минут это реально долго. Просто надо уметь готовить
для каждой текстовой строки необходимо заполнить около 40 параметров, часть из которых это попадание в различные группы (их от 5 до 100 примерно) с указанием веса в данной группе, т.е. есть поле с классификатора объекта, например, описывающий тип недвижимости; комната, квартира (количество комнат), дом, гараж, баня....
необходимо проверить к какому типу относится текстовая строка и на какой позиции она (проверяемая строка) окажется в данных группах, строка может быть сразу в нескольких группах, и вот таких параметров около 40
изначально все группы пустые, по мере разбора они заполняются и веса в группах пересчитываются именно из-за этого и происходит такое замедление т.к. фактически это множественные итерации
burunduk вне форума   Ответить с цитированием
Старый 29.10.2025, 13:54   #106
vastmanager
ОПТимизирую оптом.
Академик
 
Аватар для vastmanager
 
Регистрация: 26.06.2020
Сообщений: 1,211
Сказал(а) спасибо: 1,519
Получил(а) "Спасибо": 3,260
Нарушения: 0/0 (0)
Репутация: 996513

По умолчанию Re: И снова об ИИ

Цитата:
Сообщение от Неуч Посмотреть сообщение
Зависит от того что делать. Но вообще 1 лям строк - для питона это копейки. И 30 минут это реально долго. Просто надо уметь готовить
Насчет питона согласен.
Вот на скрине объем данных в папке - 12-13 Гб. примерно.



Форматы разные. html, txt, word, excel и др.
Скрипт на питоне вытащил их этой кучи файлов нужные данные за 145 секунд.



И не только вытащил, но и обработал, т.е. произвел некоторые вычисления, затем всё записал в удобном виде в базу.
И поиск шел по более чем 2 тыс. разных вхождений нужных мне ключей.
Задача примерно как и по запчастям. Если скрипт находит в файлах от 10 до 16 необходимых ключей, он записывает этот контент в базу. Фактически текстовый контент готовый записывает.
vastmanager вне форума   Ответить с цитированием
Старый 29.10.2025, 15:37   #107
burunduk
попробуй отними
Профессор
 
Аватар для burunduk
 
Регистрация: 14.07.2020
Сообщений: 911
Сказал(а) спасибо: 1,129
Получил(а) "Спасибо": 2,182
Нарушения: 0/0 (0)
Репутация: 757769

По умолчанию Re: И снова об ИИ

Цитата:
Сообщение от vastmanager Посмотреть сообщение
И поиск шел по более чем 2 тыс. разных вхождений нужных мне ключей
по ключам это быстро, т.к. можно в многопотоковом режиме делать и запись в базу это не многочисленные итерации с уже отобранными данными при добавления новых
burunduk вне форума   Ответить с цитированием
Старый 29.10.2025, 16:04   #108
vastmanager
ОПТимизирую оптом.
Академик
 
Аватар для vastmanager
 
Регистрация: 26.06.2020
Сообщений: 1,211
Сказал(а) спасибо: 1,519
Получил(а) "Спасибо": 3,260
Нарушения: 0/0 (0)
Репутация: 996513

По умолчанию Re: И снова об ИИ

Цитата:
Сообщение от burunduk Посмотреть сообщение
по ключам это быстро, т.к. можно в многопотоковом режиме делать и запись в базу это не многочисленные итерации с уже отобранными данными при добавления новых
Нужен процессор с такт. частотой от 3 Ггц. и SSD накопитель. На HDD может часами работать.
Самое медленное тут - на винде удалить нафиг эти гигабайты с диска, когда они уже не нужны и данные все получены. Несколько минут могут удаляться даже минуя корзину. На Linux это мгновенно удаляется.
vastmanager вне форума   Ответить с цитированием
Старый 29.10.2025, 17:25   #109
HappySoftX
Senior Member
Доцент
 
Аватар для HappySoftX
 
Регистрация: 23.06.2020
Сообщений: 490
Сказал(а) спасибо: 1,960
Получил(а) "Спасибо": 2,556
Нарушения: 0/0 (0)
Репутация: 80425

Thread Starter Re: И снова об ИИ

У Gemini и ChatGPT есть очень хороший режим обучения. Фактически бесплатный репетитор, который еще и на голову выше большинства реальных. Очень хорошо объясняет, контролирует усвоение материала давая задания. У сына в школе очень слабая программа да и учитель слабоват. Сейчас каникулы, изучает питон. Довольно удобно.

У гпт большой плюс может код на питоне запускать прямо в чате. Но джемени стабильно хорош на своей легкой версии, в отличии от гпт который меняет модели для ответа.
HappySoftX вне форума   Ответить с цитированием
Старый 29.10.2025, 18:44   #110
burunduk
попробуй отними
Профессор
 
Аватар для burunduk
 
Регистрация: 14.07.2020
Сообщений: 911
Сказал(а) спасибо: 1,129
Получил(а) "Спасибо": 2,182
Нарушения: 0/0 (0)
Репутация: 757769

По умолчанию Re: И снова об ИИ

Цитата:
Сообщение от vastmanager Посмотреть сообщение
Самое медленное тут - на винде удалить нафиг эти гигабайты с диска, когда они уже не нужны и данные все получены
я исходники не удаляю, на внешний диск сразу их записываю

на самом деле самая большая проблема это длина пути к файлу в винде она ограничена 256 символов и количеством файлов в папке 32к
burunduk вне форума   Ответить с цитированием
Ответ


Ваши права в разделе
Вы не можете создавать новые темы
Вы не можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

BB коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.

Быстрый переход

Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
И снова о "Мастере и Маргарите" Irishfox Курилка 278 26.02.2025 11:29
снова я сосвоим парсингом seokotov Веб-строительство 41 11.01.2022 15:37
И снова про бриться! Had Курилка 29 23.11.2021 17:25


Текущее время: 06:07. Часовой пояс GMT +3.


Powered by vBulletin® Version 3.8.11
Copyright ©2000 - 2026, vBulletin Solutions Inc. Перевод: zCarot