Форум об интернет-маркетинге
Вернуться   Форум об интернет-маркетинге > Не про работу > Курилка

Курилка Автомобили, хобби, спорт. И Garik77 с металлоискателем. Коммерция запрещена.

Ответ
 
Опции темы
Старый 29.06.2024, 23:00   #191
HappySoftX
Senior Member
Доцент
 
Аватар для HappySoftX
 
Регистрация: 23.06.2020
Сообщений: 490
Сказал(а) спасибо: 1,926
Получил(а) "Спасибо": 2,516
Нарушения: 0/0 (0)
Репутация: 80425

Thread Starter Re: "Тупая" железяка

Цитата:
Сообщение от burunduk Посмотреть сообщение
мне не надо его находить, мне необходимо понять есть тут телефон (контактные данные) или нет
и про 100к строк на строку выше есть упоминание
Справедливости ради, давай вместе прочитаем внимательно.

Цитата:
Сообщение от burunduk Посмотреть сообщение
ну или совсем простая задача
необходимо проверить наличие номера телефона, в любом формате написания в текстовой строке
Цитата:
Сообщение от burunduk Посмотреть сообщение
ты просто не в курсе что такое регулярки
А ну да конечно. Еще домыслы будут?

Цитата:
Сообщение от burunduk Посмотреть сообщение
с точностью наоборот
Поразительно. С такой логикой прочитать книгу Война и мир будет быстрее чем этот пост. Ты реально не понимаешь, что чем больше операций тем больше времени?

Цитата:
Сообщение от burunduk Посмотреть сообщение
есть инструменты, тот же PQ

могу даже облегчить тебе задачу
PHP код:
(^|\s)((8|\+7)[\- ]?)?(\(?\d{3}\)?[\- ]?)?[\d\- ]{10}(\s|$) 
подумай как можно преобразовать что бы сразу получать результат

P.S. и ещё для того что бы получить количество цифр с помощью регулярки совсем не обязательно перебирать символы, можно использовать готовые функции, например, в том же SQL REGEXP_COUNT
ппц а готовые функции они блин моментально из хрустального шара получают телефоны. еще и таблицы приплел.

И да твоя регулярка выше 100% работать по условию задачи не будет.
HappySoftX вне форума   Ответить с цитированием
Старый 30.06.2024, 10:37   #192
burunduk
попробуй отними
Профессор
 
Аватар для burunduk
 
Регистрация: 14.07.2020
Сообщений: 905
Сказал(а) спасибо: 1,099
Получил(а) "Спасибо": 2,159
Нарушения: 0/0 (0)
Репутация: 757769

По умолчанию Re: "Тупая" железяка

Цитата:
Сообщение от HappySoftX Посмотреть сообщение
Справедливости ради, давай вместе прочитаем внимательно
там где-то написано что мне надо его извлечь?
мне необходим ответ да/нет

Цитата:
Сообщение от HappySoftX Посмотреть сообщение
Ты реально не понимаешь, что чем больше операций тем больше времени?
это ты реально не понимаешь что операции имеют разную длительность и 20 операций могут быть быстрее 1, а теперь прикинь свою 1 операцию которая в 70% случаев вообще будет ненужна

Цитата:
Сообщение от HappySoftX Посмотреть сообщение
а готовые функции они блин моментально из хрустального шара получают телефоны
а готовые функции они немного на другом уровне работают

вот ради интереса возьми и посчитай количество строк в таблице стандартной функцией и с помощью счётчика

Цитата:
Сообщение от HappySoftX Посмотреть сообщение
И да твоя регулярка выше 100% работать по условию задачи не будет.
её надо немного исправить, в данном виде она будет корректно отрабатывать в 90% случаев при условии что группы цифр начинаются с пробельного символа (это как раз достаточно легко исправить), но есть ещё один момент - необходимо разбить на более мелкие маски поиска по 1-3 цифры и использовать просмотр вперёд
burunduk вне форума   Ответить с цитированием
Старый 30.06.2024, 11:55   #193
HappySoftX
Senior Member
Доцент
 
Аватар для HappySoftX
 
Регистрация: 23.06.2020
Сообщений: 490
Сказал(а) спасибо: 1,926
Получил(а) "Спасибо": 2,516
Нарушения: 0/0 (0)
Репутация: 80425

Thread Starter Re: "Тупая" железяка

Цитата:
Сообщение от burunduk Посмотреть сообщение
а готовые функции они немного на другом уровне работают
ага останавливают время, бегают в параллельную вселенную за результатом. Твои готовые функции универсальны. Библиотека для регулярок это десятки других библиотек и тысячи строк кода.

Достал короче ты меня, пришлось тест запускать.

Для теста было дано 105 тыс. строк, 7.5 млн символов

Рабочий код выше, который уделает любое регулярное выражение, с посимвольным прогоном занял 506 мс.

Просто прогон по строкам регуляркой от бурундука, которая нифига не работает занял 18 сек 706 мс. Допиливание до работоспособного состояния еще увеличит время.

burunduk, будешь дальше с фактами спорить и фантазировать?

Еще раз может пропустил 0.5 и 18.7 секунд.
HappySoftX вне форума   Ответить с цитированием
Старый 30.06.2024, 12:23   #194
ziliboba0213
Позитив =)
Академик
 
Аватар для ziliboba0213
 
Регистрация: 21.06.2020
Адрес: Санкт-Петербург
Сообщений: 4,412
Сказал(а) спасибо: 25,091
Получил(а) "Спасибо": 13,926
Нарушения: 0/0 (0)
Репутация: 1412767

По умолчанию Re: "Тупая" железяка

Драка будет?
ziliboba0213 вне форума   Ответить с цитированием
Старый 30.06.2024, 14:08   #195
Reborn S.E.
Администратор
Аспирант
 
Аватар для Reborn S.E.
 
Регистрация: 14.06.2020
Сообщений: 86
Сказал(а) спасибо: 387
Получил(а) "Спасибо": 3,983
Нарушения: 0/0 (0)
Репутация: 791207

По умолчанию Re: "Тупая" железяка

Цитата:
Сообщение от ziliboba0213 Посмотреть сообщение
Драка будет?
нет, не будет: какая драка, когда они уже линейки достали?
Добро пожаловать на SE.GURU
Reborn S.E. вне форума   Ответить с цитированием
2 пользователя(ей) сказали cпасибо:
Старый 30.06.2024, 19:18   #196
ziliboba0213
Позитив =)
Академик
 
Аватар для ziliboba0213
 
Регистрация: 21.06.2020
Адрес: Санкт-Петербург
Сообщений: 4,412
Сказал(а) спасибо: 25,091
Получил(а) "Спасибо": 13,926
Нарушения: 0/0 (0)
Репутация: 1412767

По умолчанию Re: "Тупая" железяка

Цитата:
Сообщение от Reborn S.E. Посмотреть сообщение
нет, не будет: какая драка, когда они уже линейки достали?
Скучно
ziliboba0213 вне форума   Ответить с цитированием
Старый 30.06.2024, 19:47   #197
Reborn S.E.
Администратор
Аспирант
 
Аватар для Reborn S.E.
 
Регистрация: 14.06.2020
Сообщений: 86
Сказал(а) спасибо: 387
Получил(а) "Спасибо": 3,983
Нарушения: 0/0 (0)
Репутация: 791207

По умолчанию Re: "Тупая" железяка

Цитата:
Сообщение от ziliboba0213 Посмотреть сообщение
Скучно
линейку одолжить? ))
Reborn S.E. вне форума   Ответить с цитированием
Сказали спасибо:
Старый 30.06.2024, 20:47   #198
burunduk
попробуй отними
Профессор
 
Аватар для burunduk
 
Регистрация: 14.07.2020
Сообщений: 905
Сказал(а) спасибо: 1,099
Получил(а) "Спасибо": 2,159
Нарушения: 0/0 (0)
Репутация: 757769

По умолчанию Re: "Тупая" железяка

Цитата:
Сообщение от HappySoftX Посмотреть сообщение
Просто прогон по строкам регуляркой от бурундука, которая нифига не работает занял 18 сек 706 мс.
что-то ты наговнокодил, присер будет позже сейчас времени нет
burunduk вне форума   Ответить с цитированием
Старый 30.06.2024, 22:52   #199
HappySoftX
Senior Member
Доцент
 
Аватар для HappySoftX
 
Регистрация: 23.06.2020
Сообщений: 490
Сказал(а) спасибо: 1,926
Получил(а) "Спасибо": 2,516
Нарушения: 0/0 (0)
Репутация: 80425

Thread Starter Re: "Тупая" железяка

Цитата:
Сообщение от burunduk Посмотреть сообщение
что-то ты наговнокодил, присер будет позже сейчас времени нет
Ага код виноват, да гранаты у меня не той системы Думаешь здесь есть что то лишнее, из за чего такие плачевные результаты?

Код:
  
std::smatch result;
int i, cnt = strl.size();
std::regex phone_regex("(^|\\s)((8|\\+7)[\\- ]?)?(\\(?\\d{3}\\)?[\\- ]?)?[\\d\\- ]{10}(\\s|$)");
for (i = 0; i < cnt; i++) std::regex_search(strl[i], result, phone_regex);
Времени на код надо максимум 5 минут. Ты так уверено говорил про регулярки, что я аж засомневался. Самому стало интересно, может там нанотехнологии и работают они на другом уровне. Но нет, чуда не произошло 18 секунд.
HappySoftX вне форума   Ответить с цитированием
Старый 30.06.2024, 23:37   #200
vastmanager
ОПТимизирую оптом.
Академик
 
Аватар для vastmanager
 
Регистрация: 26.06.2020
Сообщений: 1,182
Сказал(а) спасибо: 1,474
Получил(а) "Спасибо": 3,201
Нарушения: 0/0 (0)
Репутация: 903053

По умолчанию Re: "Тупая" железяка

Для знатоков вопрос. Есть более простая задача. Без регулярок даже.
Имеется текстовый файл 9,5 Гб. объемом. В файле 360 млн. строк.
Это база запросов в Гугл на англ. языке за несколько лет.
Задача: Быстро сделать выборку из файла примерно по 100 тыс. вхождений.
В основном это однословные вхождения (ключи).
Вбиваем для выборки viagra к примеру, а оно нам выдает: buy viagra, online viagra и т.д. -
все ключи с вхождением этого слова.

При небольшом количестве запросов все реально сделать на домашнем компе при помощи
KeyWordKeeper - эта программа сеошникам хорошо известна. Также хорошо работает Penguin Keywords Tools,
но не на много быстрее.

Но нужно, чтобы выборка прошла по 100 тыс. однословных ключей.
Пока лучший результат получен при помощи системной утилиты grep на линуксовой машине 8 CPU 16 Гб. Ram
на процессоре Райзен. При загрузке процессора на 67% все заняло около суток.

Мне тут посоветовали оба файла загрузить в БД SqlLite3 и делать выборку уже в базе.
Даже скрипт на python прислали. Вроде так быстрее, хотя я не уверен. Пока предложенный код в базу не грузит ничего.
Хотя код запускается норм.
Вопрос такой - реально ли через БД быстрее будет? Или это враки. Разработчик уверял, что скорость выборки до 20-ти млн.
ключей в секунду. И если ТЗ грамотно составить, что может предложить ИИ по этому вопросу?
vastmanager вне форума   Ответить с цитированием
Ответ


Ваши права в разделе
Вы не можете создавать новые темы
Вы не можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

BB коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.

Быстрый переход

Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Отзывы: литературный конкурс "Первый 2024-ый, святочный"" valergapeev Курилка 113 02.02.2024 20:50
Литературный конкурс "Первый 2024-ый, святочный"" valergapeev Курилка 11 23.01.2024 21:42
Мегафон, тарифы "зеленый" и "звони легко", безлимит от 60 рублей в месяц dobroset Биржа услуг 16 19.03.2023 23:49
Ну и зачем сделали все подразделы "Не про работу" только для активных пользователей? Кокетыч О форуме 113 23.07.2020 17:28


Текущее время: 03:28. Часовой пояс GMT +3.


Powered by vBulletin® Version 3.8.11
Copyright ©2000 - 2025, vBulletin Solutions Inc. Перевод: zCarot