Natural Language Processing
Sep. 14th, 2011 05:15 amНе прошло и пяти часов траха, а я реализовал неточный поиск для TwitDo. Привожу лог своего твиттера:
@4todo Проверить поддержку mentions в TwitDo
@4todo Проверить Multitweets, задеплоить
@4todo Прочесть статью Петренко; сделать доклад по точным неприводимым представлениям.
@4done Прочёл Петренку; проверил mentions; multitwits
@4done Доклад о представлениях
Умный алгоритм правильно сопоставил все #done со всеми #todo. Коммичу код,
sorhed с утреца задеплоит.
P.S. Алгоритмец вышел нехилый такой. Там и умное учитывание диакритики (аксонов, ударений, точек над буквой йо), и нетривиальная обработка заглавных букв (так что Title Case игнорируется, а CamelCase нет), и обработка сокращений («как» и «кактус» остаются разными словами, а «тригонометрические» и «триг.» распознаются как одно и то же), потом хитрая комбинация двух разных метрик для сравнения слов и сравнения фраз, а в итоге умная машина, которая делает пользователю хорошо.
@4todo Проверить поддержку mentions в TwitDo
@4todo Проверить Multitweets, задеплоить
@4todo Прочесть статью Петренко; сделать доклад по точным неприводимым представлениям.
@4done Прочёл Петренку; проверил mentions; multitwits
@4done Доклад о представлениях
Умный алгоритм правильно сопоставил все #done со всеми #todo. Коммичу код,
![[livejournal.com profile]](https://www.dreamwidth.org/img/external/lj-userinfo.gif)
P.S. Алгоритмец вышел нехилый такой. Там и умное учитывание диакритики (аксонов, ударений, точек над буквой йо), и нетривиальная обработка заглавных букв (так что Title Case игнорируется, а CamelCase нет), и обработка сокращений («как» и «кактус» остаются разными словами, а «тригонометрические» и «триг.» распознаются как одно и то же), потом хитрая комбинация двух разных метрик для сравнения слов и сравнения фраз, а в итоге умная машина, которая делает пользователю хорошо.